2023年度を振り返って

| Nov 24, 2024 min read

はじめに

  • 2024年度に入って結構経ちますが,改めて2023年度について振り返ってみようと思います.
    • 就活用の研究紹介と未来の自分・後輩のために.
  • 個人的に,2023年度は研究面で色々なことに挑戦した一年でした.

参加した学会

  • 2023年度に参加した学会は,以下の4つです.
    • NLP若手の会第18回シンポジウム (YANS2023)
      • 2023/8/29 - 2023/8/31
      • 仲田明良, 狩野芳伸(2023),「打ち言葉に特化させた学習手法を用いた親密度推定モデル」,『NLP若手の会(YANS)第18回シンポジウム』
    • NTCIR-17 カンファレンス
      • 2023/12/12 - 2023/12/15
      • Akira Nakada, Yoshinobu Kano(2023),「KIS’s Stance Classification Model at the NTCIR-17 QA Lab-PoliInfo-4」,『Proceedings of the 17th NTCIR Conference on Evaluation of Information Access Technologies』
    • 第16回データ工学と情報マネジメントに関するフォーラム(DEIM2024)
      • 2024/2/28 - 2024/3/1
      • 2024/3/4 - 2024/3/5
      • 仲田明良, 狩野芳伸(2024),「同一ハッシュタグ投稿に着目した対照学習によるトピック類似性を捉えた文ベクトルの獲得」,『第16回データ工学と情報マネジメントに関するフォーラム(DEIM2024)』
    • 言語処理学会第30回年次大会(NLP2024)
      • 2024/3/11 - 2024/3/15
      • 仲田明良, 狩野芳伸(2024),「Style SimCSE: SNSユーザ同一性に基づく対照学習によるスタイル類似性を捉えた文ベクトルの獲得」
  • こう見ると,1年の間に4つの学会に参加していることがわかります.
    • よく頑張った!!自分!!
    • 同じ研究テーマで複数回発表したわけではなく,それぞれ異なった研究テーマで発表を行いました.

NLP若手の会第18回シンポジウム (YANS2023)

発表内容

タイトル
  • 仲田明良, 狩野芳伸(2023),「打ち言葉に特化させた学習手法を用いた親密度推定モデル」,『NLP若手の会(YANS)第18回シンポジウム』
  • 論文公開なし
  • 奨励賞
概要
  • ケータイメイルの本文から会話相手との関係性に基づく親密度を推定する研究.
研究意義
  • SNS上のユーザは多様な関係性で繋がっている.リプライのテキスト情報からリプライ先のユーザとの親密度が取れたら,SNS上の多様な関係をより複雑にモデル化することができると考えられる.そこで,本研究では,前段階として親密度推定モデルの構築を行った.
工夫点
  • 打ち言葉ドメインのテキストは,言語モデルの事前学習に利用されるWikipepiaなどの書き言葉とは異なるため,Twitterを用いた追加事前学習を行った.
  • 親密度の推定には感情強度の強さが予測に寄与すると考え,前段階としてテキストの感情強度推定を行い,特徴量として使用した.

参加した動機

  • B2からB3にかけて言語処理や機械学習に関する輪講を行い,いざ研究を行うぞ!となったタイミングで自分的に何かきっかけが欲しいなと思うようになりました.そこで,YANS2023に参加することに決めました.
  • 発表してもいい内容なのか,,と不安でいっぱいでしたが,YANSのHPで「これから始まる,または始まったばかりの研究の発表を歓迎します.」という言葉を見て,決心がつきました.

感想

  • 静岡大学からの参加者は1名,初の学会参加ということで,正直すごい緊張していました.ただ,ここは振り切るしかない!と思って,参加できるイベント(ハッカソン,新米の会懇親会)には全て参加しました.結果的に,NLPコミュニティの温かさに触れ,全ての日程を楽しむことができました.
  • このYANSで他大学の同級生(当時のB4)がものすごい高いレベルで研究をしていることを知り,自分も頑張ろうという気持ちになったのが1年間頑張れた理由の一つかなあと思います.
    • 初の学会参加がYANSで良かったと今でも思います!

NTCIR-17 カンファレンス

発表内容

タイトル
  • Akira Nakada, Yoshinobu Kano(2023),「KIS’s Stance Classification Model at the NTCIR-17 QA Lab-PoliInfo-4」,『Proceedings of the 17th NTCIR Conference on Evaluation of Information Access Technologies』
  • 論文リンク
  • タスク1位
  • Best Oral Presentation Award
  • Best Poster Presentation Award
概要
  • 地方議会の会議録中の政治家の発言が賛成の発言か,反対の発言なのかの分類を行うモデルの構築.
研究意義
  • 情報が簡単に入手できる時代になり,ファクトチェックやフェイクニュース検出の重要性が高まっている.政治家の発言の信ぴょう性を判断するためには,まず政治家がどのような立場で発言しているかを知ることが重要である.
工夫点
  • 政治家の発言のような「話し言葉」はWikipepia等の事前学習データには含まれないため,国会議事録を収集し,追加事前学習データとして利用することで政治ドメインに適応させた.
  • 政治家の発言はモデルの最大入力長を超えたものが多いため,先頭から切り詰めるのではなく,重要な発言が含まれていると考えられる先頭と後半を切り詰めて使用した(Head-Tail法).

参加した動機

  • NTCIRの特徴として,評価型のワークショップが開催されているという点が挙げられます.TRECやCLEFのイメージに近いです.日頃,通常の研究をする中で他の研究者とリーダーボード形式で精度を競うという場面はほとんどないと思います. そんな中で,自分の実力的なものを知るためにも,NTCIRに参加してみたいと思いました. また,自分の実装を論文として発表できる点も魅力的だと感じました. 以上の理由から参加を決めました.

感想

  • まず,結果からです.結果的に,自分が参加したタスクの中で1位になることができました.リーダーボード形式で自分の精度がすぐに記録として反映されていくのはやっていて新鮮で楽しかったです.
  • 続いて,大きな経験だったのが英語発表だった点です.1回目のYANSでポスターを作った時と同様,分からないことだらけでした.ですが,日本開催の学会ということもあり,程よい緊張感で進めることができ,英語での発表に慣れるいい経験になりました.

第16回データ工学と情報マネジメントに関するフォーラム(DEIM2024)

発表内容

タイトル
  • 仲田明良, 狩野芳伸(2024),「同一ハッシュタグ投稿に着目した対照学習によるトピック類似性を捉えた文ベクトルの獲得」,『第16回データ工学と情報マネジメントに関するフォーラム(DEIM2024)』
  • 論文リンク
  • 学生プレゼンテーション賞
概要
  • SNSの投稿文のハッシュタグの違い(≒トピックの違い)を捉えることができる文埋め込みモデルの構築を行った研究.
研究意義
  • SNSの投稿文から同じトピックの投稿文を検索したいというニーズを考えた時,ハッシュタグは有用な手段である.しかし,全ての投稿文にハッシュタグがついているとは限らないため,本研究によって得られる文埋め込みモデルを使うことで,ハッシュタグの有無に関わらずトピックが似た投稿文を検索することが可能になる.

参加した動機

  • DEIMには,SNS分析に特化したトラックがあり,昔から自分の研究に関連する論文などを検索するとDEIMの論文がヒットすることが多かったです(日本語だとほぼDEIMの論文がヒットするイメージ).そのため,個人的にずっとDEIMには参加してみたいと思っていました.しかし,研究室の通例として,学会参加は言語処理学会が多かったため,過去に自分の研究室からDEIMに参加した人はいませんでした.そこで,2つの研究を進め2件発表することで,DEIMと言語処理学会の両方に参加するという作戦を立てました.後述しますが,DEIMと言語処理学会の研究内容はベースとなるコンセプトは似ていたため,2つの学会でもらえる意見にどのような違いがあるのかも興味がありました.

感想

  • 参加した感想としては,めちゃめちゃ楽しかったです.デザートがケータリングとして大量に無料で配られ,ネットワーキングなどの参加者同士の交流も盛んに行われました.主催者側の工夫が感じられる学会でした.
  • 口頭発表を全員がオンラインで行い,その後別日程でポスター発表を現地で行うという仕組みも新鮮でした.口頭発表を聞いて面白かった研究にはポスター発表で質問をしに行くということができ,より深く研究内容について知ることができました.学会でありがちな,気になる人の発表と自分の発表の時間が被っていて聞けないということも,この仕組みならあまりないのかなと思いました.

言語処理学会第30回年次大会(NLP2024)

発表内容

タイトル
  • 仲田明良, 狩野芳伸(2024),「Style SimCSE: SNSユーザ同一性に基づく対照学習によるスタイル類似性を捉えた文ベクトルの獲得
  • 論文リンク
概要
  • 意味的な側面ではなく話し方や文体の特徴を捉えるように文埋め込みモデルの学習を行なった研究.
研究意義
  • 一般的に使用される文埋め込みモデルは,意味的な類似性を捉えるように学習が行われるが,下流タスク(性別判定,生成文へのスタイル付与)によっては,意味的な側面ではなく話し方や文体が予測に寄与するような場面も考えられる.本研究によって得られる文埋め込みモデルは,文体の違いを捉えることが可能である.
工夫点
  • 同じユーザの投稿文ペアと他のユーザの投稿文ペアを比較したとき,同じユーザの投稿文ペアには文体(主語や語尾)の共通点が見られると考えらる.本研究ではユーザ同一性に基づく対照学習を行うことで同じユーザの投稿文が近づくように学習を行った.この学習では,投稿文についたユーザ識別子のみがあればいいので,人手によるラベル付を必要とせずデータを増やすことが可能である.

感想

  • YANSに初参加したときは,右も左もわからない状態でしたが,半年が経った言語処理学会では,自分の研究について自信を持って発表することができました.この変化は,研究を進める中で自分が成長できたことを示していると思います.また,YANSの時はただ漠然と見ていた他の研究者の発表も,言語処理学会では,ある程度の知識を蓄えた上で聞くことができ,他の研究者の研究内容についても理解を深めることができました.ただ,研究内容が分かるようになったからこそ,周りの研究者のレベルの高さを痛感することになりました...次参加するのは,おそらくNLP2026になると思いますが,その時にはもっと研究を進めて,質の高い研究を発表できるように頑張りたいと思います!

学会以外の活動

  • 研究の業績が認められて,令和5年度学長表彰を受賞しました!✌️
  • 大学4年間の学業成績が認められて,令和5年度浜松工業会学習奨励賞を受賞しました!🎉
    • 今後も研究面,学業面ともに精進していきます!

まとめ

  • 2023年度は研究をいろいろ頑張りました.2024年度は,就活で少し忙しいですが,共著で関わっているプロジェクトを進めるなど,自分ができる範囲で研究に関わり続けています.今後ともよろしくお願いします!