インターンで自然言語処理のトップカンファレンスに採択されて発表した話

先日、マルタ共和国で開催されたEACLで口頭発表をしてきたので、そのことについて話させていただきます。

自己紹介

東京工業大学大学院の博士課程2年の向原悠太と申します。学院は環境・社会理工学院で原子核工学コースということで、理論核物理を専門としています。なので、自然言語処理とは全く接点がありません。

千葉工業大学のStair Labにて、2019年の私が千葉工業大学に所属しているときからインターンをさせていただいており、そこで自然言語処理の課題に取り組みました。今回の国際会議の発表はこのStair Labで行った研究内容の発表になります。

EACL2024

今回参加させてもらった国際会議はthe European Chapter of the Association for Computational Linguistics (EACL)というヨーロッパで開催される自然言語処理分野の国際会議です。非常に権威ある会議の一つで以下の採択率の表でもわかるようにフラグシップのカンファレンスに近いレベルで採択が難しいカンファレンスの一つのようです。今回はShort paperとして採択され、発表させていただけたことを本当に光栄に思います。

\begin{array}{r} \begin{array}{cccc} Long & Short & Overall \\ EACL 2021 & 24.7 % \\ EACL 2023 & 24.1 % \\ ACL 2023 & 22.1 % & 15.5 % & 20.7 % \\ EMNLP 2023 & 23.3 % & 14.0 % & 21.3 % \\ EACL 2024 & 21.3 % & 16.7 % & 20.3 % \end{array} \end{array}

ちなみに今回はマルタ共和国という地中海の島での開催でした。世界遺産の島で石灰岩でできた建物で街などは統一されとても美しい島です。

Image Not Showing Possible Reasons

The image was uploaded to a note which you don't have access to
The note which the image was originally uploaded to has been deleted

Learn More →

フェリーからの写真

発表の様子

発表について以下に出来事をまとめます。

自分のPCが使えない?!

私が最近参加したプレゼンテーションで、なんと自分のPCを使用することができませんでした。代わりに、提出していたPDFやパワーポイントを共用のPCで映し出してもらう形になったのですが、この情報を当日になって初めて知ったので、かなり焦りました。質問があった時用のAppendixが提出版にはなかったため、少し不安を感じました。

プレゼン資料の差し替えも可能だったのですが、聴講者がダウンロード可能な状態で、見せるべきではないメモなども含まれていたため、最終的には差し替えを避けることにしました。不本意ながら、紙のメモをお守りのように持ちながら、プレゼンテーションに挑みました。意外とこれが役立ち、何とか乗り切ることができました。

聴講者から2つと座長から1つ質問をもらった

プレゼン後の質疑応答では、聴講者から2つ、そして座長からもう1つ質問をいただきました。聴著者からの質問の一つが英語を理解しきれず、「後で話し合いましょう」という形で対応したことが心残りです。発表が終わった後に、共著者にその質問の対応をお願いする形になりました。

しかし、時間オーバーにも関わらず座長から質問をいただけたことは、私の発表に興味を持っていただけた証として非常に嬉しく感じました。それが大きな励みになりました。

以下の図は質疑応答中の写真で、手元のポインタを操作している部分だと思います。
共著者の方に撮っていただきました。

Image Not Showing Possible Reasons

The image was uploaded to a note which you don't have access to
The note which the image was originally uploaded to has been deleted

Learn More →

発表の様子

ポスター発表の聴講

口頭発表も聴講しましたが、議論がたくさんできたのはポスター発表でしたのでそちらの感想を少し述べます。

ポスター発表には日本人学生も多く参加していて、かなり活発な議論がされていました。質問もしやすかったので、私もいろいろなポスターで発表を聞いて質問させてもらいました。専門が全く違うため、本当の意味での素人質問になってしまいましたが、いろいろ議論してわかったことをまとめると、

データセットの作成は極めて重いタスク
- クラウドソーシングしている場合も多い
- 自動化は難しいため人の手で行うことがほとんど（今回の話では全部そうだった気がする？）
イメージしていたほどGPUで殴っている研究は多くない
GPT-3.5, GPT-4が比較の基準のようになっている
GPT超えるの難しい（GPTすごい）

といった感じです。最後に、発表会場の様子の写真を載せておきます。

Image Not Showing Possible Reasons

The image was uploaded to a note which you don't have access to
The note which the image was originally uploaded to has been deleted

Learn More →

ポスター発表の様子

おわり

今回の経験を通じて、プレゼンテーションの準備等は、常に柔軟に対応できるようにしておく必要があると再認識しました。そして、少しでも興味を持ってもらえたことへの喜びは、どんな小さな成功も大切にするべきだと教えてくれました。

また、分野の異なる私が、EACLで発表させていただけたことは非常に恵まれたことです。ここまで研究をさせていただき発表まで漕ぎ着けさせてくださったStair Labの重藤さん、新保さんに改めて感謝いたします。

今回発表した論文

Rethinking Loss Functions for Fact Verification

@inproceedings{mukobara-etal-2024-rethinking,
    title = "Rethinking Loss Functions for Fact Verification",
    author="Mukobara, Yuta and Shigeto, Yutaro and Shimbo, Masashi",
    editor = "Graham, Yvette  and Purver, Matthew",
    booktitle = "Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = mar,
    year = "2024",
    address = "St. Julian{'}s, Malta",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.eacl-short.38",
    pages = "432--442"
}