NLP2023 に参加しました:座長編

技術部機械学習グループの原島です。本連載では山口(@altescy)が発表編を、深澤(@fukkaa1225)が聴講編をお届けしてきました。最後にお届けするのは座長編です。

学会があれば発表があり、発表があればセッションがあり、セッションがあれば座長がいます。今年の言語処理学会であれば、延べ 80 人以上もの座長がいたようです。

このように沢山の座長がいるわけですが、その仕事には馴染みがない人も多いのではないでしょうか。そんな人にも、ある日突然、座長の依頼はやってきます。

このブログでは、単なる一つの事例ではありますが、今年の言語処理学会において私が座長として行なったことや気をつけたことについてお話します。

座長の仕事

座長の仕事はおおきく会期前と会期中にわかれます。会期中に関しては、さらに、セッション前とセッション直前、セッション中にわかれます。

会期前

例年、座長の依頼は会期の一ヶ月くらい前にきます。セッションの名前と日時、仮のプログラムが伝えられるので、特に問題がなければ、了承の旨を伝えます。会期の三週間くらい前から大会参加マニュアル等の情報が公開されるので、しっかり目を通しておきます。

もちろん、担当セッションの論文にも目を通しておきます。余談ですが、今年は会期の一週間前に予稿集が一般公開されましたね。私は去年と一昨年のプログラム委員を務めており、予稿集の一般公開にも関わっていた(というか、実作業を担っていた)のですが、一般公開されたのは会期の一ヶ月後だった記憶があります。今年のように論文のアクセシビリティが上がるのはすごくいいですね。

また、予稿集の一般公開と同時に slack がオープンしたので、担当セッションのチャンネルに入っておきます。自分の自己紹介を書いたり、発表者の自己紹介や論文紹介を促します。これはオンライン開催やハイブリッド開催ならではの文化ですね。

会期中

セッション前

セッションの前日までに slack のチャンネルに発表者を invite しておくと安心です。会期の一週間前に slack がオープンしても、全員がすぐに slack に入るわけではありません。むしろ、会期が始まってから入っている人の方が多い印象を受けました。セッション直前に「発表者がいない!」と焦らないように、早めに invite しておくとよいです。発表者がまだ slack に入ってない場合は、共著者に声をかけるとよいです。

セッション直前

開始 15 分前に担当セッションの zoom がオープンするので、入ります。現地のスタッフに進行管理の説明を受けつつ、疑問点等があれば、解消します。私はリモート参加の座長だったので、現地の様子がはっきりわかりません。発表に対する質問が現地であった場合、それがどのように座長に伝えられるのかを聞いたりしました(ちなみに、質問があった場合は現地のスタッフが都度教えてくれました)。

リモート参加の座長にとって重要なポイントをあと二つ挙げておきます。一つはセッションの時間を間違えないことです。現地参加であれば人の動きで次のセッションが始まる雰囲気を感じ取れます。リモート参加ではそうはいきません。座長がうっかり遅刻したなんてことは絶対に避けましょう。私は部屋中のアラームを鳴らしました。

もう一つは zoom の URL を間違えないことです。「そんなん間違えるやつおらんやろ」と思うかもしれませんが、私は去年間違えました(しかも、参加者が数百人にも及ぶチュートリアルの座長でした)。直前に間違いに気づき、事なきを得ましたが、リモート参加ならではのうっかりポイントの一つだと思います。気をつけましょう。

開始 1 分前になったら、セッションの名前と座長の名前や所属、発表の件数や形式、質疑の形式等を参加者に伝えます。

セッション中

ついにセッションが始まりました。発表者の名前と所属を告げ、発表を始めてもらいます。今年は各発表用のスライドが slack に事前にアップロードされていました。そこで、発表が始まったら、発表用のスライドへのリンクを slack に貼るようにしました。また、セッションを盛り上げるため、slack 上の発言には積極的に絵文字を送るようにしました。

今年は発表者が多いこともあり、口頭発表の時間は 15 分、質疑応答の時間は 3 分でした。発表開始後、13 分と 15 分にタイマーが鳴ります。そこで、15 分を過ぎたら、発表をまとめてほしい旨を発表者に伝えようと思っていました。思っていましたが、みなさん、しっかり 15 分にまとめていたので、特になにもすることはありませんでした。

発表が終わると忙しいです。上記の通り、今年は質疑応答の時間が 3 分しかありませんでした。しかも、最後の 1 分は発表者の入れ替えの時間です。基本的には現地の質問を順番に取りあげます。時間があれば slack の質問も取りあげるつもりでしたが、質問も多く、時間も短かったので、ほとんどそういったことはありませんでした。残り 1 分になったら、slack での質問を促すようにします。slack は時間や場所を選ばず議論ができるのが便利ですね。今後、オフライン開催に戻っていったとしても、この仕組みは残ってほしいです。

すべての発表が終わったら、発表者や参加者にお礼を述べて、セッションを締めます。最終的には slack も zoom も 70 名以上もの方にご参加いただきました。盛り上がってよかったです。

H11: 言語処理応用 (2)

せっかくなので、私が座長を担当したセッション「H11: 言語処理応用 (2)」で発表された研究を紹介します。未来学や医療、調理科学、広告等、様々な分野における自然言語処理の応用に関する研究でした。

H11-1: ホライゾン・スキャニングの自動化のための言語処理応用

未来学の分野では、未来に起こりうる社会変化についてシナリオを記述するため、大規模な情報の収集(ホライゾン・スキャニング)と集約(プランニング)が行われているそうです。この研究では前者に着目し、未来を示唆する文書の探索とそれらに対するコメントの生成というタスクに取り組んでいます。

2,266 記事からなるデータセットの構築・分析、BERT や word2vec 等の文書探索モデルの評価、BART やリード 3 法のコメント生成モデルの評価等は、いずれも今後の研究の基準・基盤となる成果だと思いました。未来学の分野における自然言語処理の応用可能性を感じる研究でした。

H11-2: 所望の患者データを作る:Variational Auto-Encoderによる症例報告生成

医療言語処理の分野では、プライバシーの問題から共有可能なコーパスが少ないという課題があります。そのため、コーパス生成の研究が盛んです。GPT 等の利用も考えられますが、プロンプトのデザインは恣意的であるため、コントロール性の高い生成が困難という問題があります。例えば、プロンプト 1 とプロンプト 2 の中間的なプロンプトをデザインするのは難しいでしょう。

そこで、この研究では Variational Auto-Encoder(VAE)の利用を試みています。VAE の潜在変数は連続的であるため、コントロール性の高い生成が可能です。実験では VAE の入出力が似ている(医学概念を再構成できる)こと、潜在変数の変化が出力に変化を与える(生成がコントロール可能である)ことが示されています。

H11-3: 食感の物性と言語表現の対応の推定

こちらは食感の物性(硬さ、凝集性、粘着性)と表現(柔らかい、ふわふわ、...)の対応を推定する研究です。調理科学分野の実証データにおける「(a) 食感の物性」と「(b) 材料の濃度」の対応と、トピックモデルで推定した「(b) 材料の濃度」と「(c) 食感の表現」の対応を (b) で紐付けることで、(a) と (c) の対応を推定しています。

仕事柄、レシピに関する研究はかなり見てきたつもりでしたが、このような研究は初めて見ました。非常に新規性が高い研究だと思います。実際に食感の物性と表現の一致性が示されたのも面白いです。

余談になりますが、この研究では、我々が 2015 年に公開したデータセットが使われていました。こういった面白い研究に使ってもらっているのを見ると、我々も非常に嬉しいです。

techlife.cookpad.com

H11-4: 広告文生成タスクの規定とベンチマーク構築

近年、広告市場の成長に伴い、広告文生成の研究が盛んです。一方、共通のデータセットがないため、タスクの合意形成が取られておらず、手法の比較も難しいという課題がありました。この研究ではこれらの課題を解決するため、CA Mutimodal Evaluation for Ad Text Generation(CAMERA)というデータセットを構築・公開しています。

CAMERA には LP と検索キーワード、広告文のセットが 1.6 万件ほど含まれているそうです。LP については画像も含まれているため、マルチモーダルの研究にも使えます。また、評価用のデータには業種ラベルが付いているため、業種ごとの評価にも使えます。この研究は有用性の観点で委員特別賞を受賞されていましたが、納得の選考です。おめでとうございます!

H11-5: 大規模言語モデルによる脚本データの解析: プロダクト・プレイスメント挿入箇所の探索と評価

ドラマや映画等の小道具や背景に商品や企業ロゴを露出する広告手法を「プロダクト・プレイスメント(PP:Product Placement)」と呼ぶそうです。PP を挿入できるシーンの探索や挿入する根拠の提示には担当者の時間や経験を要するという課題があります。この研究では大規模言語モデルを使い、これらの課題の解決を試みています。

具体的には、GPT-2 や GPT-3 を使い、脚本中の顕在性が高いシーンや商品と関連性が高いシーンを抽出しています。特に Select all of the following sentences that conatin beverages といったプロンプトで脚本から飲料との関連性が高いシーンを抽出するのは GPT-3 の利用事例としてユニークだと思いました。こちらの研究はスポンサー賞の一つである博報堂DYホールディングス賞を受賞されています。おめでとうございます!

おわりに

このブログでは、今年の言語処理学会で私が座長として行なったことや気をつけたことについてお話しました。これらは学会や学会の開催形式、セッションの発表形式等によって違うと思います。それでも、このブログがこれから座長を引き受ける人のなにかの参考になれば幸いです。

言語処理学会には基本的に毎年参加していますが、今年もおおいに楽しませてもらいました。ハイブリッド開催の運営は大変だったと思います。大会委員会の皆様、大会プログラム委員会の皆様、大会実行委員会の皆様、ありがとうございました。来年は神戸ということで、いまから楽しみにしております。

発表編、聴講編、座長編とお届けしてきた NLP2023 参加報告もこれで終わりです。ここからは、学会で見聞きした最新の研究成果を実際のサービスで使っていくフェーズです。

クックパッドでは機械学習エンジニアを募集しています。また、学生の方に対しても就業型インターンシップ(機械学習コース)を開設しています。本連載を読んでご興味を持った方がいらっしゃれば、是非、私達の採用サイトをご覧ください。ご連絡をお待ちしております。