ASJ Freshニュース 第77号(2020年11月30日号)

ASJ Freshニュース

◆ INTERSPEECH2020 参加報告
◆ DCASE2020 参加報告

━♪━━━━━━━━━━━━━━━━━━
日本音響学会 学生・若手フォーラム
ASJ Freshニュース 第77号
2020年11月30日 発行
━━━━━━━━━━━━━━━━━━♪━

はじめに

 みなさんこんにちは!今月号はコロナ禍でも研究活動に積極的に取り組んでいる方々の参加報告です!

 1つ目は,10月25~29日に開催されたINTERSPEECH 2020の参加報告です.今回のINTERSPEECHは全編virtual開催であり,国内からも参加しやすかったのではないでしょうか.

 2つ目は,11月2〜3日に開催されたDCASE 2020の参加報告です.DCASEに関してもINTERSPEECHや様々な学会同様virtual開催であり,ASJ Freshニュース第75号の後半にも告知や,詳しい紹介が載っています!ぜひ,ご活用ください!

♪*♪*♪━━━━━━━━━━━━━━━━━INTERSPEECH 2020 参加報告━━━━━━━━━━━━━━━━━♪*♪*♪

1.はじめに

 東京大学修士2年の佐伯と申します.猿渡・小山研究室で声質変換や音声合成について研究しています.INTERSPEECH 2020に参加し,聴講と2件の発表を行いました.INTERSPEECHは音声分野では世界最大規模の国際会議であり,今年はCOVID-19の影響でオンライン開催となりました.今年の投稿数は2103件で,採択率は約48.5%とのことです.

2.会議の様子・感想

 今年は初めてのvirtual開催だったということもあり,例年とはかなり異なる発表形式での開催となりました.まずオーラル発表とポスター発表が統合され,各発表に5分の持ち時間が与えられてZOOMを使って発表を行う形式になりました.発表の最初の1.5分間で,事前に提出したhighlight videoを再生し,それを元に残りの3.5分でQ&Aを行い,セッションの最後に再度議論の時間が設けられるという流れでした.また,会議のポータルサイトで原稿と15分程度のpresentation videoが見られるようになっていました.聴講した感想としては,1.5分のhighlight videoで研究内容を理解しなければならないため,セッションの間に発表内容を理解するのが大変でした.また,Session Chairの方々も,highlight videoの情報だけで議論を促さなければならないので,進行が非常に難しそうな印象を受けました.ただ,ICASSP 2020で発表した際は,presentation videoをアップロードしてチャット形式で質問を受け付けるだけだったので,今回のようにリアルタイムに質疑応答ができたのは非常に良い経験になりました.発表中にビデオをオンにする時は,ZOOMの背景に上海の写真を設定することになっており,実際に現地に行って発表したかのような気分が味わえる配慮がなされていました.

INTERSPEECH 2020で実際に使用したzoom背景

3.発表内容

 Show & Tell sessionにて1件の主著発表と,1件の共著発表がありました.”Real-time, full-band, online DNN-based voice conversion system using a single CPU”という主著発表では,48kHzサンプリングの音声を1CPUでリアルタイムに変換する声質変換システムを発表しました.従来のリアルタイム声質変換と比較して顕著に高音質な手法になっており,presentation videoにはリアルタイムデモを載せて発表を行いました(https://www.isca-speech.org/archive/Interspeech_2020/abstracts/4011.html).

 ”End-to-End Deep Learning Speech Recognition Model for Silent Speech Challenge”では,口唇動画像と舌の超音波動画像から発話内容を推定するSilent Speech Recognitionというタスクにend-to-end ASR modelを適用する手法を発表しました.こちらは共著であり,主著者の東京大学・木村さんが発表を行いました.

4.おわりに

聴講や発表を行う中で,virutual conferenceの運営はまだまだ難しそうな面が多いとは思いましたが,参加できて大変勉強になり,研究のモチベーションも大いに上がりました.また発表できるよう,今後も研究を頑張りたいと思います.あと,できれば現地に行きたいので,COVID-19が一刻も早く終息してオンサイトの国際会議が復活することを切に願います.

(東京大学大学院 情報理工学系研究科 修士2年 佐伯高明)

About
Takaaki Saeki

♪*♪*♪━━━━━━━━━━━━━━━━━━━━DCASE 2020 参加報告━━━━━━━━━━━━━━━━━━━━♪*♪*♪

1.はじめに

DCASE2020 Workshop (DCASE: Detection and Classification of Acoustic Scenes and Events) に参加させていただきました,立命館大学 砺波です.今回は,初のアジア圏(東京)開催のはずでしたが,昨今の事情もあり,全面オンラインでの開催となりました.以降の構成は,2章:DCASEの説明,3章:参加した感想,4章:自身の発表内容,5章:まとめ,となります.

2.DCASEの概要

DCASEは,ChallengeとWorkshopから構成される,環境音分析に特化した国際的なコミュニティです.Challengeでは,毎年,音響シーン分類や音響イベント検出といったタスクがいくつか出題されます.Challengeは,参加者が各々のシステムの性能を競い合う,コンペティションになっています.2020年の開催で6回目となり,徐々にホットになってきていますが,未だ黎明期と言える分野でもあります.今回で5回目の開催となるWorkshopでは,前述のChallengeで開発されたシステムや,それに伴う研究,その他環境音分析に関わる研究が,シングルトラック形式にてオーラル/ポスターで毎年発表されます.

また,本稿では紹介しきれなかったDCASEの詳細や,環境音分析の基本的な技術などは,日本音響学会誌75巻9号に,環境音分析特集が組まれているので,気になる方はぜひそちらもご覧ください.

・DCASE:http://dcase.community/

・日本音響学会誌75巻9号:https://www.jstage.jst.go.jp/browse/jasj/75/9/_contents/-char/ja

3.参加した感想

 DCASE2020 Workshopは昨今の状況もあり,オンラインで開催され,去年参加したDCASE(ニューヨーク開催)とは大きく異なりました.いずれの地域からも容易に参加できることはオンライン開催の利点だと改めて感じました.また,参加費が無料だったということもあり,これを機会に環境音分析に興味を持った方がたくさんいらっしゃったのではないでしょうか.

 今回,自身もポスター形式にて発表させていただきました.ポスター発表では,事前に録画した15分程度の発表動画と,テキストを介したチャット形式のリアルタイムの議論というオンデマンドで進行しました.物理開催と異なり,Workshopが開催されている期間中は,いつでも議論が可能でした.このため,学会参加時は毎回,事前にどの発表をいつ聞くか?などを綿密にスケジューリングしていましたが,今回は,それほど時間を管理する必要は感じませんでした.また,発表動画の作成にあたり,音響まわりや,動画編集技術など様々な点で不慣れだったため,今後,研鑽していこうと思いました.

 一方で,オーラル発表や特別講演などは,基本的にはビデオチャットを介してリアルタイムで進行しました.ビデオチャットを介した議論では,普段慣れない英語のコミュニケーションを円滑にするために,高品質なマイクやスピーカが必要だと強く感じました.

4.自身の発表内容

 DCASE2020 Workshopでは,音響イベント検出に向けた評価指標に関する研究を発表しました.従来の評価指標(F-scoreなど)では,例えば,「zoo」というシーンで誤検出された「elephant」という音響イベントと,「airplane」というシーンで誤検出された「elephant」は,同じ種類の誤りとして扱われていました.採択された論文では,後者のような誤りを深刻な誤りとして扱うことで,より現実的な音の発生状況を考慮した評価指標を提案しています.

 また,自身の発表ではないですが,環境音の合成に向けたオノマトペデータセットに関する発表もありました.今後の動向に注目です!!

5.まとめ

 つらい時期が続きますが,また皆さんと元気にお会いできることを楽しみにしています!筆者は,原著論文でも書きながら気長に待つことにします.

(立命館大学 情報理工学研究科 砺波紀之/Noriyuki TONAMI)

タイトルとURLをコピーしました