◆ ASJ 2024年秋季発表会にあわせたイベントのご案内
◆ 解説記事の解説:聴覚情報処理に基づく音声了解度の客観評価指標と最新動向
━♪━━━━━━━━━━━━━━━━━━
日本音響学会 学生・若手フォーラム
ASJ Freshニュース 第120号
2024年08月29日 発行
━━━━━━━━━━━━━━━━━━♪━
こんにちは!今月号のASJ Freshニュースでは,イベント案内と特別解説をお届けします.
日本音響学会2024年秋季研究発表会が間もなく開催されます.これに合わせて,学生・若手フォーラムが主催するさまざまなイベントの情報をお知らせします.
さらに,学生・若手フォーラム幹事の山本さんによる,音響学会誌に掲載された解説記事の解説の寄稿を特集としてご紹介します.
イベントのご案内
ビギナーズセミナー~音響研究者のキャリアパスについて~
音響研究の道を歩む学生や若手研究者の皆さんに向けて,学会初日に開催されるセミナーです.音響研究者としてのキャリア形成をテーマに,4名の登壇者がそれぞれの経験や知見を共有するライトニングトークを行い,その後,パネルディスカッションでさらに深掘りしていきます.このセミナーは,音響研究分野でのキャリアについて具体的なイメージを持ち,将来の進路を描くための絶好の機会です.研究者としての道を模索している方,さらなる成長を目指す方は,ぜひご参加ください.
【日時】2024年9月4日(水) 15:00 ~ 16:10
【場所】第4学者4号館4001, 関西大学千里山キャンパス
【テーマ】音響研究者のキャリアパスについて
【講演者】音響分野の研究者4名
【対象】研究発表会に参加する学生・若手研究者
【詳細】https://asj-fresh.acoustics.jp/event/2024-07-3766
【参加登録フォーム】https://forms.gle/wnY7usoLWZdMuHS59 (登録締め切り: 8/30 (金) )
若手研究者向けの飲み会
音響学会では,多様な分野から研究者が集まります.この飲み会は,研究室や分野の垣根を越えて,他の研究者や学生と自由に語り合える貴重な機会です.学生や若手研究者の皆さん,共にリラックスした雰囲気の中で,新しいつながりを築きませんか?
【日時】2024年9月4日(水) 18:30~21:00
【場所】ディアブロ(https://www.hotpepper.jp/strJ000687999/)学会の会場から 徒歩5分
【参加費】会費:学生: 3000円程度(飲み放題)社会人: 4000円程度(飲み放題)
【参加登録フォーム】 https://t.co/IY0ryYM3TN
学生ランチミーティング
このランチミーティングでは,昼食を楽しみながら,研究や学びのヒントを得ることができます.他の学生と意見交換し,異なる視点からの洞察を得ることで,研究活動の幅が広がるでしょう.ランチミーティングに参加して,新たなつながりを築きましょう!
【日時】2024年9月5日(木) 12:00 ~ 12:45
【会場】関西大学千里山キャンパス 新関西大学会館南棟 チルコロ
【参加費】無料(昼食の提供あり)
【対象】学生
【参加登録フォーム】 https://t.co/z34vBXVAlu (登録締め切り: 8/30 (金) )
解説記事の解説:聴覚情報処理に基づく音声了解度の客観評価指標と最新動向
1. はじめに
学生・若手フォーラム幹事の山本 (サイバーエージェント AI Lab)です.日本音響学会誌80巻7号 (2024) にて,自身の研究分野に関する小特集(解説)記事が発行されました.本稿では,この記事を執筆するきっかけやモチベーション,執筆で意識したことについて紹介したいと思います.
山本 克彦, 聴覚信号処理に基づく音声了解度の客観評価指標と最新動向, 日本音響学会誌, 2024, 80 巻, 7 号, p. 409-416, https://doi.org/10.20697/jasj.80.7_409(J-Stage※半年後に無料公開)
2. 記事を執筆したきっかけ・モチベーション
ちょうど一年前の2023年8月半ば,アイルランドのダブリンで開催された Interspeech 2023 の会場にて,編集担当の中鹿先生(電通大)から「日本音響学会誌で音声評価法の小特集記事を企画しているので協力してほしい」との相談がありました.私としては,以前から自身の研究分野である「音声了解度の客観評価指標」について解説記事を書いてみたいと思っていたので,喜んで快諾させていただきました.
私が以前から解説記事を執筆したいと思っていたのにはいくつか理由があります.一つ目は,音声了解度は音質と同様に重要な評価項目であるのにも関わらず,音質と比べると非常にマイナーです.二つ目は,音声了解度は聴取者の聴覚特性に大きく依存するため,聴覚や難聴のメカニズムおよびそのモデル化について理解する必要があります.三つ目は,音声了解度の予測モデルは信号処理ベースの古典的な手法が一般的でしたが,高性能な深層学習ベースの手法が次々と現れている昨今の状況を,私自身もなるべくフォローして整理する必要があったからです.最後に,このような内容を網羅した記事は極めて少なく,自分が一つの記事にまとめ上げることで,学生や初学者に興味を持ってもらいたい,と考えていたからです.本記事を執筆するにあたり,上記のモチベーションがあったため意欲的に進めることができました.
3. 執筆するときに意識したこと
日本音響学会2023年秋季研発では「聴覚におけるフィルタ分析と音声了解度予測への応用」というタイトルで招待講演をしていたので,ある程度の骨子はできていました.しかし,それは音声コミュニケーションという聴覚分野寄りのセッションだったため,分野外の学生や研究者に本当にわかりやすいのかといった部分について,より注意深く検討しました.その取り組みの一つとして,チーム内の勉強会にて検討中の構成に沿った発表を実施し,同僚からのフィードバックをもとに,記事の構成や内容を再検討しました.
聴覚メカニズムの概要については,信号の伝達モデルとして記述するまでの道筋をできるだけ簡潔に説明しました[*1, 2].音声了解度の客観評価指標については,入力信号の種類の違いの観点から,いくつかの方式があることを解説しました.また,評価指標の内部では特徴量を抽出する段階と,その特徴量から内部指標を計算する段階があることを前もって説明しました.その後,代表的な指標の説明に入ることで,それぞれの指標がどのようなアプローチで音声了解度に対応する数値を計算しているのかが理解しやすくなったかと思います.
上記の古典的な信号処理ベースの手法から深層学習ベースの手法への移り変わりについては,その大きなきっかけとなった機械学習ベースの補聴器信号処理プロジェクトである Clarity Project の話題も含めて解説しました.最先端のE2E音声認識ベースの手法に関しては,元の図をそのまま書き写し・翻訳するだけでなく,図中では省略されている後段の処理についても追記しました.また,本手法がコンペで発表されてから国際会議での論文までにどのような検討が行われたのか,ヒトの脳機能との関連性など,私自身がグッときた「推し」ポイントも含めさせていただきました.
3. 最後に
今回執筆した記事は,自身の研究分野を網羅的にまとめた初めての記事となりました.これまでにも多くの先輩研究者の方々が立派な解説記事を執筆されており,私も最後まで書き上げられるか最初は不安でした.しかし,自分が苦労しながら歩いてきた道を,今後の学生・若手研究者のために整備をしていると考えると,前向きな気持ちで執筆を進めることができました.先輩方の記事と肩を並べることができたかどうかはわかりませんが,自分としては現時点でベストの記事を書くことができたと思います. もし直近で冊子を手にする機会があれば,ぜひ読んであげてください.
[*1] より詳しく学んでみたい方は,少し古いですがCGによる聴覚末梢系の説明動画(https://youtu.be/PeTriGTENoc?si=GJS2gFmYDbsVIi3g)がお薦めです.また,外有毛細胞が刺激に合わせて踊っている動画(https://auditoryneuroscience.com/ear/dancing_hair_cell)もオススメです.
[*2] ブラウザ環境で気軽に聴覚フィルタを動かせるPythonパッケージ(GitHub)も公開しています.紹介記事(Zenn)もありますので,ぜひ遊んでみてください.
終わりに
今月号のASJ Freshニュースをお読みいただき,ありがとうございました.日本音響学会2024年秋季研究発表会や,学生・若手フォーラム主催のイベントが,皆さんの研究活動にとって有意義な機会となることを願っています.また,山本さんの解説記事もぜひご一読ください.
最新情報は,日本音響学会学生・若手フォーラム(@ASJFresh) / Twitterから随時発信しています!