◆ 音声コーパス紹介
━♪━━━━━━━━━━━━━━━━━━
日本音響学会 学生・若手フォーラム
ASJ Freshニュース 第88号
2021年11月30日 発行
━━━━━━━━━━━━━━━━━━♪━
みなさんこんにちは!ASJ Freshニュース今月号では、音声合成の研究にかかせない音声コーパスについて紹介します!音声コーパスとはどんなものか説明し、よく使われる音声コーパスの中で代表的なものを紹介していきます。
音声コーパス紹介
はじめに
最近の合成音声ってリアルになったと思いませんか?これは計算機能力の向上や深層学習の登場だけでなく、大容量の音声コーパスの整備・公開がなされたことも大きいんです。
そこで今月は、これから音声合成の研究を始める方を対象に、音声コーパスについて特集していきます!
音声コーパスとは
音声コーパスとは音声データの集積、すなわち音声データベースのことを指します。元々『コーパス』とは『文章の集積』を指し、音声データベースを表す用語ではありませんでした。しかし、『データベース』という単語は、情報工学の分野ではデータ構造やデータを管理するシステムを指すことがあります。そこで、紛らわしさを避けるため、音声データの集積についても『音声コーパス』と呼ばれるようになりました。
コーパスを選ぶうえで注目すべきポイント
○データ量
Sequence-to-sequence モデルの登場により、学習に数千・数万発話規模の音声コーパスを用いるのが当たり前になりました。しかし、データ量が増えるにつれコーパス整備にかかる時間と費用は増加するので、一般にコーパスの容量と品質はトレードオフの関係にあります。学習済みモデルが提供されているのであれば、fine-tuning などの工夫で少ないデータでも十分な品質が得られるかもしれません。手法や検証したい仮説から要請されるデータ量・品質を見極めて音声コーパスを選ぶことが重要です。
○収録環境
通常の室内で録音された音声にはコンピュータやエアコンなどの機器から出る雑音や部屋の残響を少なからず含んでいます。そのような収録環境の音声を用いて訓練されたシステムはノイズや残響も一緒に合成してしまいます。手法同士を比較する際に劣化が音声コーパスと手法どちらに由来するものなのか分からなくなるのを避けるため、極力無響室やスタジオなど騒音源が少ない環境で収録されたコーパスで実験を行いましょう。
○音素バランス
音素バランスとは「どの音素も不足なく等確率で現れる※」という基準です。
特に統計的パラメトリック音声合成においては、言語特徴量と音声特徴量が一対一に対応することを仮定しているため、音声コーパスが音韻を幅広くカバーしていることは重要です。一方で、end-to-end のようなテキストと音声の対応を自ら学習するようなモデルには、音素バランスよりも幅広いドメインの文章を数多く収録したコーパスを用いた方が頑健性は向上するでしょう。
※:「この世のすべての日本語文章を集めたときの音素の分布にどれだけ近いか」という立場もあります。音声合成においては、なるべく未出現の音素を減らし、かつ一様に含めたほうが望ましいので、上記の定義を用いることが多いです。
○ライセンス
音声コーパスによっては利用範囲を制限しているものがあるので注意が必要です。評価実験のために音声の一部を第三者に渡す行為は厳密には再配布に該当します。また、既存のコーパス文にメロディを付けた歌声データを公開する(そんな人滅多にいないとは思いますが)といった行為は翻案物の公開にあたります。コーパスを利用する際にはこれらの行為がライセンスに抵触していないか確認するようにしましょう。
代表的な音声コーパス
音声合成研究で利用されることの多い音声コーパスを一覧にしました。ぜひ自分の研究にピッタリの音声コーパスを見つけてみてください。
以下のリンクからExcelシートをダウンロードできます。
さいごに
今月号では、音声合成の研究で使われる音声コーパスとはなにか、コーパス選定のポイント、そして代表的な音声コーパスをご紹介しました!音声コーパスを通して、音声合成分野の研究に興味をもっていただけたら幸いです。ほかにどんな音声コーパスがあるか気になりましたら音声資源コンソーシアムのコーパスサーチ( http://corpus-search.nii.ac.jp/index_ja.html )や下記の参考文献をのぞいてみてください。
参考文献
- 音声資源コンソーシアム http://research.nii.ac.jp/src/index.html
- 音声合成・歌声合成のコーパス まとめ https://note.com/npaka/n/na4e7f38d4c1c
- 声庭 (Koniwa): An open collection of annotated voices in Japanese language https://github.com/koniwa/koniwa
- A. Roebel and F. Bous, “Towards Universal Neural Vocoding with a Multi-band Excited WaveNet,” arXiv [eess.AS], Oct. 07, 2021. [Online]. Available: http://arxiv.org/abs/2110.03329