ASJ Freshニュース 第113号 (2024年1月30日号)

自宅で音声収録のすすめ 

━♪━━━━━━━━━━━━━━━━━━ 
日本音響学会 学生・若手フォーラム 
ASJ Freshニュース 113 
20241月30 発行 
━━━━━━━━━━━━━━━━━━♪━ 

はじめに

新年初のFresh News です.今年もよろしくお願いします.
卒論・修論の締め切りや期末テストに追われながら,今年度も終わりが見えてきました.そして来る春休み.旅行など休息に充てるのはもちろん,就活や研究に集中できる稼ぎ時でもあります.
その中でもぜひやっておきたいことといえば……そう!音声収録ですね!!! 
今や誰でも手軽に音声合成システムを作れるようになり,自分の声を合成してみたいという方も多いと思います.既存の音声コーパスを使ってもよいですが,苦労して収録した音声を使って合成したときの感動はまたひとしおというもの.
また,年々要求されるデータ量も増えてきていますから,あわよくば研究目的で使えるように公開していただけると我々音声研究者は大助かりです.音声コーパスはなんぼあってもいいですからね. 

あえて今用意できる環境で録る 

よい音声コーパスとはなにか 

雑音・残響が少ない 

合成音声の音質を議論する場合,一般に学習データに含まれる雑音は極力少ないほうがよいです.
雑音が乗った合成音声を評価する際に,それが元々データ含まれる雑音によるものなのか,手法に由来するものなのか分からなくなってしまうからです. 
また,部屋の反響が強く残る音声は,正確な基本周波数の推定が困難になるため,ピッチの情報を利用するモデルを学習する際の音質劣化につながります.また,定在波によって特定の周波数成分が強調されてしまう可能性もあります. 

収録機器の周波数特性が平坦 

周波数特性の山谷は音色や個人性に大きく影響します.ボーカル用マイクロホンにはあえて音楽的に聴こえるようにあえてフラットではない特性になるように設計されたものがあります.しかし,これを研究用のコーパスに用いてしまうと,音声の共振成分が環境によるものなのか個人性によるものなのかが分からなくなってしまいます. 

メタ情報が多い 

話者や収録環境の情報が豊富にあると実験の信頼性や再現性が高くなります. 
個人情報にも関わるので含めすぎるのも良くないですが,音声の属性があると声質キャプショニングなどの研究に役立ちます. 
また,部屋のインパルス応答や暗騒音をあらかじめ録音しておけば,抑圧処理を掛けやすくなるかもしれません.和歌山大学の河原英紀先生が測定できるツールを公開されているので,活用してみてはいかがでしょうか. 

あえて何もこだわらないという選択肢 

無理に新しく収録機材を揃えなくても,スマートフォンやコンピュータ内蔵のマイクで十分なことも多いです.暗騒音や残響もソフトウェアである程度除去することができますし,音楽収録や厳密な評価が求められるのでない限りはほとんどの場合問題になりません.
そもそも,雑音や残響が全くなく,周波数特性が完全にフラットな収録環境は存在しません.あるところで線引きをして妥協するのも大切です.
また,現在公開されている音声コーパスはレコーディングスタジオや無響室などクリーンな環境で収録されているものが多く,雑音や残響を含んだ音声コーパスは意外と限られます.多様な収録環境に対応しなければならない声質変換や音声強調技術にとっては貴重な音声資源といえます. 

 

とはいえ,あるとよい機材 

ちょっとこだわって高品質な音声を収録したいという方に選び方や性能の評価指標をご紹介します.筆者の独断と偏見に基づいたおすすめの機種も挙げています. 

マイクロホン 

音声を電気信号に変換する上でこれがなくては始まりません.
校正済み測定用マイクロホンを……といいたいところですが,個人で購入するにはちょっと尻込みしてしまう金額です.たとえ低価格のものでも,目的に合ったスペックのものを選べば十分利用価値の高い音声が録れるでしょう.

感度(Sensitivity) 

マイクロホンがどれだけの音圧レベルを電気信号に変換できるかを示す指標です.
感度が大きいと大声で歪みやすくなるため,歌声や叫び声などを収録する場合に注意が必要です. 

指向性(Directivity) 

一方向からの音を拾いやすい単一指向性,前後の音を拾いやすい双指向性などがあります.
指向性は周波数の音波がマイクロホンのダイアフラムに到達する際の位相差を利用しています.そのため,特定の周波数帯域で感度が異なるので一般にフラットな周波数特性を実現するのは困難です.
特に,一般に音源との距離が近いと低域が持ち上がってしまう(近接効果)ので注意が必要です.
一方,無指向性は近接効果が起きないのでSignal Noise Ratio; SNRを稼ぎやすい反面,音源の到来方向以外の雑音や残響を拾いやすくなります.  

音声合成のみの用途にしぼれば,実用上は単一指向性マイクロホンを口唇からの距離を極力一定に保ちながら収録するのが手軽に十分な品質の音声を録ることができるでしょう. 
双指向性も壁面や天井に垂直な定在波の影響を低減できるため,背面からのノイズや距離に気をつければ良い選択です.マイクロホンからの距離を一定に保つのが難しければヘッドセット型のマイクも有効です. 

最大音圧レベル(Maximum Sound Pressure Level; Max SPL): 

マイクロホンが歪まずに取り扱うことのできる最大の音圧です.ダイナミックレンジの上限にあたる指標で,高いSPLを持つマイクロホンは大きな音でも歪みにくくなります. 

シグナルノイズ比(Signal Noise Ratio; SNR), セルフノイズ 

電子回路で構成されている以上マイク自身も雑音源になりえます(セルフノイズ). 
ダイナミックレンジの下限と解釈できる指標で,SNRが高い(セルフノイズが小さい)マイクは,よりクリアな音声を収録することができます. 

おすすめのメーカーと機種 

audio-technica (AT4040AT5040), DPA(4090, CORE 4466), Earthworks (M30, M50), Lewitt (LCT240, 440, 540) 
 

オーディオインターフェース 

マイクロホンで電気信号へ変換された音声をアナログからディジタル信号へ変換するための機器です.こちらも高品質な機種となると非常に高額ですが,最近では低価格帯のものでも性能の高いものが販売されています.  

プリアンプの有無・性能 

マイクからの信号そのままでは非常に小さいので,通常はマイクプリアンプで増幅したのちにディジタル信号へ変換します.ほとんどの機種がプリアンプを内蔵していますが,一部の機種(例えばRME ADIシリーズ)はアナログ-ディジタル/ディジタル-アナログ変換の機能のみで,外部のプリアンプを用意しなければいけません. また,内蔵されていたとしても,マイクの感度によってはゲインが足りなかったり,特性の悪かったりするので注意が必要です.  

全高調波歪み(Total Harmonic Distortion; THD) 

THDは純音(通常1 kHz)を入力・出力した際に付与される歪みを,信号に含まれる高調波成分の割合で示したものです. 調波だけでなくノイズ成分を足したTHD+Nという指標もあり,一般にこちらの方が小さく設計する難易度は上がります.
これらが小さいほどオーディオインターフェース由来のノイズや歪みが小さいことを示唆します. 

入力・出力インピーダンス 

オーディオシステムにおいてインピーダンスマッチングは重要です.オーディオインターフェースの出力インピーダンスと外部デバイスの入力インピーダンスが適切に一致していれば,信号の伝送効率が最大化され,音質の劣化を最小限に抑えることができます.入力インピーダンスが高いと接続されるデバイスからの信号を効率よく取り込むことができ,信号の品質を維持しやすくなります.出力インピーダンスが低ければ,接続されるデバイスに対してより多くの電力を供給でき,信号の損失や歪みを減らすことができます.  

ラウンドトリップレイテンシ(Round Trip Latency; RTL) 

入力信号がディジタル信号に変換され,さらにそのディジタル信号がアナログ信号に変換され,最終的にモニター出力されるまでの時間をRTLといいます. 収録音声をリアルタイムにモニターする上で重要です. 
ハードウェアの性能はもちろん,ドライバソフトウェアやバス規格,バッファサイズにも依存します.特にバッファサイズは一般に機器の安定性とトレードオフの関係にあり,バッファサイズが小さすぎると音飛びが発生しやすくなります. 

おすすめのメーカーと機種 

Audient (iD シリーズ), Focusrite (Scarlett シリーズ), MOTU (Ultralite mk5, Mシリーズ), RME 

 

ヘッドホン・イヤホン 

ヘッドホンやイヤホンは収録音やガイド音をマイクロホンに拾わせずにモニターするのに便利です.
特性に気をつけて選ばないと歪んだ音を聴いて収録する可能性があります. 

周波数特性 

フラットがいいかというと,必ずしもそうでもありません.周波数ごとに同じラウドネスと知覚する音圧レベルは異なりますから,ヘッドホンの特性も聴感上の印象が重要な場合もあります. 
それぞれの立場に立って理想とする周波数特性をターゲットカーブといいます. 例として,自由音場曲線は音源が自由音場で鳴っていることを仮定したカーブです. また,ハーマンカーブのように聴取者が好ましいと感じる特性の統計をとったものもあります. 

累積スペクトル減衰(Cumulative Spectral Decay; CSD) 

ヘッドホンのような出力機器は,急激な音の変化(例えば打撃音)に対しても正確に反応し,音の歪みを最小限に抑える必要があります. 
累積スペクトル減衰は試験音に対する各周波数成分の減衰を表します.高いCSD性能を持つヘッドホンはしばしば音のキレがよいと形容され,破裂音などの急峻に変化する音を正確に聴取する上で重要です. 

つけ心地 

最後のオチみたいに書いていますが重要です.音声コーパスの収録は多くの場合実際に収録する音声の倍以上の時間が掛かります.実際に店頭で試聴して,長時間装着しても耳や頭が痛くならないものを選びましょう. 

おすすめのメーカーと機種 

AKG (K371, K553mk2), Shure (SE215, SE535), YAMAHA (HPH-MT8) 

吸音材 

残響を極力抑えたい場合は壁面に吸音材を貼るのが良いでしょう. 中高域に特化した壁に貼り付けるタイプの多孔質材や,低音の吸音に特化したメンブレン型やヘルムホルツ型があります.
布団を敷いてカーテンを閉めるだけでも効果があります.最悪,新聞紙を壁に貼ったり毛布にくるまるのもそれなりに有効でしょう. 
吸音材の性能には,吸音率と呼ばれる,入射した音のエネルギーに対する反射されてこない音のエネルギーの比率として定義される指標があります. 測定法の違った以下の2種類の吸音率が吸音材のカタログスペックとして書かれることが多いです.

垂直入射吸音率 

音響管の内部で試験音を吸音材に対して垂直に入射させたときの吸音率です.材質の吸音性や壁面に垂直に反射する定在波の吸音性を評価する上で有効です.

残響室法吸音率 

吸音材を残響室内におき,試験音を拡散させランダムな角度から入射させたときの吸音率です. 室内の残響時間を測るため,実際に設置した場合の性能と近い結果が得られますが, 試験音が十分に拡散されなかったり,様々な角度から反射波が入ったりするため,吸音率が1を超えてしまうことがあります. 

マイクケーブル 

「ケーブルで音が変わるなんてオカルトでしょ?」 
まあまあそうおっしゃらず,マイクロホンとインターフェースを接続するケーブルによって耐雑音性が変わります. 
結論から言うと,マイクケーブルには4芯撚り線(Star-quad)のシールドケーブルを推奨します. 特に電子機器や充電器などの近くを引き回すのであれば導入して損はありません.
Star-quad ケーブルは静電ノイズをシールド線で,電磁ノイズを芯線の対称構造で低減することで耐雑音性を高めています.その反面,線が密に配置されることで線間容量が増加しローパスフィルタを形成するため,高域が落ちるデメリットもありますが,高々数m程度ではまず問題にならないでしょう(多分). 

おすすめのメーカーと機種 

Mogami (Neglex 2534), CANARE (L-4E6S) 

 

おわりに 

私が過去に機材選びで何度も失敗した経験から,これから音声コーパス収録を始める方の一助になればと,このような記事を執筆いたしました. 
とりあえず要点をただ書きなぐるだけの記事になってしまい,本当は電源ケーブルとかTHDハックとかの話も盛り込みたかったのですが,後輩に怪訝な顔をされたのでここまでにしたいと思います.
今回紹介した指標は選ぶ際の参考にはなりますが,くれぐれも過信は禁物です.本来非線形なものに対して特別な条件下で線形性を仮定した結果であったり,収録環境によって全く異なる性能を示したり,あくまで目安としてとらえてください.
また,音声合成のためのコーパス収録に主眼が置かれているため,他分野やエンジニアの方々からするとナンセンスな記述もあるかもしれません.誤りがございましたらご指摘いただけると非常に助かります. 
それではみなさん,よき音声収録ライフを! 

参考文献 

  1. 榊原 健一, 河原 英紀, 水町 光徳, 利用価値の高い音声データの録音手順, 日本音響学会誌, 2020, 76 , 6 , p. 343-350.
  2. John Siau, “The Importance of Star-Quad Microphone Cable,” https://benchmarkmedia.com/blogs/application_notes/116637511-the-importance-of-star-quad-microphone-cable 
  3. Olive, Sean, Todd Welti, and Elisabeth McMullin. “Listener preferences for different headphone target response curves.” Audio Engineering Society Convention 134. Audio Engineering Society, 2013. 
  4. He&Biのヘッドホンサイト, https://hebiheadphone.konjiki.jp/ 
  5. DIY-Audio-Heaven, https://diyaudioheaven.wordpress.com/ 
  6. Audio Science Review, https://www.audiosciencereview.com/forum/index.php
タイトルとURLをコピーしました