脳・からだ・こころ -SBS Archive- No.6

コンピュータが音を聞き分けるということ(中編)

深層ニューラルネットワークと人間の比較から見えてくるもの

Tomohiro NAKATANI, Shoko ARAKI & Makio KASHINO

2018.9.5

最近、深層ニューラルネットワーク(DNN)の登場で、音声認識の精度が一気に向上しつつある。しかしDNNの中身はブラックボックスになっていて、なぜ、そのような結果を導き出すのかがわからない。一方で、人間の音声認識のしくみ自体も、謎に包まれている部分がいまだ多くある。そうしたなか、近年、DNNで構築したモデルと人間とを比較する研究が注目されている。両者を比較することで、これまで謎に包まれていた人間の不思議が明らかになるかもしれない。
(*こちらの記事は過去に「Hearing X -『聞こえ』の森羅万象へ -」に掲載されたものをアーカイブとして公開しています。)

人間はなにを手がかかりに音を分けているのか

柏野: 音声認識技術の進展には目覚しいものがありますが、一方でコンピュータと比較して、改めて人間の特異な能力に驚かされます。

たとえば、人間は、同時に複数人の人がしゃべっている短い音声を聞いた場合、認識できるのはせいぜい2人までで、3人に増えた途端に、何人でしゃべっているのかわからなくなってしまいます。すなわち、混合音をすべての音源に分けることに関して言えば、前編で中谷さんに紹介していただいた「ブラインド音源分離技術」の圧勝ですね。

人数当てに挑戦!

ところが、「ブラインド音源分離技術」は、音の空間的な位置の情報を使っているので、一つのマイクで収録したモノラルの信号に対しては使えません(上の「人数当て」のデモはモノラルなので,実はブラインド音源分離技術では分離できません)。しかし人間は、モノラルの信号でも,ある程度の長さがあれば,それなりに音源を聞き分けることができます。

そのときに人間が使っている一番重要な手がかりとなるのが、「調波構造」です。たとえば、100 Hz、200 Hz、300 Hzといった単純な整数比の周波数成分を持つ音、すなわち調波構造を持つ複合音が鳴っているなかに、一つだけ423 Hzの音が鳴っていたら、それだけ「別の音」として浮かび上がるんですね。楽器の音や人の声などの多くは調波構造を持つため、調波構造が成立する音というのは一つの音源から発せられた音である可能性が高いのです。

一方で、人間は空間的な位置情報を音源分離に使うのは、あまり得意ではありません。調波構造を成す周波数成分のうち、左のスピーカーから奇数次の成分(100 Hz、300 Hz、500 Hz……)、右のスピーカーから偶数次の成分(200 Hz、400 Hz、600 Hz……)を同時に聞かせれば、溶け合って一つの音として聞こえます。しかし、右の成分の周波数を、例えば210 Hz、420 Hz、630 Hz……というように、整数比を保ったまま少しずらすと、高さや音色の異なる二つの音が左右に分かれて聞こえます。それくらい、音源分離においては、調波構造の手がかりというのは、空間的位置の手がかりよりも優位に働くのです。
Link:Illusion Forum / ピッチと音脈分凝3

音源分離における調波構造の重要性

人間が音源分離に用いている手がかりには、調波構造のほかにも、開始の同時性(同時に開始される周波数成分は一つにまとまる)、振幅変調(振幅のゆらぎ)の共通性(振幅変調が共通した周波数成分は一つにまとまる)などがあります。脳は、これらの手がかりを総合的に勘案して、周波数成分をまとめるか/分離するかを決めているのです。そのあたりの柔軟性が人間の一つの特徴ですね。

そういう意味では、深層ニューラルネットワーク(DNN)を使った「SpeakerBeam」の方は、人間にかなり近いふるまいをしているように思えます。人間と同じように、空間情報にはあまり重きを置かずに、周波数スペクトル(音の周波数成分の強さを表したもの)の特徴から音を探していると捉えてよいのでしょうか?

中谷: まずDNNの重要なポイントというのは、長い時間、広い周波数の間でのデータの関係性をうまく捉えることができる点にあると私は考えています。DNNでは、同時に起こること、必ず同時には起こり得ないことなどを、非常に高次元のデータ、すなわち周波数全体や時間経過の中で起こるさまざまなパターン(出力された音素やある単語と単語のつながりなど)として、確率モデル的な枠組みで捉えることができます。

つまり、スペクトルの特徴や時間のパターンを広い範囲で見て、起こり得るものを探し当てることができる、というのがDNNと従来のアプローチとでは大きく異なる点と言えます。

深層ニューラルネットワークは人間に似ているか?

中谷: では「SpeakerBeam」が具体的に何を捉えているのか、というと、じつのところよくわかっていません。

—えっ、中身がわからないのですか?

中谷: そうなのです。DNNでは特徴量の抽出を自動で行うため、プロセスがブラックボックスと化していて、何に着目して結果を導き出したのかがわからないのです。おそらく、その人の声の基本周波数(調波構造を持つ複合音の中でもっとも周波数が低い成分)はどれくらいの値を取りやすいのかとか、話すスピードはどれくらいになりやすいのかといった、話者のなんらかの特徴に基づいて、ネットワークの重みをどのように変更するのかを自動的に決めるわけです。つまり、DNN自身が必要な情報を取り出し、選択して学習していくことでうまくいく。

逆に、話者の特徴を区別するための特徴量を人間があらかじめ教えると、ある程度まではうまくいくのですが、ベストな性能が出ないのです。DNNというのは何を使っているのかよくわからないけれど、大量のデータの中から自らつながりを見つけて学習することで、汎用的に使えるしくみになっているのだと思います。

柏野: そもそも、人間が混合音の中から特定の音声を探すときに、何を手がかりにしているのかということ自体、いろいろな可能性が考えられますからね。単純に、その人の発話のパターンを覚えておいて探しにいくのか、基本周波数のパターンや、振幅包絡(振幅のゆるやかな変化)のパターンをトレースしているのか。

いずれにせよ、時間軸上での滑らかな変化というのは、一つの手がかりになると思います。人間は、そういうものに対するなんらかのフィルタのようなものを持っている可能性があると思いますが、それとDNNのしくみがどの程度似ているのか、似ていないのか、とても気になるところです。

中谷: DNNについてはさまざまな研究がありますが、画像処理の例でよく言われるのは、下のレイヤー(層)では、たとえば方向のようなものを検出して、次のレイヤーではその方向と方向のつながりを認識し、上層に行くほど複雑な形を認識していく、と。したがって、DNNとして実現されているものは、そうしたシンプルな機能からより複雑な機能をかたちづくるためのマッピング(対応付け)を学習していると言えます。

同様に、音声認識のDNNにおいても、最初に調波構造のような単純なものを検出し、上層にいくほど音声の時間的変化のパターンのような複雑なものを認識しているという解釈はあると思います。

一方で違う解釈をすると、そもそもDNNの中身はブラックボックスなので、調波構造などとは関係なく、とにかくなんらかの特徴を拾ってきて、それに合う最適解を出しているだけなのかもしれません。

—もしかすると人間と似た機能を持って認識しているかもしれないし、まったくそうではないかもしれないのですね……。

柏野: じつは、DNNと人間の比較というのは、いま、非常に面白いホットな研究分野なのです。最近も、音楽のジャンルや単語を分類するという課題をDNNに学習させたところ、人間の聴覚系に見られる機能分化に似た構造が生まれたという、マサチューセッツ工科大学のMcDermottらの研究論文が『Neuron』に掲載されていました。DNNを課題に最適化していった結果、形成されたネットワークの構造が、人間の神経生理学的・解剖学的な知見と符合しているというのは、非常に興味深いですね。

人間の聴覚系にも複数の階層があり、同時にパラレルな機能分化もあります。さらに双方向の情報の流れもあることから、聴覚系で情報処理がどのように進んでいくかについては、まだまだ解明されていない点が多々あります。最初、内耳の蝸牛である程度の周波数成分を検出するとか、脳幹から視床を経由して聴覚野に向かう際に情報が分かれ、階層的に処理をしているといった流れはわかっていますが、その途中でどのような処理をして音源分離をしているのか、いまだ詳しいことはわかっていません。

我々もこの点に関して研究を進めてきましたが、処理の全貌を理解するには、ガイドラインとなるモデルが必要だと感じています。その意味では、人間と機械の両側から攻めて追究していくというのは、面白いアプローチです。DNNの進展により、ようやく機械と人間について共通の話ができるようになってきたと感じています。

深層ニューラルネットワークと比較しながら、人間の機能を探る

中谷: いまやDNNは人間の音声をすべて覚えるくらいの能力を備えていて、人間の声の特徴を教えてやれば、その声を分離することができるようになっています。さらに、雑音が入っている音声を、DNNを通してきれいな音声に換えるということもできる。つまり、DNNというのは、あらゆる音声のパターンを記憶し、所望の音声をつくり出すことができるマシンだということ。この機能を応用して、柏野さんがおっしゃるように、人間の聴覚系との関連を調べるというのは大変有用だと思います。

一方で、機械と人間で何が必然的に違っているのかと言えば、人間は同じ耳を一生使い続ける点です。ロボットであれば人間と条件は同じかもしれませんが、通常、音声認識に使われる集音センサは、ICレコーダーやマイクロフォンなどさまざまです。つまり、その都度変わってしまう空間的パターンをどう扱うのか、というのも今後の技術課題として非常に重要だと思います。

柏野: 人間も、耳は同じものを使い続けているとはいえ、残響や雑音の多い/少ないなど、環境はいろいろなので、DNNと似た問題を抱えているとは思います。にもかかわらず、さまざまな変動要因があるなかで、人間はつねに恒常性、安定性を保っている。これこそが、音声認識に限らず、人間の知覚の非常に優れた点と言えます。

視覚にしても、一つの対象物であっても照明や見る角度などによって見え方は大きく異なるのに、なぜ同じモノだと認識できるのか。そのために生物がどういう処理をしているのか、DNNと比較することで見えてくるとしたら面白いですね。

中谷: そういった意味では、NTT CS研の寺島裕貴さんらの研究も非常にタイムリーですね。

柏野: ええ。寺島さんがやっているのは、聴覚系の末梢や中枢の神経応答特性を、DNNで構築した神経系の計算機モデルと比較しながら説明付けしようという試みです。もちろん完全に一致するわけではなく、両者にはズレがあるわけで、そこを突き詰めていくのが面白い。このような統計的な見方、すなわちたくさんの学習の結果から生物の神経系をどこまで理解できるのか、非常に興味深いところです。まさにいまこそ、人間をより深く知ることができるチャンスだという気がしますね。

中谷: そのズレが、現状の人間と機械の違いなわけですからね。

人間のメカニズムがわかれば、工学的にも役立ちます。音の良し悪しや聞き取りやすさなども、いまは最終的に人間しか評価できませんが、技術の良し悪しを人間しか判断できないというのは、研究を進めるうえでの障害になっています。人間のメカニズムが理論的に明らかになり、機械で評価できるようになれば大変役に立つ。その橋渡しをするのが、DNNなのかもしれません。

柏野: そのときに方法は二つあって、まず人間の機能を解明してから、それを模してDNNでモデルをつくるというもの。もう一つが、まず人間の評定者がサンプルのなかから良し悪しを選んで順番を付け、それと同じようなパフォーマンスが出せるようにDNNを訓練する方法です。後者の場合も、人間と同じようなふるまいをするDNNができる可能性がありますし、その中身を調べることで人間の機能を明らかにきるかもしれない。いずれ、なにかの目利きだとか専門家だとかといった人の挙動を再現できるDNNができるかもしれませんね。

中谷: もっとも、現状はまだ人間のような汎用性を身につけたDNN、AIというのは誕生していません。これからどう進展していくのか、興味深いところです。

(取材・文=田井中麻都佳)

Next: コンピュータが音を聞き分けるということ(後編)機械との比較からわかる人間の特異性

Profile

中谷 智広 / Tomohiro NAKATANI [ Website ]
NTT コミュニケーション科学基礎研究所 / メディア情報研究部 / 信号処理研究グループ グループリーダ(上席特別研究員)
1991年、京都大学大学院工学研究科修士課程修了。博士(情報学)。残響除去技術 Weighted Prediction Error (WPE) 法など、多数の音響信号処理アルゴリズムを考案。日本オーディオ協会協会大賞 (2012年) 他受賞。
荒木 章子 / Shoko ARAKI [ Website ]
NTT コミュニケーション科学基礎研究所 / メディア情報研究部 / 信号処理研究グループ 主任研究員 2000年、東京大学大学院工学系研究科修士課程修了。博士(情報科学)。 実環境における音源分離や音声強調について、多数のアルゴリズムを考案。
柏野 牧夫 / Makio KASHINO [ Website ]
田井中 麻都佳 / Madoka TAINAKA (取材・執筆)
編集・ライター/インタープリター。中央大学法学部法律学科卒。科学技術情報誌『ネイチャーインタフェイス』編集長、文科省科学技術・学術審議会情報科学技術委員会専門委員などを歴任。現在は、大学や研究機関、企業のPR誌、書籍を中心に活動中。分野は、科学・技術、音楽など。専門家の言葉をわかりやすく伝える翻訳者(インタープリター)としての役割を追求している。趣味は歌を歌うことと、四十の手習いで始めたヴァイオリン。大人になってから始めたヴァイオリンの上達を目指して奮闘中。