脳・からだ・こころ -SBS Archive- No.6
コンピュータが音を聞き分けるということ(後編)
機械との比較からわかる人間の特異性
Tomohiro NAKATANI, Shoko ARAKI & Makio KASHINO
2018.9.5
人間の機能を模した深層ニューラルネットワーク(DNN)をつくることができれば、人間をより深く知ることができるかもしれない。しかし一方で、人間はかなり粗い情報から正解を導き出すことができたり、機械よりも圧倒的に少ない時間で言語を習得したりできる。はたして、機械は人間にどこまで近づくことができるのか。「情報」と「人間」を結ぶ新しい技術基盤の構築をめざすNTTコミュニケーション科学基礎研究所(CS研)の研究者たちが、現代科学の究極のテーマについて語り合う。(*こちらの記事は過去に「Hearing X -『聞こえ』の森羅万象へ -」に掲載されたものをアーカイブとして公開しています。)
人間は粗い情報でもかなり認識できる
柏野: 深層ニューラルネットワーク(DNN)と人間を比較する際に、改めて、人間は何を頼りに音を聞き分けているのかに着目する必要があると思っています。
たとえば、人間が言語音を理解する際には、数Hzくらいのゆるやかな変化の情報、すなわち振幅包絡の情報があれば、内容はかなり理解できる。実際に、劣化雑音音声(noise-vocoded speech)のように細かい情報を破壊してしまっても、そこそこわかります。
【劣化雑音音声(noise-vocoded speech)のデモ】
Aの再生ボタンを押すと雑音のような音が聞こえてきますが、実は何かを話しています。何と言っているのでしょう(日本語です!)。何度か聞いてみてもわからないときは、Bを聞いてから、もう一度Aを聞いてみましょう。
Link:Illusion Forum / モザイク音声(劣化雑音音声)
[ A ]
[ B ]
同様に、人間が雑踏などうるさい環境で聞き取りが難しくなるのも、このゆるやかな時間変化のパターンが雑音で埋もれてしまうからです。とくに、自閉スペクトラム症の人たちの中には、雑音がある中での聞き取りが非常に困難になる方がいます。定型発達の健聴者の場合は、ほかのさまざまな情報も使うため、なんとか補完して聞き取ることができますが、自閉スペクトラム症の人たちはそうはいきません。ここでは詳しく説明しませんが、さまざまな声が混ざってくると、聞き取りが非常に困難になってしまうのです。
では、機械はどうなのか。そうしたゆるやかな時間変化のパターンをどれくらい使っているのか、気になるところです。
中谷: じつは、DNNの研究が盛んになる以前には、ゆるやかな包絡の情報、つまり変調スペクトルなどに注目して音を識別しようという研究がたくさん行われていました。それらが、音声区間推定や音声検出の技術として応用されてきました。ところが、DNNが出てきたことで、そういう技術の多くは、DNNの機能の中に取り込まれてしまったように思います。
まず、DNNでは時間構造をうまく使うことが重要であることが知られています。たとえば、音声認識にDNNが採用され始めた頃に用いられたのが、コンテクストウィンドウと呼ばれる手法です。これは、30ms程度の音声を識別するために、前後百数十msくらいのコンテクストを使うという手法です。というのも、ピンポイントで認識したい30msのコンテクストだけを使っても、うまく識別できないということがわかっています。
つまり、DNNでは時間変化の情報を使うことで文脈のパターンの識別を向上させてきたと言えます。従来の技術では、次元が大きくなりすぎて扱えなかったような大きなデータも、DNNではまったく問題なく扱うことができます。そこが、技術的な大きなブレークスルーです。
また、最近では、より巧妙なDNNが出てきていて、過去にどういう入力がなされたかを記憶できるようなものも活用されています。その方が高精度な識別が可能になるのです。そこでもやはり、ある種の時間的パターンが活用されているのは間違いないでしょう。
柏野: じつは私の修士論文は、たとえばある一つの子音に関する情報がどのくらいの範囲に広がっているのかという、まさに時間的パターンを対象としたものなのです。そこで気になったのが、さきほどの百数十msの情報を使うというところで、その際の情報の質です。どの程度の時間分解能があれば、認識できるのかどうか。けっこう粗くてもいけるんじゃないかな、と。人間の場合は信号の劣化に対してかなり頑健ですから。
中谷: どの程度かということは、わかりません。ただそれと関連するかどうかわかりませんが、雑音を除去するDNNと音声認識をするDNNを縦につなげて、全体として音声認識をするというシステムを構築した場合、前半のDNNは必ずしも雑音を抑圧するようなDNNにはならないのです。たとえば、なにもいじらずに学習させると、特定の周波数だけを拾って、あとは捨ててしまうようなDNNになったりする。それでも認識率が上がることがあります。そう考えると、もしかすると、DNNも人間同様、不要なものはかなり間引いて学習している可能性はあるかもしれません。
ただやはり、あらかじめ情報を間引いてしまうと、一般的には、認識性能は落ちてしまうような気もします。
柏野: もちろん性能は落ちると思いますが、どの程度の粒度なら認識できるのか気になりますね。というのも、たとえば人間場合であれば、「たけやぶやけた」という音声を50msごとに時間を反転させて再生したとしても、「たけやぶやけた」と聞こえます。もちろん、何かエコーがかかったようなぶつ切りのような妙な音色は加わりますが、言葉の意味はわかる。
「たけやぶやけた」という音声を50msごとに時間を反転させた音
—不思議なことに、ちゃんと「たけやぶやけた」に聞こえますね。
柏野: では、その時間幅をどれくらい長くしたら聞き取れなくなるのか。だいたい100 msにすると厳しくなります。裏を返せば、50 msより細かいスペクトルパターンの情報が壊されても、前後の情報があれば意味は取れるということ。人間はそれくらい粗い情報を使っているわけです。DNNがそれくらい粗い情報でも認識できるとしたら、ますます面白いのですけどね。
Link:Illusion Forum / 逆転(全体・局所)
25ms
50ms
75ms
100ms
人間が少ない学習時間で言語を獲得できる不思議
中谷: 人間はかなり粗い情報からでも認識できるということに関連して言うと、DNNについても、ロバスト音声認識といって、雑音や残響が混ざった音声をそのまま学習に使ったほうが音声認識の性能が上がることがわかっています。きれいな音声だけを使っていても全然うまくいかないのですが、汚れた音声を聞いたほうが、ロバスト(頑強)な音声認識ができるというのは、ある意味、示唆的だと思います。
—それはなぜですか?
中谷: 雑音や残響が混じった音声というのは、さまざまな特徴が隠されて、消えてしまっている状態です。そういう切れ切れの情報を使いながら、DNNはなんらかの方法で補いながら正しい結果を導き出している。かつては雑音を抑圧したきれいな音声でなければ学習はうまくいかなかったのですが、いまでは、雑音がある音声を使うことで、むしろDNN自身が音声認識に必要な重要な情報を集めることができるようになりました。
柏野: その話は、直感的にはすごく納得できますね。雑音があることで、ある特定の局所的な特徴に引っ張られることなく、全体に分散している情報をうまく組み合わせて使っているのではないかと。人間だって、ずっとクリーンな音を聞かされて育つのではなく、雑音や残響のある環境に晒されながら、音を学習してきたわけですからね。
—腑に落ちました。
中谷: もっとも、人間の場合は、赤ちゃんの頃から、その認識が正解かどうかなんておかまいなしに、ただひたすら音を聞き続けるなかで学習していくわけですが、機械の場合は、そういうわけにはいきません。ここには依然として、大きなギャップがあります。英語や日本語のようにデータが大量にあって整理されている言語以外の、未知の言葉でも認識できる技術にもチャレンジはしたいとは思いますが、まだまだ実現できそうにありません。
柏野: ただ、人間はどこまで学習に頼っているのか。赤ちゃんが生まれてから話し始めるまでに、いったいどれくらいのバリエーションのサンプルを聞いているのかと考えると、意外に少ない気がします。
中谷: 少ないと思いますね。音声認識システムであれば、学習には数千時間におよぶ音声が必要になりますが、赤ちゃんはそんなに聞かないでしょう。
柏野: しかも、音声のバリエーションといっても、家族など身の回りの人だけですよね。ましてやすべての日本語のバリエーションを読み聞かせているわけでもないですし、雑音や残響のある環境といっても、あらゆる環境を経験しているわけでもない。
中谷: にもかかわらず音声を認識し、言語を獲得していくというのは本当に不思議です。そのような汎用的な学習能力をもつAIなど存在しませんからね。
—幼児が言語を獲得するなかで、言い間違いをすることがよくありますが、どうやら似たパターンがあるようで、やはりなにか特殊なしかけがあるのかもしれませんね。言語の学習過程というのも非常に興味深いですね。
柏野: それは、人間が生得的な(生まれながら備えた)モデルを持っていて、音声を発声する際の調音器官(筋肉)への指令を参照しているという「運動理論」で説明できるのかもしれません。英語なら英語、日本語なら日本語にチューンするための経験を少し積めばよくて、ゼロからモデルをつくり上げる必要はないという説は根強く残っています。だからこそ、幼児は似たような言い間違いをすると言えるかもしれませんね。
そう考えると、人間の話す言葉は理解できても、宇宙人の言葉は理解できないかもしれない。身体のつくりがまったく違うので、モデルが違うわけですから(笑)。
中谷: それはあるかもしれません。人間の言葉なら、少しの時間で学習できても、宇宙人の言葉を認識しようとしたら5000時間くらい聞かないと認識できないかもしれませんね。
音声認識技術の開発を通じて、未来の社会の姿を描く
柏野: ところで、これまで長年、音声認識の研究をされてきて、時代によって流行廃りもあったと思うのですが、振り返ってみてどのように感じていらっしゃいますか?
中谷: 音声認識の研究は、AIと密接に結びついているわけですが、それこそニューラルネットワークの歴史は何度も冬の時代を経験してきました。ようやくここまできたという感じです。
一方で、音響処理の研究は比較的順調に進んできたと思います。たとえば、電話の誕生とともにその音響処理の技術は大きく発展しました。さらに会議システムなどで、端末を通じて遠隔の人と会話をするときに障害となる「エコー」、すなわちこちらの音声をあちらのマイクが拾って、ふたたびこちらに返してきて聞き取りづらくなる状態についても、いわゆるエコーキャンセレーション技術が開発されて、抑制できるようになりました。あるいは、ノイズを抑制して補聴器を聞き取りやすくするといった技術も進歩しています。
それに比べて、ニューラルネットワークの歴史は、紆余曲折ありました。現在のニューラルネットワークの原型である「パーセプトロン」が登場したのは、1950年代にさかのぼります。ところがその後、人工知能の父と言われるマービン・ミンスキーらが、パーセプトロンには致命的な欠点があると指摘したことで下火になってしまった。
私が学生だった1990年頃には、第二のニューラルネットワークブームがやってきていました。これでなんでもできるといって、それこそニューロ洗濯機なんてものが発売されたこともありましたね。この技術は現在の技術の基礎になっています。しかし、当時はまだ、学習するデータが圧倒的に足りなかったり、計算機のスピードやメモリが足りなかったりといったことがあって、大きな成果を生むところにまではたどり着きませんでした。
ニューラルネットワークが再度ブレークしたのは、先にもお話したように2011年以降です。以来、DNNが音声認技術の主流になって、次々と性能を向上させています。ちなみに、DNNといえば、画像認識や言語認識が知られていますが、じつは最初にブレークしたのは音声認識なんですよ。それくらいDNNと音声認識は相性がいいし、いまは以前にはまったくできなかったことが次々にできるようになってきました。
荒木: 現在は大学など研究機関に加え、GoogleやIBM、Appleをはじめとした企業でもさかんに研究されていて、研究への資金提供や研究者の引き抜きもさかんに行われています。我々も負けてはいられません(笑)。
ちなみに、NTTグループではスマートフォンの音声アシスタントサービス「しゃべってコンシェル」で音声認識技術を活用しています。そのほかにも、「SpeechRec」という、音声認識サーバやクラウド型音声認識サービスをNTTテクノクロスから提供しています。このように、研究所で開発した技術は、すでに皆様にご利用頂いています。
—お二人はそもそも、どうして音声認識の研究を始められようと思われたのですか?
中谷: この分野の研究者は音楽を趣味としている人が多いのですが、じつは私も荒木も金管楽器を演奏するのです。音楽好きが高じて音の研究をやっているというのはあるかもしれません(笑)。
まぁ、私の場合は、入社した当時、プログラミング言語の研究などで有名な竹内郁雄さん(東京大学名誉教授)がグループリーダをされていたAIの研究グループにいて、直接の上司だった奥乃博さん(京都大学名誉教授、早稲田大学教授)が音環境理解の研究を立ち上げることになったことで、音声認識の研究に移ったという経緯があります。というわけで、最初は、音響の素人でしたが、なんとかいままでがんばってやってきたという感じです。
ちなみに、私はフレンチホルンの奏者で、以前は、NTTのオーケストラと吹奏楽と両方で演奏していました。オーケストラは、会社の知り合いが新たにつくろうと言うので巻き込まれて、一緒に立ち上げに協力させていただきました。ただ、子どもが生まれてからは時間がなかなか取れなくなり、いまは残念ながら休んでいます。
荒木: 私はいまでもトランペットを吹いているのですが、幼い頃からピアノを習っていたこともあって、高校のときは、音楽大学に進学するかどうか迷ったこともありました。結局、音大には進学しませんでしたが、やはり一生、音に関わる仕事がしたいという思いはずっと変わらず持ち続けてきました。
音楽ホールの設計に興味があった時期もありましたし、自分が初めて聞いた曲でも楽譜に書き起こせたり、聞いただけで演奏できたりすることができるのがとても不思議で、なぜ、人間にはそういったことが可能なのかをひもといてみたいなどと思いながら、進学先や就職先を探しました。
たしか、私が就職活動中、NTTの研究所を訪問した際に対応してくださったのが柏野さんだったんですよね。ちなみに、私は進学先をいろいろ悩みましたが結果として理工系に進学し、研究者の道を選んでよかったと思っています。とくにCS研は、浮世離れしている研究者が多いし、非常にユニークな研究ができますから(笑)。
中谷: 確かにここでは、研究者自身がどういう未来をつくっていきたいのかを考えながら、そのために必要な技術を研究できる環境が整っていると思います。現在では、最先端技術の研究がそのまますぐに世の中に普及する時代になってきたので、やはり研究者自らが、世の中の動きを見ながら開発を進めていくというのは非常に重要だと思っています。
柏野: かつてのように基礎研究と社会が遠くかけ離れているという時代ではなくなっていますね。ビッグデータなどはいい例で、まさにデータにアクセスしやすいところで最先端の研究成果が生まれている。いまや、実世界と接しているところで基礎研究をやるというのが、自然の成り行きなのではないでしょうか。
(取材・文=田井中麻都佳)
Profile
NTT コミュニケーション科学基礎研究所 / メディア情報研究部 / 信号処理研究グループ グループリーダ(上席特別研究員)
1991年、京都大学大学院工学研究科修士課程修了。博士(情報学)。残響除去技術 Weighted Prediction Error (WPE) 法など、多数の音響信号処理アルゴリズムを考案。日本オーディオ協会協会大賞 (2012年) 他受賞。
NTT コミュニケーション科学基礎研究所 / メディア情報研究部 / 信号処理研究グループ 主任研究員 2000年、東京大学大学院工学系研究科修士課程修了。博士(情報科学)。 実環境における音源分離や音声強調について、多数のアルゴリズムを考案。
編集・ライター/インタープリター。中央大学法学部法律学科卒。科学技術情報誌『ネイチャーインタフェイス』編集長、文科省科学技術・学術審議会情報科学技術委員会専門委員などを歴任。現在は、大学や研究機関、企業のPR誌、書籍を中心に活動中。分野は、科学・技術、音楽など。専門家の言葉をわかりやすく伝える翻訳者(インタープリター)としての役割を追求している。趣味は歌を歌うことと、四十の手習いで始めたヴァイオリン。大人になってから始めたヴァイオリンの上達を目指して奮闘中。