「感覚系から見た人間」
特集1.
進化した視覚優位脳
特集2.
聴覚系をつくってみる
特集3.
嗅覚から情動を探る道
SPECIAL~特集

特集2.聴覚系をつくってみる(上)生態学的視点から考える 談 河原英紀

一見単純そうに見える聴覚ですが、情報処理のしくみは複雑です。ヒトがヒトとして生きていくために環境との相互作用のなかで進化してきた結果です。人間の聴覚は環境を理解するための機能であるという視点から、実際に聴覚の一部の機能を装置としてつくってみることで、新たな音声認識、音声合成技術、あるいは究極の補聴器をめざす和歌山大学工学部の河原英紀さんにお話をお伺いしました。

>>>研究の動機

  <<< HOME
     
 

現在の音声認識の限界

 音声認識や音声合成の技術はずいぶん進歩しました。今ではマイクに近づいて発声すれば簡単に音声が認識されます。カーナビなどでも身近になりました。英語の音声認識システムの聞き取り能力は、私の英語力よりはるかに高くなっています。
 ただし、それは限られた条件での話です。今までの音声認識では、強力な統計モデルに音声のデータを山ほど与えて、トレーニングして認識させるという方法をとってきました。コンピュータの性能が向上したので、実用的になった方法です。人間の聴覚とは全く違うしくみで、完全に統計モデルベースで動いています。この統計ベースの音声認識、音声合成技術は、今や大いに役には立っていますが、より人間に近いインタフェースとしてさらに進歩するためには限界があります。
 今のシステムには柔軟性がないのです。たとえば、わたしたちは、今お話ししているように1メートル以上離れて、しかもまわりに他の音があっても話を理解できます。パーティのように何人かがいる部屋で数メートルの距離を隔てた会話でも、違う環境、違う距離、あるいは電話などの違う媒体を通しての会話でも、同じように人間は苦労することなくこなすことができます。
 わたしたちの日常のコミュニケーションの場面では、目的とする音声だけが存在することはまれです。しかし、人間はそうした状況でも、不要な情報は捨て、必要な情報に注目してコミュニケーションしているのです。今の音声認識システムには、こうした柔軟性はありません。

困難な問題を解いている聴覚から学ぶ

 わたしたち人間が何気なくできていることが、実は工学的に大変難しいことなのです。人間の二つの耳でとらえることができるのは、音という一次元の時系列の信号です。さまざまな方向にあるさまざまな音源からの音や反射音が渾然一体となって二つの耳に流れこみます。
 聴覚はこれだけの情報から、注目すべき現象がどのあたりで生じているかを瞬間的に計算します。しかも、視覚からでは抽出が困難な物性や音の生ずる原因や、数秒という現象の速度の情報まで抽出することができます。
 これは、工学的には本来解くことのできない問題なのです。音の発生と伝播、環境中における物体の個数、位置、運動などについての物理的拘束条件や統計的性質を加えることで、ようやくある程度の確率で答えられる類の問題なのです。しかし、人間の聴覚は、数100ミリ秒という短時間の内にこの困難な問題に解を与えているようにみえます。
 このような、人間の聴覚で普通にできていることを調べることから、逆に聴覚がどんなしくみになっているか、どんな設計になっているかに迫ろうと考えています。聴覚にはそうした巧妙なしくみがあるから、しらみつぶしに調べるというような無駄なことをしないでも、本来注意すべきところに注意を向けて、多くの音の中から必要な音を聴くことができるわけです。それは計算機が無駄なことばかりやっているのと、いい対照をなしています。
 ですから、回り道かもしれないのですが、人間の聴覚は一体どんな物理的な制約条件の下で発達して今のような性質を持つようになったかを学ぶことによって、新しい技術に近づこうと考えています。

音を再構成している聴覚

 人間に学ぶといっても、聴覚のしくみを単純に学ぶのではなくて、聴覚が、生態系の中で一体どんな要求に応えてきたかという観点が大切だと思っています。人間はどんな音を、どんな必要性があってどのように聴いているかということです。
 人間は音の高さや、大きさや、音色や、音の方向という属性そのものを聴くのではなく、人の話し声、鳥の鳴き声、車の音、CDの音楽として聴くことができます。機械にはそうした能力はありません。そこから、そうした能力を持つには何が必要かを考えようというわけです。生物は音を聴くこと自体が目的ではなく、音によって外界の情報を獲得することが目的なのです。
 たとえば、一度には一つの音しか出せない楽器でも、高い音と低い音が急速に交替するように弾けば、あたかも二つの旋律が同時に演奏されているかのように聴こえます。
 これは、わたしたちの聴覚が、物理的な信号をそのまま受け取るのではなく、音が何からどのように生じたのかについての解釈を能動的に構成する働きを持つからです。

音を聴いているのではなく、環境を把握している

 わたしたちの聴覚は、ただ音を聴いているのではなく、環境の音を分析して構造を明らかにし、分離したり、音の流れとしてまとめたりする操作をしているのです。聴覚は音を通じて環境を把握する機能なのです。
 また、わたしたちの聴覚は、環境から入ってくる音から、音を出しているものの形や素材についての情報と、大きさの情報を分離して聴き取るしくみを持っているらしいということがわかってきました。物理的にはずいぶん違う音なのに、バイオリンとビオラを同じタイプの楽器として聴くことができ、子供がしゃべった言葉も、大人がしゃべった言葉も同じように理解できるのはそのためです。大きさに依存する特徴と、形状に依存する情報とが予め分離されているために、容易にこのようなことができるのです。
 なぜこうしたしくみを獲得できたかは、生態学、進化生物学の議論も踏まえなきゃならないのですが、結局、わたしたちの生存にとって有利であったから洗練されてできたしくみだろうという見方をするのが大切なのです。<2004.07>

(つづく)

 
>>> (中)へ <<< この頁のTOP <<< HOME  
 
BACK NUMBER
 
サイトのご利用について