人工知能による意味の獲得に向けて 0

文責:加藤雄貴

○「0」というタイトルについて

 お越し頂きありがとうございます。今回の記事では意味の定義や脳機能が、人工知能による意味の獲得とどのように関わってくるのかについて扱います。ブログ全体で取り扱う「意味の獲得」というテーマにおいてその前提となる部分となるので、本記事のタイトルを「0」と設定させて頂きました。

 「意味とは何か」という問いは、哲学的にも答えの出ていない問いです。そのため意味という概念を扱うにあたってまずそれが何なのかということを考えなければ、意味を取り扱うことも困難です。回り道になってしまうと思いますが、お付き合い頂ければ幸いです。

○シニフィエとシニフィアン  

 言語を考えるフレームワークとして、フランスの言語学者ソシュールの提唱した「シーニュ」という考え方を基本としています(詳細はこちらのリンク先を参照して下さい)。この考え方では、「海」といった文字や音声で表現される「シニフィアン」と、そういった文字や音声によって想起される「海のイメージ、意味内容」を「シニフィエ」として、シニフィアンとシニフィエの表裏一体の結び付きを「シーニュ(記号)」として扱っています。

 上記の考え方をもとに今の機械翻訳技術について立ち戻ると、これらは「シニフィアン」に着目したものだと言えます。ビッグデータを元に統計的に対訳を生成することで、それまでと比べればより精度の高い翻訳を可能としたものの、この技術は「シニフィエ」の部分を取り扱っているわけではありません。なぜなら、文章中の記号の位置関係などの情報を大量に用いることで、統計データから抽出された同じ特徴量(ベクトルとも言います)を持つ記号を言語間でひも付けることにより翻訳を行っているので、語そのものの意味内容にあたるシニフィエは考慮されていないためです。(特徴量をシニフィエとして考えることもできますが、それはシニフィアンに依存しており真にシニフィエとは言えないためです。人工知能が文章のビッグデータから得た特徴量によって海のイメージを想起することはないと考えられます。それゆえ、、意味の獲得のために私は脳の理解という底なし沼に進むハメになりました)

ai-translation-slide-1.png

 「東ロボ君」の挑戦で新井紀子氏が示した人工知能の限界も、今の人工知能がシニフィエを扱うことが困難であることがその理由ではないでしょうか。もっとも、画像からキャプションを生成する技術が発展しているように、画像(シニフィエ ※厳密には異なると思いますが)と文字(シニフィアン)を結び付けて記号着地(シーニュ)を目指す研究も進んでいます。キャプション生成と翻訳に用いられている要素技術は異なるためどうなるかは分かりませんが、これらの統合によって記号着地が実現するかもしれません。

○意味の定義について

 シニフィエにあたる意味とはどのようなものなのでしょうか。意味という概念そのものを取り扱うことは「時間」とは何かを問うような掴みどころのない問題設定であり、ウィトゲンシュタインの指摘した「言語ゲーム」に近いものかもしれません。

 その上で「意味」を取り扱うためにこの概念に向けてアプローチを取るのであれば、そこには2つのアプローチがあると考えています。ひとつは「足し算のアプローチ」、もうひとつは「引き算のアプローチ」です。

 足し算のアプローチとは、一般的に私たちが「意味」として考える、辞典に記されているような「○○は××である」といった形式の、いわば「定義の集合体」が意味を形成するという考え方です。個々の情報を点とすると、情報の集合体が点描のように○○の指し示す意味領域を形成するイメージです。しかし、このアプローチには問題があり、例えば、犬とはどのようなものなのかという問いに対し、犬を構成する要件全てを抜け漏れなくリストアップすることは実質的に困難です。さらに、言葉の取る意味領域の境界は曖昧かつ流動的であり、境界を厳密に定義しようにもそれはフラクタルのようにどこまでも続くこととなり、さらには「壁ドン」のような新たな意味が追加されるようなこともあります。ある意味では、第二次AIブームのエキスパートシステムが取っていたアプローチもこの「足し算のアプローチ」であり、そのために当初想定された性能を達成することはできませんでした。

ai-translation-slide-2.png

 点描のように意味領域を形成していく「足し算のアプローチ」に対して「引き算のアプローチ」とは、差異によって情報を区別しその繰り返しによって意味領域を絞り込んでいくアプローチです。Akinator(アキネーター)という人工知能の動作の仕組みがこのアプローチの参考になると思いますので、ご紹介します。

(参照させて頂いたブログ⇒http://blog.livedoor.jp/tak_tak0/archives/51841558.html)アキネーターはユーザーの思い浮かべているキャラクターを言い当てる人工知能で、ユーザーに対して回答が「はい」か「いいえ」(「わからない」などの選択肢もある)となる複数の質問を投げかけることで、質問とその回答からデータベース内の該当するキャラクターをユーザーに掲示します。ここでの質問と回答のセットが差異であり、差異による区別が繰り返されることで情報が絞り込まれ、ユーザーの想起するキャラクターが特定できた状況で答えを掲示するというアプローチが「引き算のアプローチ」であり、形成された意味領域は「区別の集合体」と考えることができるのではないでしょうか。

ai-translation-slide-3.png

 やや強引ではありますが、「犬」や「アキネーターにおけるユーザーが想定しているキャラクター」をシニフィアンとするならば、「定義の集合体」や「区別の集合体」がシニフィエたる意味内容に相当すると考えられます。そして、上記の理由から足し算のアプローチによる定義の集合体を用いることは困難なため、引き算のアプローチである区別の集合体を「意味内容=シニフィエ」として、どのように人工知能へ導入するかを考えていきたいと思います。

(もちろん実際の脳やディープラーニングの仕組みはアキネーターとは異なりますが、これらもそれぞれ区別を行う能力を有しています。ディープラーニングはビッグデータを活用することで特徴量を抽出しそれを用いることで区別を可能とし、脳は発火したニューロン情報を保存することでセルアセンブリ(ニューロンの集合体)を形成しその情報を用いて区別を行っていると考えられます。

○区別にまつわるディープラーニングと過学習の関係

 区別する能力を有すれば、「区別の集合体」を生成し意味を取り扱うことができるのでしょうか。その答えはノーであり、意味を取り扱うには区別の能力と「区別の必要性」を動作の主体が有する必要があると考えられます。区別の必要性の詳細は後述としますが、ディープラーニングの抱える問題のひとつである「過学習(over fitting)」がなぜ生じるのか、脳ではなぜこの問題が発生しないのかを比較すると、その違いに区別の必要性が関係していることが示唆されます。区別の仕組みが異なるため単純に比較してよいものではないですが、機能として脳が区別する能力と区別の必要性を有するのに対して、ディープラーニングが区別する能力のみを持つことから発生すると考えられる問題を過学習の観点から見ていきます。

 ディープラーニング(オートエンコーダに着眼しているので、全般的な話ではないかもしれません…)では入力された情報は中間層において情報が圧縮されるため、元より少ない情報量で入力された情報を復元する必要があり、この情報の圧縮の過程で特徴量、すなわち復元するのに核心的な情報を得ることが出来ます。この特徴は「Deep Dream」が分かりやすく、カオスな光景がこのサービスから提供されるのは、入力データである画像から検出した特徴量を元に情報を復元しようと試みるために、顔や風景に少しでも犬の顔の特徴量が含まれていればそこから犬の顔が生えてきてしまったりします。

 特徴量がこのような性質を持つ上で、ディープラーニングの抱える問題である過学習について考えていきます。これは訓練に使われるデータに特化した特徴量が生成されてしまうことがその原因とされています。単純化した例を挙げると「1、2、3、4、5」という数列があるとき、私たちはそれを「1~5」と言い換えることがありますが、この「2、3、4」を内包する「~」が特徴量に相当します。私たちは「1∼5」という記号を見たときに自然と「1、2、3、4、5」を連想するのではないでしょうか。

 ただ、毎回数列が1つずつ進むとは限らず時には「1、3、5」という数列が入力されるかもしれません。この時に上記の特徴量「~」を適用してしまうと「1、2、3、4、5」という誤った形に復元されてしまいます。過学習の問題は訓練で使用されるデータが「1つずつ進む」数列ばかりであることによって、訓練データに対して例外的なもの(2つずつ進む数列)に対応できなくなってしまうことがその原因とされています。

 過学習を防ぐためには大別して2つの手段があり、ひとつは訓練データを広く集めるという方法があります。上記の例で言えば、色々な数列を訓練に用いることで例外的なものをなくし「1つずつ進む数列」だけでなく「2つずつ進む数列」の特徴量を生成しそれらを区別できるように学習することを目指します。

 もうひとつの手段はテクニック的なもので、「ドロップアウト」と呼ばれる手法を用います。この手法はディープラーニングのスペックを虫食いのように確率的に低下させることで、最適化されすぎた特徴量を生成させないようにすることができます。先ほどの数列を用いた例では説明が難しいので、リンゴを識別するディープラーニングを考えます。リンゴの画像によって構成される訓練データAを用いて訓練されたニューラルネットワークがテストデータBに含まれるリンゴを認識しようとしたときにネットワークに過学習が発生していた場合、テストデータBに含まれるリンゴを掲示してもそれをリンゴと認識してくれません。

 このとき、私たちの常識から考えればそれらは同様に「リンゴ」だと判断することができますが、ネットワークは過学習が発生した段階で、ブランド「訓練データAのリンゴ」を区別できるレベルに到達しており、そのネットワークが持つ特徴量は「テストデータBのリンゴ」をいわばブランドAのニセモノとして区別してしまいます(ネットワークはそもそもそれを「リンゴ」という括りで処理しているわけではありませんが)。しかし、それでは私たちの目的に適うことはないので、区別する能力を抑えて欲しいところです。そこで活躍するのが上記の「ドロップアウト」であり、この手法は確率的に中間層のいくつかのノードを機能不全にします。

 統計的な情報によって特徴量を生成するディープラーニングにとって、確率的な機能不全はより深い層において統計的に有意な情報を消失させるため、区別の能力はより細かいレベルにおいて機能不全となります。つまり、ネットワークはブランド「訓練データAのリンゴ」と「テストデータBのリンゴ」を区別することができなくなります。高すぎる区別の能力を抑え、汎用性を高めるのがドロップアウトの役割だと考えられます。

○区別の必要性の導入

 私はここで第三の選択肢を提案します。それが前述の「区別の必要性」を導入することです。ディープラーニングはソフトウェアであり、ソフトウェアは区別の必要性によって制御されるのではなくエンジニアによって制御されます。しかしディープラーニングは内部でどのような処理が行われているのかを知ることや直接手出しすることはできず、そのためにブラックボックスと呼ばれています。そのため一度システムを回せばそのスペックの限り区別が行われ、過学習のような結末へ至らせてしまいます(そしてその対策としてドロップアウトや正則化などの間接的な介入手段があります)。

 対して、なぜ人(および生物)はこのようなことにならないのでしょうか。生物に目を向けると前述の「区別の必要性」を持つことで、自律的に区別を制御する仕組みを有していることがその理由ではないかと考えられます。

 生物の本能に立ち戻ると、生命を維持し種を絶やさないように行動する自己保存が生命の根本的な目的として存在します。感覚器官や脳もその例に漏れず、これらの器官は生存に際して自身を取り巻く環境を知覚することを目的に進化を遂げました。餌のような有益なものを追い求め、捕食者のような脅威となる有害な存在から逃げるような、対象を世界から区別しその情報を活用して行動を選択することができるようになった生物は、生存において大きな優位性を獲得しました。

 ここで重要なのが「有益」や「有害」といった情報です。生存において必要なのはこれらの情報を世界から区別することです。何が有益なのか、何が有害なのかという情報を用いて行動を選択する生物にとって、「有益」なものや「有害」なものを区別することが「区別の必要性」となるのではないかと考えられます。環境が有益か有害かを体感レベルで示しているのが「快と不快」であり、生物は快と不快を尺度にそれらを現象一般から区別するために感覚器官や脳を活用していると考えられます。

 そして、快・不快をもたらす対象を世界から区別することが出来れば区別の目的は達成されるので、それ以上の区別は必要ありません。つまり、快・不快を区別することが区別の必要性となり、区別する能力を制御するのです。その点では快と不快は原初の意味に相当し、これらの情報を核に区別の集合体が形成されるのではないでしょうか。機械学習には区別の必要性として動作する仕組みは存在せず、恒常系、そして恒常系によってもたらされる快と不快の実装が人工知能に意味を取り扱わせるために必要となると考えている理由はこのためです。

 身体性が汎用人工知能には必要だという意見がここ数年で提案されていますが、身体およびそれを維持しようとする自己保存性を持つことによって、人工知能は快と不快を尺度に自律的に区別の集合体を形成しそれが意味内容、すなわちシニフィエとなり得るのではないでしょうか。

○終わりに

 上記の理由のため、人工知能に意味を獲得させるためには快と不快を導入する必要があると考えられます。そして、実際に快と不快を生み出している脳を調べることで得られた、快と不快を担う恒常系がどのように動作するのか、表現された快や不快の情報がどのように記憶されているのかといった、大脳辺縁系に相当する部分の仮説が次回以降の内容となります。沼どころか、海に片足を突っ込むような状態となってしまいました。

 次回は快と不快の定義とそれに関わる恒常系の仮説について、次々回は海馬とパペッツ回路によって動作する記憶形成にまつわる時系列仮説について取り扱う予定です。よろしければ、次回以降も人工知能と脳をめぐる大航海への船出に付き合って頂ければ幸いです。