Professor

柴田 千尋

東京工科大学

コンピュータサイエンス学部 講師
機械学習/ディープラーニング

ディープラーニングの真相を
数理的・論理的に解き明かす!

“りんな”やSiriを支える
「自然言語処理」の研究

 LINEの「友だち」に女子高生AI“りんな”を登録している人はどれくらいいるだろうか?“りんな”はマイクロソフトが開発した、人との自然な会話を可能にする人工知能(AI)。基盤を支えているのは、「自然言語処理」と呼ばれるAIの研究分野だ。iPhoneの「Siri」や Google翻訳にも応用されている「自然言語処理」とは、どのような技術なのか。この分野の専門家である東京工科大学コンピュータサイエンス学部の柴田千尋先生に話を聞いた。「AIに興味がある人なら機械学習やディープラーニング(深層学習)と言う言葉を聞いたことがあるでしょう。機械学習とは、大量のデータを用いて、対象となる現象の法則性や関係性をコンピュータに覚えさせる技術。ディープラーニングも機械学習の一分野で、コンピュータにより自律的に学習させる技術だと言えます。私たちも『自然言語処理』の研究で、ディープラーニングを大いに活用しています」

囲碁AI「アルファ碁」も
ディープラーニングの成果

 ディープラーニングは、画像認識、文字認識、音声認識、機械翻訳、絵画の自動生成など、実に多様な分野で応用されている。Google傘下のDeepMind社が開発した囲碁AI「アルファ碁」もディープラーニングを用いて、実に多彩な研究が進められている。
「例えば、自然言語処理を使ったコンピュータとの対話の研究。かつては、正しい対話の例を研究者が選んで、コンピュータに大量に入力する必要がありました。しかしディープラーニングを用いれば、コンピュータがWeb上の対話文例を自分で探してきて、勝手に法則をみつけてくれるのです。研究者は、そのアウトプット(成果)に対して、確率統計などの理論に基づいた技術的な軌道修正をくり返しながら、制度を上げていきます」
 話を聞いていると人間の子どもが大人たちの会話を聞きながら、言葉を覚えていく往路セスに似ているような気も……。それもそのはず、ディープラーニングはもともと人間の脳の生物学的特徴をコンピュータ上で再現する「ニューラルネットワーク」と呼ばれるAIの研究分野がベースになっている。脳内の複雑な電気信号のやりとりがコンピュータ上で再現されていると考えると、まるでSF映画のようだ。「ディープラーニングは、まだまだ開発途上で課題が山ほどあります。自然言語処理で言えば、『長距離の依存関係』の例が有名です。図Aを見てください。今までは、文節がこの距離だけ離れると、Xが指すものが『お素麺』であることをAIに理解させるのは非常に困難でした。そこで私たちは、LSTM(Long Short-Term Memory)という技術を使って、過去に遡って会話を記憶し、時系列でものを考えられるAIを実現しようと試みています」

画像認識と自然言語処理を
組み合わせた研究も進行中!

未知の領域がまだまだ多いのが
ディープラーニングの課題

 柴田先生がデータサイエンスの道を選んだのは、生命への興味がきっかけ。学生時代は、情報工学の技術を用いて、DNA解析やたんぱく質発現のネットワーク解析に取り組んでいた。その後、ディープラーニングという新たな技術と出合い、応用の幅を広げていく。
「最近は、画像認識と自然言語処理を組み合わせた研究にも力を入れています。例えば、Web上にあるネコが写った画像に、コンピュータが自動的に『ネコがソファで寝ています』といった説明を付けてくれる技術です。そのほか、他大学や企業との共同研究も進んでいます」ディープラーニングには、まだまだわからないことが多い。画期的な成果はあるものの、その中身が研究者にも理解できないのは大きな課題である。そのため、ディープラーニングのしくみを数理的・論理的に解明するのが研究者のミッションだと柴田先生は力説する。
「それでも、ディープラーニングが新たなビジネスチャンスの宝庫なのは間違いありません。柔軟なアイデアで、まだこの世界にない発明にも挑戦してみたいと思っています!」

ディープラーニングの欠点を明らかにした「長距離依存関係の例」

2016年にオランダ、デリフトで開催された機械学習に関するコンテストSequence PredIction ChallengE(SPiCe)で優勝したときの授賞式の様子

画像認識と自然言語処理の技術を組み合わせて、ネコの画像に説明を付ける際のニューラルネットワークの例

※インタビュー内容は取材当時のものです。