機械学習を用いた日本語音声対話システム

 公開されている機械学習技術や既存の音声認識・音声合成APIを用いて、日本語音声対話システムの開発を行っています。
 近年Deep Learningに代表される機械学習の発展がめざましく、その中でも人間が用いる文章や会話を解析し、ICTシステムに応用するという研究分野に注目が集まっています。例えば、対話型の音声操作に対応したスマートスピーカーや、ルート探索・施設検索処理などを音声対話でやりとり可能な車、コールセンターにおける対応の音声自動対話化などがあります。
 本研究では、日本語音声対話システムの開発を行う中で、対話において最適な返答や指示を返すという高度なコミュニケーションに対する機械学習技術の可能性を追求し、音声自動対話システムにおける汎用的な技術的知見を得ることを目的としています。
 本研究で開発する日本語対応音声対話システムの構成は音声認識、対話管理、音声合成の3つに大きく分けられます。音声認識は、音声認識APIを利用し、ユーザの発話に対して音声認識を行い、音声データをテキストデータに変換します。対話管理は、変換されたテキストデータを解析エンジンで理解・解釈し、バックエンドシステムで情報検索を行いながら、ユーザに対する応答や質問をテキストデータとして生成します。音声合成では、音声合成APIを利用し、テキストデータである応答文を音声データに変換して返答します。公開されている機械学習技術や既存の音声認識・音声合成APIを組み合わせて、より人間らしい自然な応答ができる日本語音声対話システムを目指しています。


chart

日本語音声対話システムの構成


chart

人工知能(AI)