RESEARCH

音声言語処理／マルチモーダルインタラクション
Spoken Language Processing / Multimodal Interaction

音声認識を中心とした音声言語情報処理、およびその他のモダリティを利用したインタラクションの研究を行っています。
人と人とがコミュニケーションする最も自然なモダリティ（手段）である音声。音声を科学的に知り、分析・処理することを研究するとともに、人間のコミュニケーション能力を工学的に実現することを目指しています。
さらに、それを応用した、未来の音声対話・マルチモーダルインタラクションシステムの構築にも力を入れています。

YouTube（日本語版）

大語彙連続音声認識

講演音声などの書き起こしなど、大語彙連続音声認識の適用が期待される場面が多くなっています。
近年は、深層学習モデルによるEnd-to-end音声認識の研究が進んでいます。
モデルの改良、言語モデルの適用法など、様々な側面から、その高精度化を図ります。

高齢者音声認識

音声認識・音声対話の恩恵を受けるのは、いわゆる情報弱者です。
特に、情報機器に不慣れだったり身体機能の低下などによって、機器の扱いが難しくなる高齢者にとって有効なはずです。
しかし、高齢者のための音声認識の研究は進んでいません。
我々は、地道な高齢者音声の収集から始め、いかにして高齢者が利用できる音声認識システムを構築するかを研究しています。

音声対話インタフェース(1)
-親しみやすいインタラクション-

一般ユーザが、音声対話インタフェースに慣れ親しむには？
使ってみると「返事がなかなか返ってこない」「聞いてるのかどうか分からない」そこに壁を感じます。
そこで、リアルタイムに反応を示す、また対話の「盛り上がり」にも調子を合わせ、話す事自体が楽しめるようなシステムとすることにより、その壁を取り払うことを試みています。
また、あらゆる発話に対しても、頑健に返答し、また誤認識・誤理解による混乱からもすばやく回復できる理解手法も研究しています。

YouTube（日本語版）

フォトリアルCGエージェントとの対話システム — Artificial Emotional Intelligence “Saya”

Artificial Emotional Intelligence “Saya”

音声対話インタフェース(2)
-医療の現場への応用-

医療現場では、聞き取った内容をすぐさまカルテに反映したり、患者との対話を情報源として収集したりする必要があります。
こうした場面などで、医療現場の効率化を図るための音声認識・対話技術の応用を、病院との共同研究の一環として研究しています。

YouTube（日本語版）

SmartHospital

音声対話インタフェース(3)
-自然に動作するインタフェース-

普段はその存在を意識しないが、利用したいときには自然に呼びかけに応えてくれる―そんなインタフェースのために、自分への話しかけを感じとって応答するシステムの構築を目指しています。
呼びかけにすぐさま応答、そんなインタフェースを目指します。

YouTube（日本語版）

マルチモーダルインタフェース

いつでも、ネットワーク上の様々な情報にアクセスできる手段として、音声対話を主とするマルチモーダルインタフェースを用いることを試みています。
ペン入力、タッチパネル、指さし動作などと、いかに組み合わせるかがカギとなります。
マルチモーダルインタフェースを用いると様々なことが可能になります。
たとえば、数学の幾何の問題を解答するときは、人は声と指を使います。
音声と指差しで解答すると、システムが証明文にしてくれます。

究極的には、自動運転車を操作することも。

自然で表現力豊かな音声合成

いろんな入力ができても、システム側が不自然な応答では自然な対話は成立しません。
人間と区別できないほどの高品質な音声合成は言うに及ばず、個性や感情まで表現できる合成が望まれます。
そこで、韻律（アクセントなどの声の強弱や高低）を制御したり、感情的な音声を学習したりして、自然で表現力のある音声合成を目指しています。

デモサイト

研究室学生の作成教材

研究室学生、熊谷・オドム・尾田が作成した教材「ChatGPTと実際に対話する」を紹介します。
音声認識とChatGPTと音声合成で、人間と声で対話できる計算機ソフト「音声対話システム」を作ったものです。

ChatGPTと実際に対話する

さらに詳しくはこちら。More infomation, Click here.

音声言語処理／マルチモーダルインタラクションSpoken Language Processing / Multimodal Interaction

大語彙連続音声認識

高齢者音声認識

音声対話インタフェース(1) -親しみやすいインタラクション-

音声対話インタフェース(2)-医療の現場への応用-

音声対話インタフェース(3) -自然に動作するインタフェース-

マルチモーダルインタフェース

自然で表現力豊かな音声合成

研究室学生の作成教材

音声言語処理／マルチモーダルインタラクション
Spoken Language Processing / Multimodal Interaction

音声対話インタフェース(1)
-親しみやすいインタラクション-

音声対話インタフェース(2)
-医療の現場への応用-

音声対話インタフェース(3)
-自然に動作するインタフェース-