音声言語処理/マルチモーダルインタラクション
Spoken Language Processing
/ Multimodal Interaction
音声認識を中心とした音声言語情報処理、およびその他のモダリティを利用したインタラクションの研究を行っています。
人と人とがコミュニケーションする最も自然なモダリティ(手段)である音声。音声を科学的に知り、分析・処理することを研究するとともに、人間のコミュニケーション能力を工学的に実現することを目指しています。
さらに、それを応用した、未来の音声対話・マルチモーダルインタラクションシステムの構築にも力を入れています。
Research in spoken language information processing, with a focus on speech recognition, and interaction using other modalities.
Speech is the most natural modality (means) of human communication. Our research aims to scientifically know, analyse and process speech, as well as to engineer the human ability to communicate.
Furthermore, we focus on applying this to the construction of future spoken dialogue and multimodal interaction systems.
大語彙連続音声認識
Large Vocabulary Continuous Speech Recognition

講演音声などの書き起こしなど、大語彙連続音声認識の適用が期待される場面が多くなっています。
近年は、深層学習モデルによるEnd-to-end音声認識の研究が進んでいます。
モデルの改良、言語モデルの適用法など、様々な側面から、その高精度化を図ります。
There are many situations where large-vocabulary continuous speech recognition is expected to be applied, for example, in the transcription of speech such as lecture speech.
In recent years, research into end-to-end speech recognition using deep learning models has progressed.
Various aspects, such as model improvement and methods for applying language models, are used to improve the accuracy of such models.
高齢者音声認識
Elderly Voice Recognition
音声認識・音声対話の恩恵を受けるのは、いわゆる情報弱者です。
特に、情報機器に不慣れだったり身体機能の低下などによって、機器の扱いが難しくなる高齢者にとって有効なはずです。
しかし、高齢者のための音声認識の研究は進んでいません。
我々は、地道な高齢者音声の収集から始め、いかにして高齢者が利用できる音声認識システムを構築するかを研究しています。
The so-called information-weak benefit from speech recognition and spoken dialogue.
It should be particularly useful for the elderly, who find it difficult to handle equipment due to unfamiliarity with information devices or reduced physical function.
However, research on speech recognition for the elderly has not progressed.
We are researching how to build a speech recognition system that can be used by the elderly, starting with a steady collection of elderly speech.
音声対話インタフェース(1)
-親しみやすいインタラクション-
Spoken Dialogue Interfaces (1)
– Friendly Interaction –
一般ユーザが、音声対話インタフェースに慣れ親しむには?
使ってみると 「返事がなかなか返ってこない」「聞いてるのかどうか分からない」そこに壁を感じます。
そこで、リアルタイムに反応を示す、また対話の「盛り上がり」にも調子を合わせ、話す事自体が楽しめるようなシステムとすることにより、その壁を取り払うことを試みています。
また、あらゆる発話に対しても、頑健に返答し、また誤認識・誤理解による混乱からもすばやく回復できる理解手法も研究しています。
How do ordinary users become familiar with spoken dialogue interfaces?
When they try it out, they find it hard to get a response, and they don’t know whether they are being heard or not, which is a barrier.
We are therefore trying to break down these barriers by creating a system that responds in real time, is attuned to the ‘excitement’ of the dialogue, and makes talking itself enjoyable.
We are also researching understanding methods that can robustly respond to all kinds of speech and quickly recover from confusion caused by misrecognition or misunderstanding.

音声対話インタフェース(2)
-医療の現場への応用-
Spoken Dialogue Interfaces (2)
– Application To The Field Of Medicine –
医療現場では、聞き取った内容をすぐさまカルテに反映したり、患者との対話を情報源として収集したりする必要があります。
こうした場面などで、医療現場の効率化を図るための音声認識・対話技術の応用を、病院との共同研究の一環として研究しています。
In the medical field, there is a need to immediately reflect what is heard in medical records and to collect dialogue with patients as a source of information.
The application of speech recognition and dialogue technology to improve the efficiency of medical practice in these and other situations is being studied as part of joint research with hospitals.

SmartHospital
音声対話インタフェース(3)
-自然に動作するインタフェース-
Spoken Dialogue Interfaces (3)
– Interfaces That Work Naturally –
普段はその存在を意識しないが、利用したいときには自然に呼びかけに応えてくれる―そんなインタフェースのために、自分への話しかけを感じとって応答するシステムの構築を目指しています。
呼びかけにすぐさま応答、そんなインタフェースを目指します。
For such an interface, we aim to build a system that senses when you are talking to it and responds to your calls, even though you are usually unaware of its presence.
The aim is to create such an interface that responds immediately to a call.
マルチモーダルインタフェース
Multimodal Interface
いつでも、ネットワーク上の様々な情報にアクセスできる手段として、音声対話を主とするマルチモーダルインタフェースを用いることを試みています。
ペン入力、タッチパネル、指さし動作などと、いかに組み合わせるかがカギとなります。
マルチモーダルインタフェースを用いると様々なことが可能になります。
たとえば、数学の幾何の問題を解答するときは、人は声と指を使います。
音声と指差しで解答すると、システムが証明文にしてくれます。
We are trying to use a multimodal interface, mainly spoken dialogue, as a means of accessing a variety of information on the network at any time.
The key is how to combine this with pen input, touch panels and pointing movements.
Using a multimodal interface, a variety of things are possible.
For example, when answering a geometry problem in mathematics, people use their voice and fingers.
If the answer is given by voice and pointing, the system will turn it into a proof text.
究極的には、自動運転車を操作することも。
Ultimately, also operating automated vehicles.

自然で表現力豊かな音声合成
Natural And Expressive Speech Synthesis
いろんな入力ができても、システム側が不自然な応答では自然な対話は成立しません。
人間と区別できないほどの高品質な音声合成は言うに及ばず、個性や感情まで表現できる合成が望まれます。
そこで、韻律(アクセントなどの声の強弱や高低)を制御したり、感情的な音声を学習したりして、自然で表現力のある音声合成を目指しています。
Even if a variety of inputs are possible, a natural dialogue cannot be established if the system responds unnaturally.
It is desirable for speech synthesis to be of such high quality that it is indistinguishable from human speech, but also to be able to express individuality and emotions.
Therefore, we are aiming for natural and expressive speech synthesis by controlling prosody (voice intensity, such as accents, and high/low pitch) and learning emotional speech.