サイトTOPに戻る

VOICECLOUD プロジェクトをスタートします

2018-01-03

近頃、Google HomeやAmazon Echoを筆頭に、スマートスピーカーと呼ばれる音声対話インターフェースが市場に提供され始めています。これに伴い、音声対話によるデバイスの操作や情報のやり取りは、広く一般に浸透すると考えられます。

ここで問題になってくるのが、デバイスによる音声発話の品質です。現時点で日本語対応しているスマートスピーカーの発話を聞いてみると、英語の発話のときには感じなかった違和感があり、その違和感の主な原因は、抑揚やアクセントなどの韻律に関する部分の品質が十分でないと感じられます。

VOICECLOUDでは、この問題点を解決するべく、音韻性だけでなく韻律性においても高い品質を持つ合成音声を提供することを目標とします。 また、声優、アナウンサーの声や、エンドユーザーの声に近い合成音声も、需要は多くあると考えられます。 VOICECLOUDでは、これらのニーズに応えるべく、ユーザーが求める話者の合成音声を得られるような仕組みを備えることも目標とします。

合成手法(モデル、データベースによる分類)

以下に、合成手法のそれぞれの特長を紹介します。

HMM音声合成

素片接続法

DNN(ディープニューラルネットワーク)

合成手法(話者依存の音声を得る方法)

サービス例 スマートスピーカー向け音声スキン

概要

実現方法

課題

サービス例 オリジナルTTS

概要

実現方法

課題