自然な音声作る「WaveNet」の衝撃 なぜ機械は人と話せるようになったのか
2017年、米Googleや米Amazonなどの「スマートスピーカー」と呼ばれるデバイスの普及が日本で始まった。
例えば、「ねえGoogle、今日の予定は?」と話しかけると、カレンダーアプリに入力していた予定を流ちょうな日本語で読み上げてくれる。
中に人がいるわけではない。デバイスが人の声を認識し、応答となる声を合成しているのだ。
〈中略〉
音声合成であればコールセンターの機械応答、ボーカロイド「初音ミク」(正確には歌声合成)、
ニコニコ動画の「ゆっくり実況」などで使用される「SofTalk」など、それぞれ以前から一般消費者が触れられる技術ではあった。
一方で、音声認識の精度の甘さや、合成された音声の「機械っぽさ」を覚えている人も多いだろう。
しかし、スマートスピーカーでは(完全とはまだ言えないが)、人の声を精度良く認識して、
人の声と遜色ない合成音声で返答するということをやってのけている。
ここにはどんなブレークスルーがあったのか。音声情報処理について研究する、名古屋大学の戸田智基教授に話を伺った。
戸田教授は、「音声合成については『WaveNet』の登場が衝撃的だった」と語る。
囲碁AI「AlphaGo」開発元が作った「WaveNet」とは
以下リンク先参照
http://www.itmedia.co.jp/news/articles/1803/27/news053....
返信する