「こんにちは。今日はいい天気ですね」—。男性が話した言葉がそのまま特定の女性の声に変わってスピーカーから流れた。東京大学大学院情報理工学系研究科システム情報学専攻の猿渡研究室がDMM.com(東京都港区)との社会連携講座(※)を通じて開発した「リアルタイム音声変換システム」だ。これまでは音声変換の処理に時間がかかり、リアルタイムでの音声変換は困難だったが、機械学習技術の活用などによって即時変換を可能にした。イベントやライブ配信といったエンターテインメント領域などでの活用を見込む。
人気アニメ『名探偵コナン』では探偵グッズである「蝶ネクタイ型変声機」を使って事件を推理するのがお約束。そんなアニメの世界を実現する。(取材・葭本隆太)
(※社会連携講座:公共性の高い共通の課題について、東京大学と共同研究を実施しようとする民間企業などから受け入れる経費などを活用して設置される講座。DMM.comと16年に開設した連携講座では3年間で約1億円の研究規模で実施した。)
<遅延は50ミリ秒>
リアルタイム音声変換システムはまず声の特徴を「高さ」「声色」「かすれ具合」の3成分に分解してそれぞれ数値化し、話者Aから変換する話者Bへの数値の変換ルールを機械学習を使って学習させる。事前に用意した文章を話者A・Bが1—2時間で読み上げて得た音声データを活用する。音声変換は50ミリ秒程度で処理しており、話し手自身が、遅れが気にならないほどの即時性を実現する。
音声変換の処理について音質を保ちながら高速化できたポイントは二つある。話者AとBで声の特徴が同じ部分は変えない機構を取り入れたことと、話者の音声データを人工的に水増ししたことだ。
猿渡研究室の高道慎之介助教は「同じ人でもその日の調子によって声には微妙なブレが生じます。そのブレを人工的に再現して学習させることで話し手の声のブレに頑強かつ高い音質が作れます」と説明する。
この仕組みを拡張すると、音声データを事前に取得していない不特定の人の声を特定の声に変換することもできる。「事前にいろいろな人の声を学習した上で人工的に多様な声を水増しして学習させることで(事前に収録していない人も)特定の声に変換できます」(高道助教)。
<ビジネス化どうする>
このシステムは同研究科がDMMと2016年に開設した社会連携講座を通して開発した。高道助教が研究していた音声変換の技術をベースにした社会需要に応え得る研究開発として「リアルタイム音声変換システム」を設定した。キャラクターを使った動画配信を行う「Vtuber(ブイチューバー)」の活動が盛り上がっており、そうした領域でビジネスとして活用できる期待があった。
DMMは現在、エンタメ領域などでビジネス利用の可能性を検証している。7月には都内のイベントでアニメキャラクターのアフレコ体験ができる仕組みとして紹介した。
https://newswitch.jp/p/2045...
返信する