日本語の任意の言葉の発話画像生成技術 —聴覚障碍者のコミュニケーション環境の改善に向けて—(情報学部情報工学科 宮崎剛教授)(2018.03.09)

情報学部情報工学科 宮崎剛教授

日本語の音と口形の関係を利用して任意の発話画像をコンピュータで生成する技術を開発しました。読唇のトレーニングに活用し、聴覚障碍者の読話能力の向上を目的としています。

日本語の音との口形の関連性を使って、任意の日本語の語句を発話する口の画像を生成する技術を開発しました。

日本語のすべての音には1つずつ決まった口の形があることと、音がつながる際に口の形に変化が起こる規則があることに着目。日本語のすべての音と口形に対応するデータベースを構築し、音がつながる際に起こる口形変化を、コンピュータを用いて計算する技術を確立しました。この技術により、日本語の仮名を入力するだけで、その語句を発話する際の口の動きを、コンピュータを使って生成できるようになりました。あらかじめ、日本語の5つの母音(あ~お)と閉じた口(閉唇)の6枚の口の画像を用意しておき、これらの画像にコンピュータグラフィックスの技術を応用することで、発話画像を生成できるようになりました。

従来、聴覚障碍者が読唇のトレーニングをする際の発話映像教材は、実際に人が発話する様子を撮影した映像を編集して作成されていたため、教材用の語句を増やすことは、発話をする人にとっても映像を編集する人にとっても大変な作業でした。この技術を利用することで、教材とする語句の仮名(文字)を用意しておくだけで、その語句を発話する口形の画像をコンピュータを使って生成できるようになるため、人による作業が不要になったり、教材用の語句を容易に増やせるようになったりします。この教材を使用して読唇のトレーニングを積むことで、相手の口の動きから話している内容を読み取る能力(読話)が身につきます。

さらにこの技術と音声合成技術を組み合わせることで、アバターやアニメ作品、ゲームキャラクター等へのアテレコにも適用でき、音声と口の動きを同期させることができると考えています。さらには、海外映画の吹き替えに適用できれば、俳優の声のデータ(音素)から日本語の台詞を音声合成し、併せて俳優の口の動きを加工することができれば、あたかも日本語を話しているような映像を生成することも可能であると考えています。

なお、この成果は2月7日(水)、9日(金)に開催されたテクニカルショウ横浜2018(パシフィコ横浜)に出展されました。

■ 関連記事

■ 情報工学科 宮崎剛研究室 紹介ページ 

アーカイブ

2018年

8月

7月

6月

5月

4月

3月

2月

1月

2017年

12月

11月

10月

情報公表

私立大学戦略的研究基盤形成支援事業

高校1・2年対象アンケート調査

スーパーサイエンス専攻

就職・キャリア総合サイト

先輩たちのキャリアストーリー

進学相談会

KAIT未来塾

Kait Stop the CO2 Project

IT夢コンテスト

HEMS

KAIT Eco活動宣言!

デジタルパンフレット

KAIT工房

附属図書館

入試案内

資料請求

交通アクセス