これまでの卒業研究テーマ |修士論文研究テーマ |博士論文研究テーマ
現在実用化されている音声での対話システムでは,文字テキストで
表現される言語情報が利用されています。
一方,人間同士の対話では,「急いでいる」「困っている」
「怒っている」などの心的な状態を音声から推測して話を行うことが
ごく自然に行われています。
情報端末などの機械との音声対話でも,このような "気持ちを察して"
くれる対話を実現するために,
話者の心的な状態を認識する手法の開発を行っています。
例えば,図1-1-1 に示すように,慌てていることが分かれば
情報の提示を優先する応答生成を行う,などのやりとりを
実現することができます。
一般に,音声認識では,人間の声と同時にマイクロホンに入力される雑音や
残響音声(壁からの反射音など)の影響によって,認識性能が劣化します。
そのため通常は,図1-1-2に示すように,雑音などの影響を減らすため口元に設置した
接話マイクロホンを用います。
口元から離れた場所にマイクを設置し,マイクロホンの位置を気にすることなく
高い性能での音声入力を可能とするハンズフリー音声認識の研究が
広く行なわれいます。
山下研では,天井に設置した16個のマイクロホンから構成される
「分散マイクロホンシステム」(図1-1-2)を用いて,
発話者などの音源の位置を同定する手法や,
話者の音声を背景雑音や他の話者の発声から
分離して収録する手法の研究を行なっています。
マイクロホンから離れた場所で発声された音声(遠隔音声)が
認識できると,部屋全体が ``聞き耳をたてている'' 環境が実現され,
遠隔地とのテレビ会議システムやロボットへの音声入力などの
応用が期待されます。
図1-1-3は,発話者の位置を分散マイクロホンシステムで同定し,
天井に設置したカメラを使って話者を表示するデモンストレーション
システムの動作画面です。
音声合成に関する長い研究の歴史の中で,当初の研究では, コンピュータが人と同じように音声を生成するために, 合成される音声の明瞭性や自然性の向上に研究の焦点が置かれていました。 基本的な音声合成システムの構成を図1-2-1に示します。 ある程度,明瞭で自然な合成音声が生成可能となった近年では, 豊かな感情を持った合成音声や様々な人の声での合成など, 合成音声の多様性を実現するための研究が広く行われています。 山下研究室でも,多様な合成音声の生成を目指して研究を行っています。
我々は,人の声を聞いたとき「○○さんの声に似ている」と
感じることがあります。
山下研究室では,コンピュータが「声質がどの程度似ているか」を
自動評価する手法を開発しています。
近年の音声合成システムでは,さまざまな話者の声質で
音声が合成できるようになっており,どの程度「その人らしい」
音声が合成できているかを評価することが重要になってきています。
声質の類似度を自動評価できれば,
音声合成システムの声質の再現性を人間が聴取することなく行えるようになり
音声合成システムの開発が容易になる他,
音声認識において話者が同じ話者であるかどうかを自動判定する
話者認識の問題にも適用することが期待できます。
話者の声質の類似性は,図1-2-2 に示した
音声を分析して得られるスペクトルなどの特徴パラメータを
用いてある程度推定できることがわかっています。
これまでに,人が話者性を知覚する空間を構成して物理的な
特徴パラメータと比較する手法や,
特徴パラメータの重付け距離を用いる手法などを検討います。
人の声には「よく通る聞き取りやすい声」と「聞き取りにくい声」があります。 図1-2-3では,雑音下では声が聞き取りにくい様子を模式的に表しており, 雑音がある環境での音声合成では,聞き取りやすい声質での 音声合成が期待されます。 声の聞き取りやすさは,音声のどのような特徴で変わってくるのでしょうか。 聞き取りやすい合成音の生成や聞き取りにくい音声を聞き取りやすい音声へ 変換する処理の実現を目指して, 図1-2-4に示すように,雑音を重畳した音声の聞き取り実験を行い 音声の聞き取りやすさに関する分析を行っています。
声から感じとれる個人性には,
声質だけでなく韻律的情報 (声の高さ,声の大きさ,話す速さ) が
大きく影響を与えることが知られています。
山下研究室では,声の高さ(基本周波数;F0)や話す調子などの
韻律情報と個人性の関係について分析を行い,
個性を感じられる合成音の生成を目指しています。
韻律情報だけでどの程度話者を同定できるでしょうか。
韻律情報をそのまま保存し,スペクトル情報を全て /a/ に
置き換えた合成音声に対する聴取実験を行い,
韻律情報と個人性の関係を分析しています。
このような実験を通して,アナウンサーの発声は
同定し易いことが明らかになっており(図1-2-5参照),
アナウンサー発声の特徴を明らかにするとともに,
発声に対する「アナウンサーさしさ」を自動評価することも検討しています。
PodCastなどの音声ブログや録音した講演・講義の
音声から入力されたキーワードが話されている区間を自動的に
検出する検索語(キーワード)検出 (Spoken Term Detection) の研究を
行なっています。
検索の対象が文字テキストではなく音声であるため,
図2-1-1(a)のように,いわゆる大語彙連続音声認識(LVCSR: Large Vocabulary
Continuous Speech Recognition) を用いて音声データを文字テキストデータに
変換して検索を行なうことを考えると,音声認識誤りが起った場合に検索できません。
さらに,音声認識では辞書に入っていない単語(未知語)は認識結果に
現れないため検索もできません。
検索すべきキーワードが未知語である可能性も考えると,
図2-1-1(a)のような方式では不十分です。
山下研では,音声認識を用いて音声ドキュメントをテキストに
変換するのではなく,図2-1-1(b)のように,
検索語検出に適した表現形式に音声ドキュメントを変換しておき,
音素列に展開した検索語と照合することにより,
検索精度と向上と検索時間の短縮を目指しています。
日常生活で,我々はいろんな場面で「おしゃべり」しています。 そのような「おしゃべり」を録音することによって, 有効活用できないでしょうか? 例えば,「○○の話をしてたのは いつ頃だったっけ?」とか,「私は,○○といったと思うんだけど...」などです。
図3-1-1に示すように,スピーカーから流れてくる
音楽の信号に,
耳では聞こえないように歌手名,曲名,歌詞などの文字情報を埋め込んでおき,
情報端末で表示するシステムの開発を行っています。
この手法は,音楽信号への歌詞などの情報埋め込みだけでなく,
駅のホームでのアナウンスに発声内容の文字情報を埋め込んで
おくことで,聴覚障害者へ情報提供するなどの応用も考えられます。
電子書籍やデジタル漫画など,タブレット端末やPCを使って
読むデジタルコンテンツでは,文字テキストや画像だけでなく,
図3-2-1のように効果音やBGMなどの音情報を添付することにより,
作品をより臨場感豊かに制作することができます。
デジタルコンテンツの作品制作者を支援するために,
効果音やBGMを自動的に付加する手法の開発を目指して,
場面の解析,効果音の分類や検索,BGMの作曲などの
研究に取り組んでいます。