テキスト音声合成
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/11 00:45 UTC 版)
テキスト音声合成はテキスト(文章)を音声に変換するタスクである。この変換は以下の問題と捉えることができる。 テキストとそれに対応する音声波形の組があるとき、任意に与えられたテキストに対応する音声波形を求めよ。 この問題に対する解法の1つが統計的機械学習である。すなわち音声データベース(コーパス)に基づき波形生成の確率モデルを学習し合成器とするアプローチである。人の音声生成において、同一話者が同じ文を何回か読み上げたときに全く同一の波形が得られることは極めて稀である。このように音声生成過程および音声信号は非決定的な性質をもち、確率的な枠組みは有効である。 この枠組みでは、音声データベース(コーパス)に存在するテキストおよび音声波形をそれぞれ W {\displaystyle {\mathcal {W}}} および X {\displaystyle \mathrm {X} } 、与えられた任意のテキストを w {\displaystyle {\boldsymbol {w}}} 、合成すべき音声を x {\displaystyle {\boldsymbol {x}}} としたとき、 x {\displaystyle {\boldsymbol {x}}} の予測分布 p ( x | w , X , W ) {\displaystyle p({\boldsymbol {x}}|{\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}})} を w , X , W {\displaystyle {\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}}} から推定し、この予測分布から x {\displaystyle {\boldsymbol {x}}} をサンプリングする。分布モデルはしばしば補助変数と近似を導入して複数のステップに分割される。
※この「テキスト音声合成」の解説は、「音声合成」の解説の一部です。
「テキスト音声合成」を含む「音声合成」の記事については、「音声合成」の概要を参照ください。
- テキスト音声合成のページへのリンク