音声合成

voide synthesis


デジタル信号を処理し、人工的な音声を合成する技術の総称。またはその技術を利用した人工的な音声を合成音声という。あらかじめデジタル化した音声信号、または、音声を合成する規則をメモリに保存し、これを使って目的の音声を合成する。音声技術の見本市としては、毎年SpeechTEK & Speech Technology Magazineが米国で主催する「スピーチTEK(SpeechTech)」を開催している。詳細情報はURL(http://www.speechtek.com/)で知ることができる。LSI化によって低コストのモノが登場し、あらかじめ用意された言葉を再生するシステムが自動販売機や家電製品に使われている。最近では、自由に入力した文章を読み上げる音声合成技術が英語圏で普及してきている。しかし、日本語の場合は、構文解析の面で問題があり、開発が遅れていた。例えば、筋委縮性側索硬化症で自由が利かなくなった車椅子の天才宇宙物理学者のホーキング博士(Stephen W.Hawing 1942~)の声は、キー入力した文章をパソコンで音声合成して読み上げられた声である。汎用の音源ボードを使って音声を出す日本電気のWindows Sounds System内蔵のPCM音源とシステム・ファイルのMacinTalkを使って、英語によるテキストを読むMacintoshなどがある。また、PlainTalkを使えば、性別、年齢別などの設定も可能になった。Nisus Writer 4.1Jでは、英語、ドイツ語、フランス語から日本語まで、あらゆる言語で表示されたテキスト・データを音声合成で発音する機能が付いた。1996年6月3日、日本アイ・ビー・エムは日本語によるGUI画面の読み上げをする視覚障害者向けのOS/2 Warp対応ソフトIBMスクリーン・リーダー/2を発表した。富士通は1996年6月7日にWindows 95対応の日本語読み上げソフト「おしゃべりメイト for Windows 2.0」を発売した。関西文化学術研究都市のART音声翻訳通信研究所は1996年11月18日に、マネしたい人の音声をコンピュータに記憶させ、母音や子音を細かく分類して音声データベースを作り、他人そっくりの声を自由に出せる日・英・独・韓の4カ国に対応した音声合成システムを開発したと発表した。システム・ラボは、Netscape Navigatorで読み込んだWWWページの内容を日本語で読み上げてくれる音声合成ソフトNetMan Talks! for Windows 95を1996年11月25日に発売した。富士通は1997年4月18日に、音声合成技術「音声波形辞書」を応用し、キーボードで押したキーやかな漢字変換された文字を音声で読み上げるWindows 95対応のソフト「音声キーボードVer.1.0」を発売した。また、NTTの情報通信研究所が開発したAUDIOTEX(オーディオテック)や、ヒューマンインタフェース研究所が開発したFLUET(フルート)、沖電気工業が1996年6月に発売したSMARTTALKなども有名である。沖電気工業は、AV機器・車載AV機器・家電製品向けに固定メッセージが再生できる1チップの音声合成LSI(製品名:MSM9831)を開発し、1998年3月に発売した。詳細情報はURL(http://www.oki.co.jp/OKI/Home/JIS/New/OKI-News/1998/02/)で知ることができる。カシオは1998年1月22日に会話110文を音声で収録した電子辞書「エクスワード XD-300」を発売した。詳細情報はURL(http://www.casio.co.jp/productnews/xd_300.html)で知ることができる。1998年3月19日には沖電気工業が開発した汎用音声マイクロプロセッサ(SCP/Speech Control Processor/製品名:MSM7630)向けにフランスのエラン(Elan informatique)社が開発した英語、米語、フランス語、ドイツ語、スペイン語のテキスト音声変換エンジンを移植し、それに日本語を加えた6ヵ国語となった製品を全世界に販売することで合意した。詳細情報はURL(http://www.oki.co.jp/OKI/Home/JIS/New/OKI-News/1998/03/z9788.html)で知ることができる。富士通は11月9日から、アプリケーションに音声機能を組み込むためのソフトウェア開発環境「Fujitsu Voice Series」を開発し、デベロッパー向けにライセンス販売を開始した。詳細情報はURL(http://www.fujitsu.co.jp/hypertext/news/1998/Nov/9-5.html)で知ることができる。また視覚障害者のための文字コードの歴史についてはURL(http://www.nyise.org/blind/)にHistory of Reading Codes for the Blindというホームページがある。NTTサイバーコミュニケーション総合研究所は1999年12月21日に、任意の漢字かな混じりテキスト文を高品質な合成音声に変換する音声合成技術「FinalFluet」を発表した。システムトラストは2000年7月3日に、WINDOWS 95/98版音声合成システムを利用した珠算、暗算のためのマルチメデア学習ソフト「あばかすくらぶ」改良版を発売した。詳細情報はURL(http://www.abacus-net.com/)で知ることができる。NTTドコモは2001年8月27日に、音声読み上げ機能付きiモード端末「F671i」を発売した。高電社は2002年1月24日に、インターネットのホームページや電子メールを始め、各種アプリケーションで表示される英語、韓国語、中国語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、オランダ語、ロシア語、日本語の世界11カ国語で表示されたテキストを読み上げるWindows対応のソフト「WORLD VOICE2」を日韓共催サッカーW杯に向けて発売した。また、IPA(International Phonetic Association/国際音声記号協会)が提供しているThe International Phonetic Alphabet(国際発音記号)情報がある事典はURL(http://www2.arts.gla.ac.uk/IPA/ipachart.html)にある。AllAfrica.comは2002年10月17日に、the Shuttleworth Foundationが設立したThe Zuza Software FoundationはTranslate.orgの協力を得て、ブラウザのMozilla上でアフリカのXhosa語やZulu語、Venda語、Northern Sotho語、Siswati語、Tswana語でしゃべる環境を開発し、オープンソースとして公開すると発表した。詳細情報はURL(http://allafrica.com/stories/200210170169.html)で知ることができる。日立製作所中央研究所は2004年7月30日に、漢字かな混じり文を入力するだけで、肉声に極めて近い高品質のアナウンス音声を生成できる音声合成技術を開発したと報告した。詳細情報はURL(http://www.hitachi.co.jp/media/New/cnews/month/2004/07/0730a.html)で知ることができる。2005年日本国際博覧会協会、ソーシャルサービス協会、日本IBMは2005年3月22日に、2005年日本国際博覧会(愛・地球博)のホームページで、パソコン初心者や高齢者、視力の弱い方などが、容易にホームページを閲覧できるようにするインターネット支援ソリューション「らくらくウェブ散策」を採用し、日・英・仏・中(繁体字、簡体字)・韓・西の7つの言語の読み上げ機能を提供すると発表した。詳細情報はURL(http://www-6.ibm.com/jp/press/20050322001.html)または、URL(http://www.expo2005.or.jp/jp/index.html)または、URL(http://www.expo2005.or.jp/)で知ることができる。イギリスのバーチャル・リアリティ・コントロール・システムを開発しているTelevirtual社は2005年10月20日に、Media Laboratoryが世界で初めてartificial speech engineを使った放送局を開設したと報告した。この開発にはイギリスの一流の科学者解説者とBBCが協力していて、Televirtual社がMETmanを誕生させ、最新版の天気図とテキストベースのデータから天気概況を提供している。このシステムは人工音声とTTS(Text-to-Speech) engineをカスタマイズして、放送システムの基本を構築し、人間の声はTelevirtual社のボスとテレビのニュース・アナウンサーになりたかった開発者Tim Childの声から作られている。詳細情報はURL(http://www.televirtual.com/news.htm)で知ることができる。スピーチエンジンは最大30時間の書き取られたスピーチを記録することによって、作成され、音声合成のTimの声で解説され、Televirtual社は、これまでで考えられない、とんでもない性能レベルのロボットを達成することができたと自負している。今回開発されたシステムは、Televirtual社がXMLスタイルマークを操作して口パクアニメーションの引き金として開発し、受賞した3DのRAP アニメーションシステムとも相互運用できるそうですから、そのうちに3Dアニメーションのオラウータンがアナウンサーとして現れ、ニュースを読み始める時代が近いかもしれない。最近では、ゴリラのようなアナウンサーや娼婦のようなアナウンサー、漢字の読めないアナウンサー、滑舌が悪いナウンサーもいるので、正確に話す必要があるニュースには、こちらの方が良いかもしれない。くだらないお笑いタレントなら、こっちの方が面白そうで、それに、このタレントなら警察にも捕まらなくて、スキャンダルもない。


Royal National Institute for the Blindが視覚障害者のために開発した初期の点字
音声翻訳システムの研究開発の歴史年表
FinalFluetと従来型音声合成技術との合成単位接続比較
産業革命に影響された1890年にLouis Poyetが描いた「発明する頭」
1908年にLouis Poyetが描いた「Dr.Marageの写真と声」
TeleGeography社の世界の情報通信マップ案内ページ
ヤマハの音源LSI(YMU757)
ヤマハの音源LSI(YMU759)
ezバーチャルトークのイメージ
SFSUが公開した身体的に不自由な人をサポートする歴史
AT&TによるMBROLAの音声合成分析
IPAが提供しているdiacritics発音記号
IPAが提供しているnonpulmonic発音記号
IPAが提供しているpulmonic発音記号
IPAが提供しているsupras発音記号
IPAが提供しているsymbols発音記号
IPAが提供しているtones発音記号
IPAが提供しているvowels発音記号
Gartner Dataquest社が2002年9月19日に発表した無線LAN市場予測
NISTが触覚化したデジタル画像とディスプレイ
OWASPが公開したWebサイトの脆弱性トップ10 ver.1
Illustrirte Zeitung1845年2月1日号に掲載されたLachmann教授が開発した点字
Lachmann教授が開発した視覚障害者用幾何学文字
Lachmann教授が開発した視覚障害者用数学文字
Lachmann教授が開発した視覚障害者用計算機
Illustrirte Zeitung1845年3月1日号に掲載された視覚障害者用タイプライター
Illustrirte Zeitung1846年11月21日号に掲載されたFaber教授が開発した言葉をしゃべる機械
Illustrirte Zeitung1845年3月1日号に掲載された1838年崩壊したPesthの視覚障害者施設
Pesthの視覚障害者施設再建に努力したAnton Dolezalek
Pesthの視覚障害者施設再建に努力したValentin Hauy
再建されたPesthの視覚障害者施設
Pesthの視覚障害者施設にある視覚障害者訓練装置-1
Pesthの視覚障害者施設にある視覚障害者訓練装置-2
Illustrirte Zeitung1852年4月17日号に掲載された眼鏡
日韓友情年2005
Illustrirte Zeitung1856年1月26日に掲載された化学者Justus von Liebig
ミュンヘンのJustus von Liebig研究所
Justus von Liebigの階段教室
Illustrirte Zeitung1856年5月10日に公開された分解画像眼鏡広告
ステレオ眼鏡広告
Illustrirte Zeitung1856年6月28日に公開されたパリ工業博覧会
厚生労働省が2005年5月10日に公開した「障害者自立支援法案について」
Televirtual社のリリース
Televirtual社が誕生させたMETman
ゴリラのようなアナウンサー
音声を利用した開発者のTim Child
METmanが天気予報を解説している画像-1
METmanが天気予報を解説している画像-2
METmanが天気予報を解説している画像-3
METmanが天気予報を解説している画像-4

言語関連のURL
音声合成単位
音声通訳
音声翻訳
複合音韻連鎖単位
ARAM
隠れマルコフ・モデル
トークマン
ネットスケープ
VDTS
音声認識
VoiceType Dictation
もしもしメールサービス
Anetサービス
3001年のコンピュータ「HAL」
Speed97
家電メーカーの新製品情報URL
SRAPI
Speech Mail
ADAMS
SMARTTALK
CHATR
ViaVoice
WAI Project
レンダリング・エンジン
Raptor
IVR
でんわなび
Visual Voice
OAK for Java
Kansai MediArchive
音声認証システム
絶対音感
Talking Head
Microsoft Cordless Phone System
Home Page Reader
JSAPI
DoPa
インターネット対応型自販機
VRM
おはなしメール
CyberTranscriber
携帯電話インターネット接続
OSG
パーベイシブ・コンピューティング
パソコンの時代は終わった
VRVプロジェクト
VDTS
MAXITATERU
ATR-MATRIX
FinalFluet
MITのJupiterシステム
Dobell Eye
BellSouth Info by Voice
e-@ction Natural Language Speech Assistant
空想家電
DID
ナンバー・ポータブル
Windows CE for Automotiveフォーラム
HTK(Hidden Markov Model Toolkit)
Audrey
RapidIOインターコネクト・アーキテクチャ
CES
インターネットに対応した家具
FHS(Free Hand System)
IReader
声の出る新聞
大阪ボイスポータル実証実験サービス
Natural Voices
ezバーチャルトーク
ドコモ「iモード」
XScale
MBROLA(MultiBand Resynthesis OverLap Add)
DSR(Distributed Speech Recognition)
SALT(Speech Application Language Tags)
ワトソン2号
舌の動きで電動車いすを無線操縦できるシステム
公衆無線LANモニターサービス
発音記号
eyechip
S-MAP(SuperH Mobile Application Processor)
触覚式ディスプレイ
Cometa Networks
隣接チャネル漏洩電力
OWASP(Open Web Applications Security Project)
Tormes
vOICe(voice Oh I See!)
日本OSS推進フォーラム
iReady
F/OSS(Free and Open Source Software)
ユビキタス・オープン・プラットフォーム・フォーラム
Tyflos
機械翻訳
MTC(MachineTranslate Communications)
SAPI(Speech API )
世界的(経済・自然)危機は、世界で50の航空会社を殺す!