マルチモーダル

Multi-Modal

多様な形態

マルチモーダルの定義は、まだ固まった概念はない。類語として、マルチメディア・インタフェースという言葉がある。マルチメディア・インタフェースは単にメディア(音、映像、触覚など)が複数になっているときを表すのに対し、それぞれのメディアがいろいろな形態で使われ、情報伝達を行っているときにマルチモーダル・インタフェースと呼ぶ。例えば、同じ音でも言葉としての音声、韻律、擬態語、摩擦音や落下音のように分類するとモーダリティを考えることができる。あるいは人差指を伸ばした動作の映像は、1という数字、物体の指示、口にあてて静かにという命令、など数種類のメッセージを手の同じ映像というメディアから伝達するときにマルチモーダルだということができる。

[人間対人間の場合]
人間と人間が情報を交換する場合はインタフェースというより、マルチモーダル・コミュニケーションと呼ぶほうが適切である。人間対人間のコミュニケーションにおいてマルチモダリティがいかに使われるかを学ぶには、ノンバーバル言語(non-verballanguage)や動作学(Kinesics)などがある。人間にはメッセージ発信の仕方に複数のモダリティがあって、人間同士のコミュニケーションがマルチモーダルといえる。例えば、カリフォルニア大学サンフランシスコ校(University of California, San Francisco)の心理学者エックマン(P.Ekman)は身振り手振りや表情などの動作を次の5つに分類している。
(1)表象動作(emblem):メッセージを意図的に伝達するときに使われる。「はい」や「いいえ」の首の動きなど、
(2)身体操作(bodymanipulator):意図的でないメッセージ伝達動作で、おもに自分自身の体に作用する動作。頭を掻く、鉛筆をもて遊ぶなど、
(3)例示的動作(illustrator):言葉によるメッセージを説明・例証する動作で、話題の対象を指さしたり、手で山の形を描く動作がこれにあたる。表象動作が動作だけで完結するのに対して、例示的動作は言葉が伴う。
(4)情動表出(emotionalexpression):顔の表情など、個人の情緒的な状態や反応を伝える。
(5)規制的動作(regulator):言葉によるコミュニケーションを監視し、規制する動作で、注目や相づちなどがある。

[人間対機械の場合]
マルチモーダル・インタフェースの例として、発声(speaking),動作(gesture),視線(looking)を3つのモードとしてあげて、これらのモードを協調させたり、同時に使うことによって、気軽さ(unburdening)、加算による頑強さ(summation)、冗長性(redundancy)が得られる。このように複数種類のメッセージを組み合わせて、人間が本来伝えようとしている、あるいは自然に伝わる大事なメッセージを理解しようというのがマルチモーダル化の基本的な考え方である。ヒューマン・インタフェースの分野で、マルチモダールの考え方を取り入れ、キーボードの代役として自然に近い条件で音声・身振り・顔の表情などをモード化し、コンピュータへの情報入出力に活用しようという試みが行われている。

機械と人間の間で情報の受け渡しをスムーズに行おうとする新しい試みとして、米国のマサチューセッツ工科大学メディア研究所(Massachusetts Institute of Technolory Media Laboratory/MITML)の研究者が、同研究所の画像認識システムALIVE開発経過の一端として発表した。これは、音声入力の補足として認識度の向上に役立つと期待が集まっている。また、京都府精華町関西文化学術研究都市国際電気通信基礎技術研究所にあるATR(Advanced Telecommunications Research institute international/国際電気通信)知能映像通信研究所で、人間の顔の表情をコンピュータに判断させる研究をしている大谷淳(Jun Ootani)研究員は、音声認識のテクニックとして有名な隠れマルコフ・モデル(Hidden Markov Model/HMM)を画像処理に応用し、怒り・驚き・悲しみ・嫌悪・恐怖の6種類の表情を判別させ、喜びの97.5%を筆頭に平均で84.1%の認識率を達成させた。NTTデータ通信は1996年2月、母音と子音の特徴を音声の周波数から取り出した隠れマルコフ・モデルを活用し、不特定の人が話す言葉を認識するソフトを開発した。今後、マウスで指定しながら新しい単語を登録し、簡単に辞書が作れる支援ソフトを開発する計画もある。ATR知能映像通信研究所では、これまで人間がコンピュータに指示を与えるのに必要だったマウスやキーボードを使わず、特殊な手袋やセンサーなどをずに、世界で初めて素手を斜め上、左斜め上、真横の3台のテレビカメラで撮影し、そのシルエットの重心に相当する位置と手の向きを確認し、3台のカメラ画像で得られた情報から手の位置や形状、指の曲がり具合を高速に把握して、手ぶりだけで直接コンピュータの画面に絵を描くことができるシステムを開発したと1998年3月11日に発表した。また、ミシガン大学(University of Michigan)のマクニール(McNeill)は発声とともに起こす手などのジェスチャをさらに詳しく分析し、(1)Iconic,(2)Metaphoric,(3)Beat,(4)Deictic(指示、ポインティング)に分類している。Ekmanは言葉の代りに用いる表象動作を強調しているのに対し、その中の例示的動作に分類される動作に注目し、マルチモーダルであることを前提にしている。表象動作は典型的なボディランゲージであるため、しばしば画像処理を使ってその解釈の試みがなされるが、他の入力デバイスを人間に置き換えたに過ぎないことがあり、かえって自然さを損なうこともある。詳細情報はURL(http://www.mic.atr.co.jp/)で知ることができる。電総研RWI センター情報統合対話ラボと適応ビジョンラボでは、 マルチモーダル対話システムプロトタイプの開発以降、 擬人化エージェントとユーザー(実世界)との協調とスムーズなインタラクションのために、視覚機能、聴覚機能等の強化を試みている。米国のGAO(General Accounting Office/米国連邦会計監査院)は2002年11月15日に、国境で利用されているバイオメトリックスに関するレポート「Technology Assessment: Using Biometrics for Border Security. GAO-03-174」を公開した。詳細情報はURL(http://www.gao.gov/cgi-bin/getrpt?GAO-03-174)で知ることができる。米国のGAO(General Accounting Office/米国連邦会計監査院)は2003年9月9日に、Keith A.Rhodesによるバイオメトリックスを利用した情報セキュリティ実験報告書「Information Security: Challenges in Using Biometrics, by Keith A. Rhodes, chief technologist, before the Subcommittee on Technology, Information Policy, Intergovernmental Relations, and the Census, House Committee on Government Reform. GAO-03-1137T」を公開した。詳細情報はURL(http://www.gao.gov/cgi-bin/getrpt?GAO-03-1137T)で知ることができる。米国のGAO(General Accounting Office/米国連邦会計監査院)は2003年11月5日に、Cathleen A. Berrickによる、マルチモダール技術などを導入した空港などにおける交通機関で、国家安全管理と裁判所の裁決に関してその実態を実施調査した実証実験報告と将来に向けた提案書「Aviation Security: Efforts to Measure Effectiveness and Address Challenges, by Cathleen A. Berrick, director, homeland security and justice, before the Senate Committee on Commerce, Science, and Transportation. GAO-04-232T」を公開した。詳細情報はURL(http://www.gao.gov/cgi-bin/getrpt?GAO-04-232T)で知ることができる。米国国防総省(DOD/Department Of Defence)が、ファーストクラスとビジネスクラスの旅行カードに差を付け、コントロールの内容が異なる方式を採用していることについてレポートして、米国のGAO(General Accounting Office/米国連邦会計監査院)が2003年11月6日に、「Travel Cards: Internal Control Weaknesses at DOD Led to Improper Use of First and Business Class Travel. GAO-04-88」を報告した。また、Gregory D, Kutzの実証実験結果報告「Travel Cards: Internal Control Weaknesses at DOD Led to Improper Use of First and Business Class Travel, by Gregory D, Kutz, director, financial management and assurance, before the Permanent Subcommittee on Investigations, Senate Committee on Governmental Affairs. GAO-04-229T」も公開された。詳細情報はURL(http://www.gao.gov/cgi-bin/getrpt?GAO-04-88)または、URL(http://www.gao.gov/cgi-bin/getrpt?GAO-04-229T)で知ることができる。米国のGAO(General Accounting Office/米国連邦会計監査院)は2004年3月18日に、国境警備に関して顔写真の認証だけではリスクが高すぎるとしたRandolph C. Hiteの実証実験レポート「Homeland Security: Risks Facing Key Border and Transportation Security Program Need to Be Addressed, by Randolph C. Hite, director, information technology architecture and systems issues, before the Subcommittee on Immigration, Border Security, and Claims, House Committee on the Judiciary. GAO-04-569T」と、顔面認証に関する長期計画としてBarbara D. Bovbjergによる実証実験レポート「Private Pensions: Multiemployer Pension Plans Face Key Challenges to Their Long-Term Prospects, by Barbara D. Bovbjerg, director, education, workforce, and income security issues, before the Subcommittee on Employee-Employer Relations, House Committee on Education and the Workforce. GAO-04-542T」を公開した。詳細情報はURL(http://www.gao.gov/cgi-bin/getrpt?GAO-04-569T)または、URL(http://www.gao.gov/cgi-bin/getrpt?GAO-04-542T)で知ることができる。Guardian reportは2004年4月27日に、EDRiのメンバーであるPrivacy Internationalは、1986年から25カ国で起こった事件を調査し、IDカードでテロを防ぐことはそれほどできないことを証明したIDカードとテロリズムに関するレポート「Mistaken Identity; Exploring the Relationship Between National Identity Cards & the Prevention of Terrorism」を公開したと報告した。つまり、政府はIDカードで個人情報を集め、管理したいだけになる。詳細情報はURL(http://politics.guardian.co.uk/attacks/story/0,1320,1204623,00.html)または、URL(http://www.privacyinternational.org/issues/idcard/uk/id-terrorism.pdf)で知ることができる。逆に、イギリスのコンピュータ・コンサルティング会社デティカ(detica)社の依頼で、MORI(Market & Opinion Research Internetional/マーケット&オピニオン・リサーチ・インターナショナル)社がイギリスの成人1000人を対象に2004年3月18日から23日に行なった調査では、不法入国やID窃盗への懸念から、約80%がバイオメトリックスIDカードの導入を望んでいるという結果を2004年4月22日に発表し、2004年4月27日にはイギリスで約6000万人のバイオメトリックスIDカード導入が始まると発表した。詳細情報はURL(http://www.detica.com/display_news/display_news.asp?id=142)または、MORIが2004年4月23日に公開した「British 'Favour ID Cards'」のURL(http://www.mori.com/polls/2004/detica.shtml)または、URL(http://www.detica.com/display_news/display_news.asp?id=144)で知ることができる。日立製作所は2004年8月20日に、手を左右に振ると画面が切り替わるといった7種類の手振りでパソコンを操作できるインタフェースを開発したと報告した。米国のIBMは2004年9月13日に、音声処理関連のソフトウェア部品パッケージ「RDCs(Reusable Dialog Components)」をApache Software Foundationに、VoiceXML用マークアップ エディタをEclipse Foundationに提供すると発表した。 詳細情報はURL(http://www-1.ibm.com/press/PressServletForm.wss?MenuChoice=pressreleases&TemplateName=ShowPressReleaseTemplate&SelectString=t1.docunid=7293&TableName=DataheadApplicationClass&SESSIONKEY=any&WindowTitle=Press+Release&STATUS=publish)または、URL(http://www.apache.org)または、URL(http://www.eclipse.org)で知ることができる。Kirusa社とVoxpilot社は2004年9月14〜15日にニューヨーク州ニューヨークで開催されるSpeechTEK Conferenceで、特許申請中のRingFree(SM)音声メッセージング、音声入力によるテキスト・メッセージングへの返答、テキストによる音声メッセージングへの返答などの機能があるモバイル機器向けマルチモーダル・メッセージング・アプリケーション「Kirusa Voice SMS(KV.SMS(SM)」をデモンストレーションすると発表した。詳細情報はURL(http://www.kirusa.com/News_press_sep13_04.php)または、URL(http://www.voxpilot.com/index.php?menu=intro&action=news&id=13)で知ることができる。米国のSandCherry社はニューヨーク州ニューヨークで開催されている「SpeechTEK 2004」で2004年9月13日に、VoiceXML(VXML)ブラウザとアプリケーション配信プラットフォームSoftServerに、大手ベンダの音声技術コンポーネントを組み合わせ、カスタマイズされたタッチトーンおよび音声アプリケーションの配信が行えるマルチモーダル・アプリケーション・プラットフォーム「Voice4」を発表した。詳細情報はURL(http://www.sandcherry.com/news.pr.php?news_id=47)で知ることができる。イギリスの新聞サンデー・タイムズ(The Sunday Times)が2006年6月8日に公開したレポート「Emails from Whitehall officials in charge of ID cards」は、イギリスの見かけの失敗としてOffice of Government CommerceのIDカード・プロジェクトのディレクターDavid FoordとIPS(Identity and Passport Service)のacting commercialディレクターPeter Smithの間で交わされた電子メールで明らかになったと報告し、さらに新しい情報がそれをどんどん裏付け、イギリス中のメディアが騒ぎ始めた。そのメールは、David Foordが6月に、大臣が2008年までにカードを紹介する締め切りに間に合うようにやむを得ずプランを再考すると示唆したと送信された。Peter Smithは、スタッフが大臣から全体で身分証明書計画を中止する可能性のために用意ができていたと返答した。また、彼は、内務省が、身分証明書計画にリンクされたプロジェクトのために、より大きい契約が身分証明書プランの最後の沈没を補うために計画されているのを確実にしていたとかいている。ナショナルIDカードプログラムは2006年7月11日に困っていたというクレームを否定したが、内務省は、身分証明書の導入に新しいジョン・リード(John Reid)内務大臣による内務省の操作のレビューに依存していると書いている。BBCレポートは、内務省からの情報として、提供が無期限に延期されたと伝えた。内務省のスポークスマンは「私たちが身分証明書の導入を捨てたというどんな提案も間違っています。」 「計画は以前のままで残っています。」まだ過程であり、スタート段階にあることを明らかにした。 詳細情報はURL(http://www.timesonline.co.uk/article/0,,2087-2261631,00.html)で知ることができる。2006年7月9日にthe Registerが公開した「UK ID card scheme near collapse, as Blair pushes cut-down 'variant'」のURL(http://www.theregister.com/2006/07/09/st_id_cards_doomed_emails/)または、2006年7月11日にthe Registerが公開した「Home Office stands by ID cards」のURL(http://www.theregister.co.uk/2006/07/11/id_card_project_not_troubled/)または、2006年7月12日にthe Registerが公開した「Not delayed, not sleeping, dead - UK ID card scheme goes under 」のURL(http://www.theregister.com/2006/07/12/idcards_getting_elbow/)または、2006年7月17日にthe Registerが公開した「Does Reid plan to punish businesses mean ID card for immigrants?」のURL(http://www.theregister.co.uk/2006/07/17/reid_migrant_hire_plans/)で知ることができる。


ATRグループの構成
ATRプロジェクト年表
産業革命に影響された1890年にLouis Poyetが描いた「発明する頭」
1908年にLouis Poyetが描いた「Dr.Marageの写真と声」
実空間に対し指を差すエージェント
マルチモーダル擬人化エージェントの仮想空間と実空間の融合
複数対象物の実時間抽出・認識
人間の動作の実時間認識
Harris Interectiveのインターネットと心理学調査
GAOは2001年10月31日に公開した「Brain Fingerprinting」に関する調査報告
雨がえるの擬態
米国の国境で利用されているバイオメトリックスに関するレポート
KISIの韓国人の顔・指紋のデータベース(DB)に関する情報
GAOが2003年9月9日に公開した、バイオメトリックスを利用した情報セキュリティ実験報告書
Cathleen A. Berrickによる国家安全と判決に関する実証実験報告書
ファーストクラスとビジネスクラスの旅行カードとコントロールの差
Gregory D, Kutzの実証実験結果報告
国境警備に関して顔写真の認証だけではリスクが高すぎるとしたRandolph C. Hiteの実証実験レポート
Barbara D. Bovbjergによる顔面認証に関する長期計画としての実証実験レポート
Privacy Internationalが2004年4月27日に公開したIDカードとテロリズムに関するレポート
Detica社が2004年4月22日に公開したリリース
MORI社が2004年4月23日に公開したリリース
Detica社が2004年4月27日に公開したリリース
IBMが2004年9月13日に公開したリリース
Kirusa社が2004年9月13日に公開したリリース
Voxpilot社が2004年9月13日に公開したリリース
Illustrirte Zeitung1856年1月26日に掲載された化学者Justus von Liebig
ミュンヘンのJustus von Liebig研究所
Justus von Liebigの階段教室
Illustrirte Zeitung1856年5月31日に公開されたロンドンの窃盗犯

ヒューマン・インタフェース
音声認識
音声処理
仮想現実感
隠れマルコフ・モデル
チョムスキー理論
関西学研都市
Speechnavi
コモン・ヒューマン・インタフェース・サービス環境
インタフェース
バイオメトリックス
バイオミメティックス
秘書エージェント
電子秘書
VoiceType Dictation
パスワード
MMI(MultiModal Interface)
平均顔
MR(Mixed Reality)
可逆コンピューテイション
3001年のコンピュータ「HAL」
Speech Mail
CABIN
CAVEシステム
BAPI
ViaVoice
ATR音声翻訳通信研究所の音声に関する情報
でんわなび
テラマック
自己回復テクノロジー
音声認証システム
Talking Head
VIRTUAL WORLDS 98
アイリス認識システム
WebPasskey
VoxML
Microsoft Cordless Phone System
JSAPI
CyberTranscriber
MiMIC
Shall We Dance?
DNA鑑定チップ
MAXITATERU
ATR知能映像通信研究所
サイバー・キャンパス
MITのJupiterシステム
BellSouth Info by Voice
e-@ction Natural Language Speech Assistant
日常活動型ロボットコンソーシアム
入退室管理システム
HTK(Hidden Markov Model Toolkit)
GEML(Gene Expression Markup Language)
MILES(Multi-modal Interaction LEading Script)
顔面認識
Fsasバイオ認証システムSF2000 Bio
eLiza
大阪ボイスポータル実証実験サービス
ハプティックス
BUI(Bio-adaptive User Interface)
MEMS(MicroElectroMechanical Systems)
電子の目
Other's Eyes
Hearing Hand
DSR(Distributed Speech Recognition)
SALT(Speech Application Language Tags)
電子の舌
組織培養と芸術
AG(Augmented Reality)
X+V
2001年9月11日以降の世界のデータ規制
Sousveillance
MaybeCam
バイオメトリクスセキュリティコンソーシアム
Intelligent Island
RDCs(Reusable Dialog Components)
オノマトペ