会話エージェント研究開発の歴史

自然言語対話システム→音声対話システム→マルチモーダル対話システム→擬人化エージェントという道筋で発展した.

  • 会話エージェント.まず,Justine CassellのThe 2008 Women of Vision Award Winner for Leadershipから.会話エージェントがどのようなものか,それが社会にどう活用されえるかについての優れたイントロになっている.
  • 会話エージェントへの道.自然言語対話システム,音声対話システムを経て,身体を持つ会話エージェント(Embodied Conversational Agents),知的仮想人間(Intelligent Virtual Humans)に発展してきている.
  • LUNAR (The Lunar Natural Sciences Natural Language Information System) [Woods 1973].人が定められた操作法を覚えて機械にアプローチするのではなく,機械が人間社会のコミュニケーション法に従って人に近づけるようにする.LUNARでは,ATNG (Augmented Transition Network Grammar,拡張遷移文法)が導入された.ATNGはその後しばらくの間,自然言語解析の定番となった.構文解析,意味解析,情報検索という階層的な逐次処理が用いられた.わかりやすいアプローチだが頑健性,柔軟性,スケーラビリティが乏しい.
  • ELIZA [Weizenbaum 1967].わかっているふりをする表層的な対話.(1) キーワードの道程,(2) 最小の文脈の発見,(3) 適切な変形の選択,(4) キーワードがないときの応答生成,(5) ELIZAスクリプトは編集可能.
  • SHRDLU [Winograd 1972].「SHRDLUの名称はETAOIN SHRDLUに由来している」 [Wikipedia SHRDLU]. SHRDLUは理解した内容に従って積み木の世界で積み木を動かす.例えば,「Pick up a big red block」とユーザが入力すると,SHRDLUはCGによって表示されている世界で,赤い大きなブロックを見つけて,それを持ち上げる. [Winograd 1972]
  • HEARSAY-II Speech Understanding System [Erman 1980].HEARSAY-IIは,ユーザの音声発話を受け取り,音響解析,構文的な構造解析,意味解析,意図解析をまでの長い道のりをたどって,ユーザの意図したタスクを実行する.独立なプロセスによる協調的な問題解決のための,黒板(blackboard)と呼ばれるデータ構造が導入され,仮説の生成と評価,最重要な行動に焦点を当てる焦点制御等が行われる[Erman 1980].こうした手法は後に分散協調問題解決,さらには,マルチエージェントシステムの研究に発展した.
  • PUT-THAT-THERE [Bolt 1980]では,ユーザは代名詞(たとえば,”that”)を用いた音声発話と同時にポインティング動作をして,スクリーンに表示された世界における場所やオブジェクトを直示することができる.
  • Apple社が1987年に公開したThe Knowledge NavigatorコンセプトムービーではPhilと呼ばれる知的エージェントが導入された. Philは,(1) a bow-tie wearing butler, (2) natural language understanding,  (3) multi-modal conversation, (4) flexible dialogue managementとして特徴づけられている.その後のマルチモーダル会話エージェント研究開発の具体的イメージを与えた. Apple’s Knowledge Navigator [1987]
  • 会話エージェントの基本となる概念の一つに,CASA (Computers Are Social Actors)[Nass 1994] がある.CASAはReeves & NassのThe Media Equationで展開されたThe Media Equationを基本である.The Media Equationとは”media equal real life”であるという主張である.The Media Equationによれば,コンピュータ,テレビ,ニューメディアと人とのインタラクションは基本的に社会的であり,自然である.(Reeves & Nass, p. 5)
  • なぜThe Media Equationが成立するのか?Reeves & Nassはこう答えている“[P]eople are not evolved to twentieth-century technology. The human brain evolved in a world in which only humans exhibited rich social behaviors, and a world in which all perceived objects were real physical objects” [Reeves & Nass 1996] .そしてこうも述べている:“Anything that seemed to be a real person or place was real” [Reeves & Nass 1996]
  • 会話的人工物への要請. (1) 社会的なインタラクション,(2) パーソナルサービス, (3) 生命らしさ
  • 生命らしさについては,Batesらのbelievable agentsの研究がある.“Believable agent provides the illusion of life, and permits the audience’s suspension of disbelief.” [Bates 1994].Believable agentsは,theater, film, animation, radio dramaでは核心となる概念である.どのようにしてbelievableなアニメーション動物キャラクタを実現するか?Batesらは,二つの条件が必要であるとしている.“For the user to say “Hey, it acts just like my dog.”と“Wait a minute, this is a dumb robot, my dog would never do that!”と言わせないこと[Bates 1994].
  • 動物行動学(Ethology)の考え方を参考にしたアプローチ[Blumberg 1994]では, 抑制(inhibition)と疲労(fatigue)が有用な概念であると考えている.動物はおおむね一時に一つのことをするが,ときどき複数のことを同時にしているようにもみえる.動物は複数の行動をするとき典型的にはそれらの間で迷うことはないが,より重要なことが起きると,今やっていることを中断する.
  • Ludlowのモデル.競合する活動は相互に抑制しあう.競合しているときはwinner-takes-all.活性度は促進要因マイナス疲労.ある活動を続けると疲労が増えるが,止めると減衰する.
  • Ozプロジェクト[Bates 1992].目標はInteractive Dramaを作ること.Drama=Character+Story+Presentation.OzプロジェクトではPersonality, Emotion, Self-motivation, Change, Social relationships, Illusion of lifeの6つの属性を視野に入れている.
  • ToolからAssistive interfaceへ.Personaプロジェクト@microsoft research [Ball 1997] (1) Support interactive give and take, (2) Recognize the costs of interaction and delay, … Requirements (3) Manage interruptions effectively, (4) Acknowledge the social and emotional aspects of interaction, … Rqmts [Ball 1997] .固有名詞の音声認識が強い.
  • Jennifer James. back storyによる物語性の導入.ユーザを引き込む.頑健な自由対話(ただし上りはテキスト入力).下りはマルチモーダル(合成音声付).Jennifer James.いまはデモサイトはなくなっている.
  • Rea.不動産物件の紹介をする会話エージェント.非言語コミュニケーションの本格的
    な取り扱いがされている.