会話システムのアーキテクチャ

例題に対応するためにどれだけの仕掛けがいるか考えてみよう.
(1)に対応するためには,

  • 会話を進行させる.
  • どの場面にいるか追跡する
  • ユーザ行動の認識
  • ロボットの会話行為
  • ユーザとの会話の制御,例えば,attention

さらに先進的な会話ロボットを欲するならば,

  • affective computing,相手の心的状況に応じて
  • politeness, face work
  • personality 相手との相性に応じて
  • cultural カルチャーのスタイルに従う

などが必要.
(2)のためには,

  • Herskovicz的な現場内での同定やタグ付
  • 記憶構造の組み立て,ストーリー化 Schankのダイナミックメモリーに近いセンス

(3)のためには,

  • 相手の意図や選考の推測,共同解釈・意図の構築

会話量子化説に基づく会話システムのアーキテクチャの構成について論じる.低レベルの階層から積み上げていこう.
階層1:シグナルレベル
基本は,会話に参加すること.すなわち,会話におけるシグナルの認識と生成を行う必要がある.シグナルは言語的なもの(音韻)と非言語的なもの(身振り,しぐさ)に分類される.

  • 環境内イベントの検出と生成
  • ソーシャルシグナルの検出と生成
  • 情動によるショートカット
  • シグナル・ノイズ分離やアイドリング動作

階層2:意味解釈

  • シグナルの意味解釈とシグナル生成
  • 言語処理,非言語処理
  • ディスコース … 談話管理は会話の流れを把握し,その中に入り込めるように努める.
  • 状況認識
  • イメージ再構築

階層3:ソーシャルレベル

  • 社会・文化的な状況への対応
  • タスク遂行

階層4:会話量子レベル … インタラクション化とコンテンツ化

  • インタラクション化:会話量子のなかから自らの振る舞いを抽出し,場に合わせた会話行動を生成する.McNeillのGPからの生成が参考になる.
  • コンテンツ化:会話の経験を会話量子としてパッケージ化する.会話における各参加者の繰り出す表現に対して意味解釈を与え,自分としての会話の場の理解を生成する.

階層5:メモリプロセス
メモリプロセスはメモリの参照と更新,情動・社会的インタラクションプロセスでは,社会的関係性と情動を制御しながら,全体を統御する.
以上をまとめると,次のようなアーキテクチャが考えられる.