会話コーパスからの会話エージェント行動生成

  • Kipp 2003で導入されているメタスキーム>コーディングスキーム>アノテーションという構図は大変わかりやすい.実際のコーディングスキームを見てみよう.初期はspeech transcriptionとgesture transcriptionからなる.ジェスチャは詳しい.構造,クラス,語彙,性質から構成される.LQビデオには,表現力の大変豊かなMRR氏とHK氏,あとになってJL氏の会話ジェスチャの映像を収録.ここから”circle”など多数のユニークなジェスチャ語彙が収集された.ジェスチャの時空特性を捉えるためのパラメータ,クラスの導入.要件.必ずしも初めからこうであったわけではないが,よくできている.こうした活動を支えるANVILは,physical/logical/interface/applicationの4レベルモデルを採用.coding reliability.segmentation reliabilityとclassification reliabilityから構成されている.coder間の不一致度の定量表現.NOVALISは計量して,確率モデルを推定.挙動はMultimodal generation Graph (MuG)というordered DAG (directed acyclic graph)で記述.基本的には時間軸の構造を表現したもの.はじめは,入力テキストだけだが,Gesture profileとして与えられた挙動モデルに従って,ジェスチャを(過剰に)提案し,次に整合性のないものをそぎ落としていく.
  • Stefan KoppのIDF (Image Description Feature)を介するアイコニックジェスチャの生成の研究や,Yukiko Nakanoのattentional behaviorsの研究でも同様の手法が用いられている.着目点を明確にして,アノテーションフィーチャを本質的なものだけに思慕しこんでいるところが成功の秘訣.こうした研究はNishida 2007, Conversational Informatics http://bit.ly/ixJo9y に収録されている.最近はHofstedeの文化次元モデルを考慮したCube-Gプロジェクト http://bit.ly/mfLmmm さらにcultural sensitivityに取り組むeCute http://ecute.eu/ などに発展.
  • エージェントの自然な挙動を生成するためには,人間の挙動を模倣するのが自然なアプローチ.まずKippの博士論文を追ってみる. http://bit.ly/izIgkX observation, modeling, generationの3ステージで生成を行う.各ステージにツールを作った.observationステージに対しては,アノテーションツールANVILを作った.複数レイヤの上のジェスチャ,発話,その他のモダリティに対して効率的な書き取りを可能にする.ANVIL自体はアプリケーションに独立.ユーザは自分自身のアノテーションを定義できる.modelingステージに対しては,NOVALIS.これらの書き取り(transcription)から統計的な手法で個別のジェスチャプロフィールを計算する.generationステージでは,NOVAが過剰生成+フィルタリングアプローチでジェスチャプロフィールに基づくジェスチャを生成する.ソースはテレビ番組The Literary Quartet (LQ)のビデオファイル.HK (Hellmuth Karasek), MRR (Marcel Reich-Ranicki).ここからコーディングスキームNOVACO (Speech and gesture coding scheme)に基づいてアノテーションされたデータベースLQ Corpusを作る.ここからNOVALISでgesture profileを出力する.NOVAはgesture profileを参照しつつ,入力にgestureによる「振付」をする.[Kipp 2003]
  • [Kopp 2007]では,IDF (Image Description Feature)が導入されてiconic gestureの分析が行われる.IDFはジェスチャの形状とiconic gesture(例えば,手のひらを立てる)で参照されている実体(例えば,教会の壁)を対応づけを明確にするための顕著な視覚的特徴(salient visual characteristic)(例えば,垂直平面): 意味ある幾何学的・空間的性質を表す形態的な特徴を記述するための定性的でフィーチャーに基づく枠組み.Koppらはspeechとgestureを用いたdirection givingを分析した.
  • 例えば,右手で道の軌跡を表し,”there is a church”と言いながら左手を平らにして立てて教会の特徴的な部分である建物の壁をillustrateする.
  • 実験参加者はNorthwestern Universityのキャンパスに精通した28名のDirection-giverたち.キャンパスのことをよく知らない3名のDirection Follower.Direction giverには目的地が与えられ,Direction followerに目的地への行き方を教えるよう依頼される.さらに,Direction giverにはDirection followerへの指示が正しいことを確認するため,指示する道に従って実際に目的地に行ってもらう.Direction giverが帰ってきたら,Direction followerに道を教えてあげるよう指示する.
  • 形態的な特徴と非参照物の視覚的特徴の関係が調べられた.Palm directionとExtended fingers directionについてアノテーションが行われた.その結果,SidewayとFsPw (extended Finger direction=Strong, Palm direction=Weak)の間,およびHorizontalとFsPwの間に依存関係があることが見出された.
  • この知見にもとづくヒューマノイドロボットのIconic gestureの生成.プランニングによって少しずつ詳細化していく(=例えば,”make a left”というフレーズに対する構文木にジェスチャに関わるアノテーション(例えば,Finger Dir=”Forward Toward Left”)を挿入する)アプローチがとられた.
  • [Nakano 2007]では,Attentional Behaviorsの分析と生成について.ユーザのいる空間のオブジェクトを参照するか,ECAの住まう仮想空間内のオブジェクトを参照するか?視線行動を用いたグラウンディング(コミュニケーションを行うための基盤の共有)
  • マップタスクの視線行動:話者も聞き手も,{gP, gM, gMwN, gE}.遷移の確率.人間同志のマップタスクにおける行動頻度からモデルの遷移確率を定める.モデルでは,〈発話タイプ,聞き手の非言語行動,解釈〉から,次の発話行動を決める.
  • 生成のために,DM (Dialogue Manager), GrM (Grounding Module), GM (Generation Module)が用いられる.
  • CUBE-G (Culture-adaptive BEhavior Generation)プロジェクト[Rehm 2009]では,文化に依存した会話行動の生成への取り組みが行われた.日独が対象.随分違いが見出される.実際データを集めてみると,Repetition, Fluidity, Power, Speed, Spatial Extent, Durationのいずれについても顕著な違いがみられた.データに基づいてBayesian networkを生成し,そこからエージェントの身振りを生成する.Culture mirrorとLanguage trainer agentが応用として提案された.
References

  • [Kipp 2003] Michael Kipp. Gesture Generation by Imitation: from Human Behavior to Computer Character Animation, Boca Raton, Florida: Dissertation.com, December 2004.
  • [Kipp 2007] Michael Kipp, Michael Neff, Kerstin H. Kipp, and Irene Albrecht. Towards Natural Gesture Synthesis: Evaluating Gesture Units in a Data-Driven Approach to Gesture Synthesis, in: C. Pelachaud et al. (Eds.): IVA 2007, LNAI 4722, pp. 15–28, 2007.
  • [Kipp 2007 JLRE] Kipp, M., Neff, M. and Albrecht, I. (2007) An Annotation Scheme for Conversational Gestures : How to economically capture timing and form. In: Journal on Language Resources and Evaluation – Special Issue on Multimodal Corpora, Vol. 41, No. 3-4, Springer, pp. 325-339.
  • [Kopp 2007] Kopp, S., Tepper, P., Striegnitz, K., Ferrimen, K., Cassell, J. (2007). How Humans and Humanoids Use Speech and Gesture to Give Directions, in Nishida, T. (ed.). Engineering Approaches to Conversational Informatics, John Wiley & Sons, pp. 133-160, 2007.
  • [Nakano 2007] Nakano, I. Y., and Nishida, T.: Attentional Behaviors as Nonverbal Communicative Signals in Situated Interactions with Conversational Agents, in Nishida, T. (ed.). Engineering Approaches to Conversational Informatics, John Wiley & Sons., pp. 85-102, 2007.
  • [Rehm 2009] Matthias Rehm, Yukiko Nakano, Elisabeth André, Toyoaki Nishida, Nikolaus Bee, Birgit Endrass, Hung-Hsuan Huang, Afia Akhter Lipi, Michael Wissner. From observation to simulation: generating culture-specific behavior for interactive systems. AI & Society, Springer Press, Vol. 24, No. 3, 267-280, 2009..