Research Projects

[New!] 眼球の表面反射とアクティブ光投影を用いたパララックス誤差に頑健な注視点推定法

PoG.png

Atsushi Nakazawa and Christian Nitschke
[ Project Page ]

注視点推定技術は心理学やライフサイエンス,マーケティングやユーザインタフェースの分野で広く使用 されている.従来の注視点推定システムは,アイカメラ等の機器を装着する必要があったり,複雑な奥行きを持つ環 境では大きな誤差が生じる問題(パララックス誤差問題)が指摘されてきた.この問題を解決するために,眼球表面 上で反射する環境光の反射像を用いた新しい注視点検出手法が提案されている.この手法は眼球の幾何モデルに基づ き,注視点からの光が眼球表面反射画像中で反射する位置(Gaze Reection Point:GRP) を解析的に求め,アクティ ブ照明を用いて眼球表面反射画像中のGRP の画像特徴と環境画像の特徴を比較することで注視点を推定する「直接 マッチング」による推定方法を提案している.まず,正確な注視点推定には不可避である眼球光軸と注視方 向のズレ(個人誤差パラメータ)を求め,推定に反映する手法を提案する.このパラメータは眼球の表面反射を用い た1 点校正によって得られ,注視点推定誤差を大幅に軽減する.第2 にアクティブ光の投影手法として、高輝度LED を用いた高速度パターン光プロジェクタによる実装に加え,赤外LED を備えた小型のマーカを注視対象に取り付け る構成を開発した.これにより,従来法よりも大幅に小さな装置で注視点推定を行うことが可能となった.複数の被 験者による注視点推定結果により,簡単な個人校正を行うだけで,異なる奥行きを持つシーンでも再校正無しで1 度 以下の精度で推定を行えることが明らかになった.

  • Atsushi Nakazawa and Christian Nitschke, "Point of Gaze Estimation through Corneal Surface Reflection in an Active Illumination Environment", 12th European Conference on Computer Vision (ECCV), pp.159-172, 2012.

[New!] 角膜表面反射像の超解像処理による高解像シーン画像の推定

SuperRes.png

Christian Nitschke and Atsushi Nakazawa

角膜表面反射像は,人の取り巻くシーンの光が入・反射したものであり,その画像を解析すればシーンの状 況を復元できることが知られている.しかし実際には画像の品質が限られているため復元されたシーン画像の解像度 も低い.この問題を解決するため我々は,複数の角膜表面反射画像を統合して超解像処理を行い,解像度の高いシー ン画像を復元する手法を提案する.復元された高品質のシーン画像から,1 枚の撮影像では観察できなかった細かな 情報も得ることができる.本手法は角膜を球面と見なし,角膜表面反射の撮影像を3 次元空間に逆投影することによ り角膜周辺の光線マップを復元する.複数の画像から得られた光線マップを統合し,再構築型の超解像処理を適用す る.このため,眼球のみならず球面ミラー等の非単一焦点をもつ反射光学系にも適用可能である.実験では,高周波 数テクスチャのあるシーンが投影された角膜反射画像や金属球の反射画像から超解像処理を行い,本手法の有効性を 確認した.

  • Christian Nitschke and Atsushi Nakazawa, "Super-Resolution from Corneal Reflections", 23rd British Machine Vision Conference (BMVC), pp.22.1-22.12, 2012.

[New!]身体動作を用いたヴァーチャルキャラクターとのダンスインタラクション

dance-acc.png

Takuya Yasunaga and Atsushi Nakazawa

モーションキャプチャを用いたキャラクターアニメーションは,映像コンテンツやゲーム等のエンター テイメント分野に広く利用されている.本稿では,この技術を用いたインタラクティブシステムの1 つとして, ユーザーがヴァーチャルキャラクターとダンスインタラクションを行う「ヴァーチャルダンスホール」システム を提案する.ユーザーの体の動きはKinect センサを用いて3 次元的に捉えられ,動きの盛り上がりを検出する. この動きの盛り上がりに同調するようにキャラクタの動きをモーションキャプチャデータを用いて生成すると, ユーザーはキャラクタと共にダンスを演じる感覚を体験できる.本手法は,音楽解析に基づいた舞踊動作生成手 法に基づいており,音楽のリズムとモーションキャプチャデータのリズムを合わせるようにモーション遷移グラ フを探索することでキャラクタの動作を生成しているが,それに加え,Kinect センサから取得したユーザの盛り 上がりとモーションキャプチャデータのの盛り上がりのマッチングを行い,モーション遷移グラフを辿ることで, ユーザーとのインタラクティビティを実現する.

  • Takuya Yasunaga and Atsushi Nakazawa, "Human-Computer Dance Interaction with Realtime Accelerometer Control", ACM Multimedia 2012.

Motion Coherent Tracking with Multi-label MRF optimization

segtrack_s.png

David Tsai, Matthew Flagg, Atsushi Nakazawa, James M.Rehg.

Project Page

We present a novel off-line algorithm for target segmentation and tracking in video. In our approach, video data is represented by a multi-label Markov Random Field model, and segmentation is accomplished by finding the minimum energy label assignment. We propose a novel energy formulation which incorporates both segmentation and motion estimation in a single framework. Our energy functions enforce motion coherence both within and across frames.We utilize state-of-the-art methods to efficiently optimize over a large number of discrete labels. In addition, we introduce a new ground-truth dataset, called Georgia Tech Segmentation and Tracking Dataset (GT-SegTrack), for the evaluation of segmentation accuracy in video tracking. We compare our method with several recent on-line tracking algorithms and provide quantitative and qualitative performance comparisons.

センサ内蔵人形を用いた大規模モーションキャプチャデータの検索手法

puppet_demo.png

with Naoki Numaguchi, Takaaki Shiratori and Jessica K. Hodgins

Project Page

大規模な動作データベースからユーザーの所望のデータを検索するために,センサを内蔵した人形インタ フェースを用いる手法を提案する.このセンサは人間と同様の形状・自由度であるため,キーワード等の方法に比べ 直感的に検索できる.我々は人形動作と動作データの比較手法として,部分空間法を用いた異常データ検出の考え方 に基づき,人形動作と動作データを互いの部分空間に投影することで比較を行う双対部分空間法を開発した.実験で は,ユーザーの入力に対し時系列データを比較する異なる5 種類のマッチング法を用いて検索を行い,インタフェー スの操作性,検索精度および検索時間を評価した.

  • Naoki Numaguchi, Atsushi Nakazawa, Takaaki Shiratori and Jessica K. Hodgins, "A Puppet Interface for Retrieval of Motion Capture Data", Proceedings of the 2011 ACM SIGGRAPH/Eurographics Symposium on Computer Animation (SCA '11), pp.157--166, 2011.

眼球の表面反射を用いたディスプレイ・カメラキャリブレーション

eyefigure2.jpg

with Christian Nitschke

ディスプレイの周辺にWeb カメラなどのカメラを取り付けたシステムは,テレビ会議等の用途で 一般的な構成となっているが,このようなシステムの上でディスプレイを光源とみなして光源環境を変化させ, 3次元復元や顔形状復元,HCI 等に利用する研究が行われている.このような用途ではディスプレイとカメラの 幾何校正を行うことが必要であり,従来法では球面ミラー等の付加的なデバイスを必要とした.本論文ではこれ に対し,ユーザーの眼球の表面反射を利用することで,特殊なデバイスを必要とせず校正を実現する手法を提案 する.本手法ではディスプレイでパターンを投影し,その反射した像をカメラで撮影することでディスプレイ座 標とカメラ座標の対応関係を得る.次に,この対応関係と眼球モデル,およびディスプレイサイズの情報を用い て最適化を行うことで解を得る.11 名の被験者を用いた実験およびディスプレイとカメラを様々な位置関係で配 置した状況に対する実験を行い,本手法の有効性および様々な状況下での性能を明らかにした.

  • Christian Nitschke, Atsushi Nakazawa, Haruo Takemura, "Display-camera calibration using eye reflections and geometry constraints", Computer Vision and Image Understanding, Volume 115, Issue 6, Pages 835-853, 2011.6.
  • Christian Nitsuke, Atsushi Nakazawa, "EYE REFLECTION ANALYSIS AND APPLICATION TO DISPLAY-CAMERA CALIBRATION", IEEE International Conference on Image Processing (ICIP2009), pp.3449-3452, 2009.
  • Christian Nitsuke, Atsushi Nakazawa, "Display-Camera Calibration from Eye Reflections", IEEE 12th International Conference on Computer Vision (ICCV), pp.1226-1233, 2009. PDF(Draft)

モーションキャプチャデータを用いた音楽からの舞踊生成とその評価(Dancing-to-Music Character Animation)

with Takaaki Shiratori, Kei Ninomiya and Naoki Numaguchi

近年コンピュータグラフィクスの分野では,リアルなキャラクタのアニメーションを生成する手法が 数多く提案されてきている.我々は,人間の振る舞いを左右する感情を考慮した舞踊動作を対象として,入力の音 楽信号から舞踊の表現に関係する音楽情景を解析し,その結果に合った舞踊動作を生成する手法を提案してきた. 動きデータからは動きのリズムと盛り上がりの特徴量を,音楽データからは楽曲構造解析によってセグメント分 割し,特徴量としてリズム,盛り上がりを抽出する.舞踊動作生成時は,まず構造解析によって得られる音楽セ グメント内のリズム成分と高い相関を示す動きの候補セグメントをすべて抽出する.そして最後に盛り上がり成 分の相関を求めることで最適な動きセグメントを選択し,連結することで舞踊動作が生成する.またこの手法に 対し,新たなモーションキャプチャデータを加えて動作生成し,生成された動作に対するブラインドユーザーテ ストによる有効性の評価,専門家による評価,ならびに一般ユーザーの利用に向けたWEB アプリケーションを 開発した.

Human Video Textures

hvt.png

with Matt Flagg, James M. Rehg, Irfan Essa and many people..

This paper describes a data-driven approach for generating photorealistic animations of human motion. Each animation sequence follows a user-choreographed path and plays continuously by seamlessly transitioning between different segments of the captured data. To produce these animations, we capitalize on the complementary characteristics of motion capture data and video. We customize our capture system to record motion capture data that are synchronized with our video source. Candidate transition points in video clips are identified using a new similarity metric based on 3-D marker trajectories and their 2-D projections into video. Once the transitions have been identified, a video-based motion graph is constructed. We further exploit hybrid motion and video data to ensure that the transitions are seamless when generating animations. Motion capture marker projections serve as control points for segmentation of layers and nonrigid transformation of regions. This allows warping and blending to generate seamless in-between frames for animation. We show a series of choreographed animations of walks and martial arts scenes as validation of our approach.

Project Page

  • Matthew Flagg, Atsushi Nakazawa, Qiushuang Zhang, Sing Bing Kang, Young Kee Ryu, Irfan Essa, and James M. Rehg,"Human Video Textures", Symposium on Interactive 3D Graphics and Games (I3D)., Boston, MA, February 2009.

複数シーンの連結によるインタラクティブ3 次元ビデオ

with Hattori Yuichi

hattori.jpg

3 次元ビデオは,複数のカメラで撮影したビデオから,対象を3次元形状復元することで得られた 時系列3次元形状データであり,任意視点からの動画像生成や立体視映像生成など,新たな形のメディアとして 注目されている.本研究では,閲覧者(ユーザー)の指示や行動に対してインタラクティブに反応する3次元ビ デオを生成し提示を行うことを実現する手法を提案し,システムの開発を行った.このシステムは,ユーザーの 行動やコントロールにより,あらかじめ用意しておいた複数の3次元ビデオをスムーズに切り替えることで実現 されている.提案手法では,3次元ビデオからシーン内のオブジェクトの骨格(スケルトン)を抽出し,複数の 3次元ビデオ間の類似性を評価することで,連結可能なフレームを探索する.次に連結可能フレームにおける3 次元形状の頂点の対応関係を決定し,頂点の補間軌跡を求めることで連結フレームを作成する.これにより,複 数の3次元ビデオ間をスムーズに遷移させることができる.実験においては,スケルトンを用いない従来手法と 提案手法の補間形状の評価,およびHMD と3次元トラッカを用いた試作システムに対する評価を行い,良好な 結果を得た.

ボリュームデータの細線化とグラフマッチングを用いた事例ベース人体姿勢推定

with Hidenori Tanaka

tanaka.jpg

特殊なマーカや計測装置の装着を必要としないビジョンベースの人体姿勢推定(モーションキャプチャ) 手法が数多く研究されている.しかし,これまで複数カメラを用いた研究において人体部位の接合等によるトポロジ 変化に対応できる手法はほとんど提案されていなかった.我々はこの問題に対し,入力された人体形状データをグラ フに変換し,あらかじめ用意したデータベースと比較することで,入力形状データの人体部位対応問題を解決し,安 定的に姿勢推定を行う手法を提案する.まず,複数のカメラから人の動きを撮影し,視体積交差法によってボリューム データを求め,トポロジや連結関係を維持しながら細線化処理を行う.次に,得られた線図形(スケルトン)の各部 分と人体部位とを対応づけるために,スケルトンを属性付きグラフで表現し,あらかじめ用意したモデルグラフデー タベース(MGDB)内のグラフと対応づける.MGDB には,人体の取りうるさまざまなトポロジの事例がグラフ化 されて収められており,グラフの各ノードと人体の部位があらかじめ対応付けられているため,これらとグラフマッ チングを行うことで入力スケルトンの人体部位を推定できる.得られた部位情報からスケルトンを適切に多関節に近 似することで,人体の関節位置および角度を得ることができる.8 台のカメラで人体を撮影し動作実験を行い,従来 手法では困難だった体のトポロジが変化する姿勢に対しても,本手法が正しく推定を行うことが確認できた.

  • Hidenori Tanaka, Atsushi Nakazawa and Haruo Takemura: "Human Pose Estimation from Volume Data and Topological Graph Database," Proc. Asian Conf. on Computer Vision (ACCV), LNCS 4843, Nov. 2007. PDF

レーザーレンジデータとGoogle マップ画像の位置合わせを用いた三次元都市環境のモデリング

with Miki Matsumura

scope.jpg

屋外広域環境の三次元モデル構築を行う上で,レンジデータの位置合わせは重要な問題の1 つであ る.近年ではこの目的のためGPS(Global Positioning System) が広く用いられているが,環境によっては精度 が十分でなかったり受信に失敗することも多い.そこで我々はStop-and-Go 方式により観測されたレンジデータ を,Google マップの情報を用いて位置合わせする手法を提案する。Google マップによる地図情報とレンジデー タを直接比較することでGPS などのセンサのノイズを回避することができ,またレンジデータ同士のアライメ ントによる方法よりも大規模な環境モデリングを容易に行うことが可能になる。Google マップからは地図画像 と航空画像を,レンジデータとしては地上から得られた三次元点群を用いるが,両者は性質の全く違うデータで あり,直接比較するのは困難である.そこで我々は初めに,両者のデータを建物や植物,道路といった共通の意 味単位(クラス)で分割し,その上で地図上でクラス間の一致度を評価しマッチングを行う.最終的には全レン ジデータのマップに対する一致度とレンジデータ間の計測間隔の制約を用いて計測位置を求める.評価実験とし て大規模な建築物に対するモデリングタスクを行い,GPS との精度比較を行ったところ,明確な精度およびロバ スト性の向上を確認した.

Analysis of Human Motion using Motion Capture

with Shinchiro Nakaoka, Takaaki Shiratori

analysis.jpg

無形文化財のデジタル化に関する研究の一環として,人間の動作(特に舞踊動作)をモーションキャプチャシステムで取得し,解析を行う研究群を実施しました.具体的には,舞踊動作の構造解析に基づく動作模倣,舞踊動作のデジタルアーカイブ化,動作のスタイル表現の解析と生成法,時空間DPによる動作ブレンディングによる動作生成,動作データからの構造解析などが挙げられます.

  • Imitating Human Dance Motion through Motion Structure Analysis, International Conference on Intelligent Robotics and Systems, 2002.
  • Digital Archive of Human Dance Motions, Virtual Reality and Multimedia Systems (VSMM2002), 2002.
  • Synthesize Stylistic Human Motion from Examples, International Conference on Robotics and Automation, 2003.
  • Matching and Blending Human Motions using Temporal Scalable Dynamic Programming, International Conference on Robotics and Automation, 2004.
  • Detecting Dance Motion Structure through Music Analysis, International Conference on Face and Gesture Recognition (FG2004). 2004. [pdf]

Dance Humanoid Robot

with Shinichoro Nakaoka and professor Katsushi Ikeuchi

hrp.jpg

舞踊動作(会津磐梯山踊り)をモーションキャプチャで取得し,ヒューマノイドロボットHRP1SおよびHRP2で再現するプロジェクトを行いました.

  • Project Page
  • AIST page
  • S.Nakaoka, A.Nakazawa, F.Kanehiro, K.Kaneko, M.Morisawa, H. Hirukawa and K.Ikeuchi, Learning from Observation Paradigm: Leg task Models for Enabling a Biped Humanoid Robot to Imitate Human Dance, International Journal of Robotics Research.

Digital Modeling of Cultural Heritages

at Katsushi Ikeuchi's Lab.

watt.jpg

A lot of 3D scans all over the world including Japanese Great Buddhas and Cambodian Angkor Wat !!

  • Project page
  • Research Galley
  • "Modeing from Reality - Creating virtual reality models through Observation", International Conference on VideoMetrics III, 2002.
  • Katsushi Ikeuchi, Kazuhide hasegawa, Atsushi Nakazawa, Jun Takamatsu, Takeshi Oishi, Tomohito Masuda, "Bayon Digital Archival Project," 10th International Conference on Virtual Systems and Multimedia (VSMM2004), 2004 (Best Paper)

Distributed Vision

with Prof. Hirokazu Kato

dvs.jpg

Distributed Vision System (DVS) is a system for observing multiple targets in a wide-area spatial environment . The DVS is constructed of some ’watching stations’that consist of a camera, an image processor and a computer network that connects each systems. This system’s goal is to track multiple people in a wide-area that cannot be watched by single visual sensor. Our approach is based on three algorithms; an algorithm for real-time human tracking, the task decision algorithms of indivisual watching stations, and the object-matching method used between stations. We also describe experimental results that show the validity of our approach.

  • Tracking Multiple People using Distributed Vision Systems, International Conference on Robotics and Automation, 2002

Tracking People from Video

with Prof. Hirokazu Kato

Our tracking method uses two tasks: the acquisition task and the tracking task. The acquisition task is used for the situation that we can anticipate the region where the person will appear. Our method is based on comparing the current image to many simulated images. A person is modeled by a simple 3D-ellipse and projected onto the simulated images where the person’s movement is assumed. The tracking task is used when a person has been found and can be tracked over subsequent video frames.

  • Human Tracking using Distributed Vision Systems, International Conference on Pattern Recognition, 1998.
  • i-trace

logfile write error