人間は視覚,聴覚,触覚などの多種類の感覚系を持つ. 複数の異なる感覚器で得られた情報を統合することによって,シーンを理解し, 周囲の環境についてより詳しい情報を獲得している.人間のこのようなメカニズムを 工学的に実現するには,複数の異なる感覚情報を統合することが必要である. これにより,未知対象物,環境などを認識,学習,制御することができ, より高度で快適なヒューマンインタフェースが実現できる.
本研究は,人間の代表的な感覚機能であり,重要の役割を占める視覚と聴覚に 着目し,物体固有な知識を用いず,一般的な物理法則によって,複数の運動で生じた 視聴覚事象を対応付けることを目的とする.
システムは音処理部,画像処理部,対応付け部の三つの部分に分けられる. まず,音処理部では,モノラルマイクロホン信号からonsetの検出基準を用いてonsetを 検出する.FFTを用いて検出したonsetの周波数成分を計算する. 周波数成分の相似性を用いてonsetを分離する. 分離した各onsetグループに対してonsetの有無により, 値が{0,1}からなるonsetの時系列Sjを作成する. 次に,画像処理部では,onsetの時系列を参照して,画像フレームを抽出する. 断続音の場合は,抽出した画像フレーム間の差分により,運動物体が存在する領域を検出し, エッジを抽出する.エッジの画素数の時系列Ikを作成する. 単発音の場合は,抽出した画像フレームは背景画像との差分によって,動領域を抽出する. 連続する差分画像内の領域を距離,面積,周囲長特徴を用いて対応付ける. 対応した領域の重心の運動方向を求める. 最後,対応付け部では,音処理部と画像処理部のそれぞれの出力を対応付ける. 断続音の場合は,音の発生と運動の変化の同時性,音の繰返しと運動の繰返しの類似性など の対応手掛かりを利用して,SjとIkの相関により, 繰返し運動と断続音を対応付ける. 単発音の場合は,音の発生と運動の変化の同時性を用いて, onsetと運動方向が変化する領域との対応付けることにより, 単発音と一回きり運動を対応付ける.それにより不規則な運動に対する視聴覚事象の対応付けを実現する.
実環境で,本手法の有効性を示した.
図1-1のような音響信号から検出したonsetを 2つのグループに分離した.グループ1と2のあるonsetの周波数成分は図1-2,図1-3のようになる. 図1-4のようなシーンから,onsetが1つのみのグループ1に対して図1-5のような運動ベクトルを検出した. グループ2は図1-6のような動領域と対応付けた.
図1-1 Sound Source |
図1-2 FFT of Group1 |
<
図1-3 FFT of Group2 |
図1-4 One scene |
図1-5 Motion Vector |
図1-6 Metronome Region |