氏名: 玉木 徹

論文題目: 画像中の物体および人物領域の抽出手法に関する研究


論文概要

例えば、ソフトボールの試合の風景を写したスナップ写真を見せられたとしよう。 その写真には選手や地面やフェンスなど様々なものが写っており、複雑なシーン にもかかわらず、人間は容易に、その写真の被写体が何であるのか、またそれが 誰であるのかを推測することができる。たとえ写真に写っている人物を知らない としても、その状況においてその人物がどのような行動を起こしているのかを理 解することができる。また、舞台となっている場所を知らなかったとしても、そ こが木々に囲まれたどこかのグランドであることは想像できるであろう。このよ うな情景理解は、一見すると取るに足らない当たり前のことのように思えてしま うかも知れない。しかし実際は、我々の生活の中できわめて重要な役割を果たし ている。例えば、今いる場所からどこかに移動する場合、または何か物をつかん だり、それを誰かに渡したりする時には、自分を取り巻く環境を目で見て正しく 認識する必要がある。情景理解は、適切な行動をとるために必要不可欠なもので あると言えよう。

コンピュータビジョンや画像認識は、計算機にカメラを搭載し、人間の視覚に備 わっている様々な機能を計算機によって実現しようとする研究分野である。人間 の持つ優れた視覚機能を計算機によって実装することができれば、その有用性は 計り知れないものとなる。その中でも情景理解は特に有用性が高いものである。 しかし、実際にそれを実現するのは簡単なことではない。なぜなら、人間が容易 に行っている情景の理解という処理は、計算機で行うためにはいくつかの段階に 分けて構築しなければならないが、その一つ一つの段階でさえも、計算機で実現 するには困難であるからだ。

その中の一つに、対象を抽出するという処理がある。画像中のどの位置に人物が いるのか、その人物はどのような姿勢をとっているのか、腕の領域と背景の領域 の境界線はどこなのか。これらのことは、情景理解を行う上で必要な段階である が、人間はいともたやすく行っている事であるにもかかわらず、計算機によって 対象を安定して抽出することは難しい。

情景理解を困難なものにしている原因の一つに、この物体抽出の難しさが挙げら れる。本論文は、この物体抽出の手法について論ずるものである。

物体抽出の研究は従来から多く行われているが、コンピュータビジョンや画像認 識の応用の一部として行われることことが多く、一般的な手法の開発よりも利用 目的に応じた個別の手法の開発の方が盛んである。 それらの研究では、 従来からそれぞれの処理の一部分として物体を抽出している が、それ以降の処理に重点が置かれることが多い。そのため、抽出処理が容易に 行えるように、主に以下のような前提条件の下で行なわれている。

これらの仮定は、環境に対する適切な条件を設け、手法の適用範囲を明確にし、 また予測しやすくするためには必要なことである。 しかしその一方で、多くの応用分野において実用的な場面で使用するためには、 それらは取り払わなければならない課題でもある。 撮影環境を限定せず、多数の移動物体が存在する状況で人物を認識 する必要も出てくるであろうし、位置や輪郭を与えることなく一般的な対象物を 抽出することも重要である。

本論文では、画像から対象物体や対象人物を抽出するという処理を、未知の複雑 な背景において他の移動物体が存在するという、より実際的な状況において用い ようとする際に問題となる点を明らかにし、それを克服する手法を提案する。具 体的には以下の通りである。

第一に、不特定の物体を静止画像から抽出する方法について考察する。写真のよ うな静止画の被写体となる対象は、人物から花や風景などの静物まで幅広い。そ れゆえ、様々な物体を扱うには、物体についての固有の知識を用いずに抽出でき ることが望ましい。そのための一つの方法として、画像の領域分割を用いるアプ ローチが考えられるが、従来の領域分割では、一つの物体に対して一つの領域を 抽出することは困難である。本研究では、まず初めに、その困難さの原因である 二つの要因 (光学的要因と物理的要因)について述べ、物体に固有ではない一 般的な情報を用いて、物理的要因及び光学的要因を排除し、物体を一つの領域と して抽出する領域分割手法を提案する。これらの要因によって、本来は一つの領 域になるべき物体が多数の領域に分割されてしまうのだが、従来の研究では光学 的要因を考慮する手法はあっても、物理的要因は考慮されてこなかった。本手法 は分割併合法に基づいており、まず画像を一つの特徴量で表される部分領域に分 割する。そして、領域内物体の領域が物理的要因によって分割されたのかどうか を判定するために、二つの領域間の配置・隣接・面積比の情報を導入し、それに 基づいて併合を行うための四つの特徴量(包含、滑らかさ、連続性、面積比)を 提案する。それらの特徴量は、一つの領域の内部についてのものではなく、二つ の領域間についての特徴量である。これによって、物体表面が別々の色を持って いるというような、従来の領域分割では扱えないような場合であっても、一つの 物体の領域を得ることができる。本手法を実画像に適用した結果を図1に示す。 人物の顔や髪の毛や服の色が異なるにもかかわら ず、一つの物体の領域として抽出できていることがわかる。

(a) 原画像 (b) 抽出物体領域
(a) 原画像 (b) 抽出物体領域
図1 : 静止画像からの不特定物体の抽出

第二に、対象を人間とした場合に、より実際的な状況において、人物の形状モデ ルを用いた人物領域の抽出について検討する。様々な目的のために人物を被写体 にすることは工学的な応用分野で多く行われているため、他の移動物体が存在す る状況においても人物を抽出することが必要である。 従来の移動物体の検出手法の多くは、シーン内の動物体の数を一つに限定してい る。また複数動物体の研究でも、全て同じ種類の物体、例えば全て人物で、それ ぞれの人物を抽出しているに留まっている。 しかし実環境では、人物以外に車や動物などが存在することも あり、複数の異なる種類の移動物体から人物以外を排除することが必要である。 本研究では、人や車などの複数の移動物体が存在する動画像から、簡単な人物の 形状モデルを用いて人物全身の領域を抽出する方法を提案する。この手法は、ま ずフレーム間差分を用いて移動する人物領域候補の抽出を行う。次に、背景に人 物以外の動物体がある場合でも人物領域を得るために、エッジから人物の頭部と みなせる部分を特定する。そしてその頭部位置を元に、抽出される人物像につい ての楕円モデルを作成し、動的輪郭手法により人物領域に収束させる。そして最 後に色による領域分割を行い、詳細な人物の輪郭を抽出する。 本手法を実画像に適用した結果を図2に示す。 人物の背後で車が動いているにもかかわらず、人物の領域が抽出できていること がわかる。

(a) 抽出人物領域1 (b) 抽出人物領域2
(a) 抽出人物領域1 (b) 抽出人物領域2
図2 : 動画像からの人物の抽出

第三に、対象を人間の腕とした場合に、より実際的な状況において、腕の運動モ デルを用いた人物の腕領域を抽出する手法を提案する。ジェスチャなどでは情報 を伝えるために腕の動作が頻繁に用いられるため、人物の腕の抽出は、動作認識 において重要な課題である。しかし従来の動作認識手法では、未知の複雑な背景 において、他の移動物体が存在するという、より実際的な状況での抽出は考慮さ れなかった。本研究では、未知の複雑な背景において、他の移動物体が存在する という条件の下で、回転する人物の腕の領域抽出と、その運動パラメータの推定 を行う手法を提案する。腕の運動パラメータは認識の際に有用な情報となり、そ れをもとに他の物体を排除することができる。また、オプティカルフローのcurl に基づいているため、画像中の運動物体の位置に依存しない。まず動画像からオ プティカルフローを求め、その方向によって大まかに分割を行う。そして画像中 の複数の運動物体を扱うためにEM(Expectation Maximization)アルゴリズムを 導入し、反復計算によって異なる運動物体の領域に分割し、同時にその運動パラ メータを求める。最後に求められたパラメータから回転物体であるかどうかを判 定する条件を示し、他の物体を排除する。本手法を実画像に適用した結果を図3に 示す。手前の人物が動かしている腕だけを抽出できてい ることがわかる。

(a) 原画像 (b) 抽出腕領域
(a) 原画像 (b) 抽出腕領域
図3 : 動画像からの人物の腕の抽出

PDF format (702175 bytes)


目次に戻る