---
# System prepended metadata

title: コンピュータビジョン 1
tags: [Lecture, '1', 授業, コンピュータビジョン]

---

###### tags: `コンピュータビジョン` `授業` `Lecture` `1`

# コンピュータビジョン 1

## コンピュータビジョン(CV)とは
+ コンピュータで **人間の視覚(目の機能)** を実現する技術の総称
    + 言い換えると、視覚情報を基にして、様々な周囲の環境や状況を人間と同じように認識・判断する機能である
    + 目だけでなく **脳の働き(人工知能)** も含まれている
        + それぞれの対象が何であるのかを把握する機能
        + 学習・推論・判断をする
    + 目の機能 : 明るさ、色、大きさ、形、奥行き、動き
        + 対象の位置情報、動き情報(速度や移動方向)等を認識する機能
+ CV研究の目標
    + **人間の視覚の仕組み**を解明する事
        + 人間の視覚生理(視覚の構造と基本特性)や視覚心理(視覚による色、形、空間、運動などの知覚)を研究する
    + **人間の視覚**の真似を出来る機械を作る事

---

## CVの応用分野
次の3つの分類に分け、後半に行くに連れて人間に近い高度な機能を含む分野になっている
1. 画像**処理**の分野
2. 画像**分類**の分野
3. 画像**理解**の分野

---

### 画像処理の分野
画像処理分野とは、**視覚情報を単純な画像とみなして入力**し、ある目的の為に何らかの処理を施して**別の画像に変換・出力**するという応用分野である。**画像強調**により画像の全体をクリアにしたり、画像中の**ノイズを除去**して見やすくする**画質改善**等が代表的な応用である。これらの画像処理では画像に写っている**対象(内容)** が何であるかは関係無く、画像の**信号**としての**性質**にだけ注目をしている。

---

### 画像分類の分野
画像分類とは、入力画像に写っている**対象**が、記録されている**対象(内容や有限ラベル)** のどれに1番近いかを判別する分野で、**パターン認識やパターン理解**とも呼ばれている。その為、**対象の特徴を抽出**し、記録されている**対象の特徴**と比較して**最も似通った特徴を持つ対象を選択**するという処理を行う。**音声認識、文字認識、顔認証**等が応用例である。顔認証技術は犯罪防止の応用として利用されている。監視カメラで採用されている不審人物やその行動の検出技術が進歩し、これは**単なる対象(パターン)の認識**だけではなく、**その対象(パターン)が表現しているものの記述(行動、感情等)を認識しようとする技術で、パターン理解**とも呼ばれている。画像分類では画像の信号だけでなく、内容を扱う事になるが、元の世界の性質(周囲の環境や状況)を全て表すわけではなく、あくまでも個々の対象の性質を認識する程度であり、**人間の認識・判断のレベルには至っていない。**

---

### 画像理解の分野
画像理解は入力画像に写っている元の世界の状態そのもの(人間であれば、目に入る全ての環境や状況)の記述を得ようとする分野で、**視覚情報**だけでなく、対象世界に関する**一般的な知識(過去に学習されてきた知見等)** を必要とする事が多い分野である。応用事例として、**運転支援システム(ADAS)や自動運転システム、ロボット視覚**が挙げられる。

---

## CV研究の分類
1. **人間の視覚を代替する為のCV**
これは前述した**自動運転システム**や**ロボット視覚**のように完全に人間の代わりに働く機会を目指した研究で、**機械が主体となる技術**である。将来的には様々な無人化を狙った研究の方向である。
2. **人間の視覚と2協調する為のCV**
これは主体は人間で、**人間を支援する機械を開発**するという研究である。すなわち**人間が不得意な事**、**負担が大きくて接続しずらい事**あるいは**人間がうっかりミスをした(ヒューマンエラー)** 時に補助をする事が狙いである。

---

## CVの難しさ
まず人間が普段何気なくやっている事に、**画像(2次元情報)から容易に(そこに写っている)3次元の形や奥行きを推量出来る。** という事がある。これを踏まえて、CVが難しいのは以下の5つが理由である。
1. **データ量が膨大[計算技術的な問題]**
    + 通常のテレビ : 約30MB/秒(HDTVではその4倍)
    + コンピュータ関係のデバイスやそれらを構成する半導体素子等の発展によりかなり解決してきている。
2. **人間の視覚能力の方法を論理的に説明出来ず、プログラム化が難しい**
    + 未だ視覚能力の方法は全貌が解明されているわけではないので、人間の視覚能力のアルゴリズムを論理的に説明出来ず、プログラム化が難しい
3. **画像情報(画素の明るさや色として観測される)は表面の反射特性、向き、照明、周りの物体からの影等複数の要素が多対一の関係で複雑に関係している**
    + CVの難しさの典型的な要因
    + 画像は基本的に明るさと色からなる情報であるので、照明や視点等の観測条件、対象の位置・姿勢や材質などによって見え方が異なる。
    + **見え方の違いに依らずに同じ対象を同じものとして認識する事が難しい**
4. **画像(3次元のシーンが2次元の面に投影されたもの)は奥行き情報が失われている**
    + **2次元情報から奥行きの情報を簡単に再現する事が出来ない**
    + 後述のステレオビジョンのように**多方面から見た複数の画像情報を利用する方法**等が考案されている
5. **視覚認識では画像の情報だけでなく他の知識を使って初めて可能な事が多い(人工知能そのもの)**
    + 画像の情報だけでなく、対象やシーンに関する他の知識を使う事も必要
    + 他の知識をどのように蓄積(学習)し、必要な時に素早く出せるか等の人工知能の課題を含んでいる

---