畳み込みニューラルネットワーク 002 : フィルタの種類と動作

CNNについてClaude Opus 4.5に説明してもらいました。
自分は間違いを指摘したり、構成を整理しました。

代表的なフィルタの種類

画像処理では、様々なパターンを検出するために異なるフィルタが使われます。CNNはこれらのフィルタを自動的に学習しますが、まずは手作業で設計された古典的なフィルタを理解しましょう。

代表的なエッジ検出フィルタ

フィルタの設計原理
エッジ検出フィルタは、隣接するピクセルの「差分」を計算します。明暗の変化が大きい場所(エッジ)で大きな値を返し、一様な領域では0に近い値を返します。

縦エッジ検出フィルタが実際にどのように動作するか、ステップバイステップで見てみましょう。

縦エッジ検出の動作原理

実際のMNIST画像にエッジ検出フィルタを適用すると、どのような特徴マップが得られるか見てみましょう。

MNISTの3にフィルタを適用

特徴マップの解釈
各フィルタは画像の異なる側面を捉えます。縦・横・斜めのエッジを組み合わせることで、数字の輪郭全体を表現できます。CNNの後続の層では、これらの基本的な特徴を組み合わせて、より複雑なパターン(曲線、角、形状全体)を認識します。

CNNの1つの畳み込み層では、通常32個や64個など複数のフィルタを同時に使用します。各フィルタが1つの特徴マップを生成します。

複数フィルタによる特徴抽出

カラー画像(RGB)など、複数チャンネルの入力を処理する場合、フィルタも入力と同じ数のチャンネルを持ちます。

多チャンネル入力の畳み込み

チャンネルのまとめ

各フィルタにはバイアス項が追加されます。バイアスは、フィルタの「閾値」を調整する役割を果たします。

畳み込みにおけるバイアス

この章で学んだこと