Improving plankton image classification using context metadata

# Improving plankton image classification using context metadata ## Abstract ハードウェアとソフトウェアの両方の進歩により、原位置プランクトンのイメージング方法が急速に普及し、画像分類にはより効果的な機械学習アプローチが必要とされています。畳み込みニューラルネットワーク（CNN）のようなディープラーニング手法は、従来の特徴量ベースの教師付き機械学習アルゴリズムに比べて顕著な改善を示すが、ハイパーパラメータの慎重な最適化と適切なトレーニングセットが必要である。ここでは、動物プランクトンや海の雪の画像にCNNを適用する際のベストプラクティスを文書化し、我々の結果が他の領域における現代のディープラーニングの知見とどこが異なるのかを指摘する。異なる種類のメタデータを組み込むことでCNN分類器の性能を向上させ、単純な連結を超えてメタデータを同化する方法を示す。我々は，地時空間メタデータ（例：試料の深さ，場所，時間帯）と水路メタデータ（例：温度，塩分濃度，クロロフィルa）の両方を利用し，どちらかのメタデータを単独で，あるいは両方を組み合わせることで，誤差率を大幅に低減できることを示している．コンテキストメタデータを組み込むことで、我々が評価した特徴ベースの分類器の性能も向上します。ランダムフォレスト、非常にランダム化された木、勾配ブーステッド分類器、サポートベクターマシン、多層パーセプトロンです。評価には、新しいin situ Zooglider からの35万枚のin situ画像（約50%が海雪、約50%が非雪で、26のカテゴリに分類されています）のオリジナルデータセットを使用しました。実質的に深いネットワークや人工的に拡張されたデータセットなど、より計算量の多い技術を使用することで、漸近的に性能が向上していることを実証しています。我々の最良モデルは、27クラスのデータセットで92.3%の精度を達成しています。我々は、分類器の精度をさらに向上させる可能性のある、さらなる改良のためのガイダンスを提供しています。 ## Intro 最近まで、ほとんどの自動画像分類は、面積、形状、アスペクト比、フラクタル次元、テクスチャ、グレースケールヒストグラムなど、デジタル画像から計算された一連の記述的な幾何学的特徴に基づいて動作する「特徴ベース」と呼ばれる手法を採用してきました（例：Peura and Iivarinen 1997）。その特徴量を基に、生物のタイプに対応するラベルへのマッピングを導出する。このマッピングを他のデータに外挿することが理想。様々な成功度でプランクトン画像の分類に適用されてきた特徴ベースのアルゴリズムには、ランダムフォレスト（Grosjean et al. 2004; Gorsky et al. 2010）、サポートベクターマシン（SVM）（Hu and Davis 2005; Sosik and Olson 2007; Ellen et al. 2015）、および多層パーセプトロン（MLP）（Wilkins et al. 1996）などがある。 2012年以降、「ディープラーニング」アルゴリズム（Krizhevsky et al. 2012; LeCun and Ranzato 2013; LeCun et al. 2015）は、自然言語処理（Socher et al. 2013）、時系列解析（Graves et al. 2013）、変分オートエンコーダー（画像補正など、既存のデータを生成または変更するために学習するアルゴリズム；Kingma and Welling 2013）、プランクトン画像解析（Orenstein et al. 2015; Dai et al. 2016; Dieleman et al. 2016b; Graff and Ellen 2016; Wang et al. 2016; Zheng et al. 2017; Orenstein and Beijbom 2017; Luo et al. 2018）など、複数のアルゴリズムがディープラーニングの例として特徴づけられてきたが、共通点は、元の入力ではなく前の層で動作するアルゴリズム構造の反復層を使用していることである(Multiple algorithms have been characterized as examples of Deep Learning, the commonality being the use of repetitive layers of algorithmic structure that operate on the prior layers rather than the original input.) ディープラーニングアルゴリズムは、桁違いの計算量を必要とする傾向がありますが、多くの場合、そのような計算は高度に並列化可能であり、適切なハードウェアを与えられれば迅速に実行することができます。最も一般的に採用されているディープラーニング手法には、畳み込みニューラルネットワーク（CNN）があります。CNNは、様々な画像認識問題に適用されてきた（例えば、LeCun and Bengio 1995; LeCun et al. 1998; Matsugu et al. 2003; Ng et al. 2015; Esteva et al. 2017）。植物プランクトン画像分類へのCNNとランダムフォレストの応用はOrensteinら（2015）、サンゴ、プランクトン、魚類分類へのCNNのさらなる応用はMoniruzzamanら（2017）が調査している。大量のプランクトン画像を分類するためにCNNを利用したエンドツーエンドの詳細なワークフローはLuoら(2018)に記述されており、彼らが選択したCNNアーキテクチャに対して提供した結果は、CNNがプランクトン画像の分類に利用できることを明確に示している。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/05733306-8c4b-444c-9f33-21b276062922/lom310324-fig-0001-m.jpg コンピュータの知覚は全く異なり、このような高次の分類学的概念や形態学的概念を欠いている。コンピュータの「視覚」は、整数値のグリッド（図１ｃ）と、「４２個の暗い灰色の画素値」や「１２３個の連続したゼロでない画素」などの概念に限定されている。特徴に基づく手法は、画像や物体を記述するために、周囲や平均強度などの要約統計量を用いる。対照的に，CNNは元の画像の部分を格子状に並べて独立した統計量を生成し，このプロセスを複数のスケールで繰り返して，画像の内容全体の統計的要約を構築する． CNNは，フーベルとヴィーゼルの視覚野内の受容野の研究（Hubel 1959; Hubel and Wiesel 1963）に触発された方法で，ピクセルの格子に階層的なフィルタのシステムを適用する．CNNの最下層は図2aのようなフィルタからなる。これらのフィルタは、ランダムな値を生成するか、以前に訓練されたCNNからフィルタのセットを採用することで初期化される。次に，フィルタは入力画像に対して畳み込み，すなわち，画像中のあらゆる可能な領域について，フィルタとそれがカバーする画像の領域との間で要素ごとの乗算を行う．各フィルタの畳み込みはニューロンへの入力であり、ニューロンはこれらの入力を合計し、フィルタと入力領域の高い値が密接に相関している場合に、より高い値の出力を生成する非線形活性化関数を適用する（図２ｂ）。ニューロンの出力は、次の層のフィルタの入力として使用されます。後続の各層のフィルタは、前任者に同様に適用される。訓練段階では、ラベル付けされた画像が評価されるにつれて、アルゴリズムは、これらのフィルタを徐々に調整し、クラス間の違いを決定するのに最も有用なフィルタとなるようにします。初期のフィルタの層は、通常、図２の例のように、色（ここではグレーの濃淡）、コーナー、特定の方向のエッジなどの低レベルの視覚的概念を識別するために進化します。二次フィルタは、通常、曲線やテクスチャのような中間レベルの概念に対応しており、筋肉のバンドやアウターチュニックのような概念になる可能性があります。追加のフィルターの層は、前任者の出力に対して進化し、理想的には、最終的な分類ラベルを決定するのに有用な高レベルのオブジェクト、例えば喉頭周囲のバンドや精巣をもたらします。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/edd4ca0d-6e60-4516-86b1-32e073d0905a/lom310324-fig-0002-m.jpg CNNと特徴量ベースの手法は画像データの異なる表現に基づいて動作しますが、画像に含まれる情報のみを利用するという点で限界があります。対照的に、ヒトの分類学者は、同定を行う際に、サンプルがどのような文脈で入手されたかを考慮します。浮遊性生物の場合は、地理的な場所、季節、水深、時間帯、水路条件などの採取情報がコンテキストメタデータを提供しており、これらの情報はもっともらしい答えの領域を制限し、同定プロセスを容易にするのに役立ちます。画像の分類を改善するためにメタデータを利用するというコンセプトは、他の領域でも検討されてきました。観光写真の分類に関する初期の研究では、ランドマークの識別を向上させるために、画像と連動してGPS情報を使用しています（Li et al. 他の研究では、標高、平均植生、議会区などのメタデータを生成するためにGPS情報を組み込み、一般的なオブジェクトやシーンの100通りの分類タスクで5ポイントの精度向上を達成するために、2つの異なる方法を模索しました（Tang et al. コンテキストメタデータを特徴ベースの分類に組み込むことは簡単だが、CNNにそのようなメタデータを組み込むことはより困難である。この論文では、異なるタイプのコンテキストメタデータを組み込むことで、CNNと特徴ベースの両方の手法の分類精度が向上するかどうかを評価する。我々の数値実験は、新しいin situ動物プランクトンイメージング装置であるZooglider(Ohman et al. 2018)の検証済み画像のオリジナルライブラリに基づいている。メタデータの利用を最適化する方法を説明する。さらに、機械学習法には、分類器の有効性に著しく影響を与える可能性のある多くのパラメータ値が含まれていますが、多くの実務者は、一般的に利用可能なソフトウェアパッケージのデフォルト値を単に採用しています。我々は、CNNと最も一般的な特徴ベースの手法のうち5つの手法について、ハイパーパラメータを調整することの利点を説明し、ハイパーパラメータ値（ハイパーパラメータとは、学習アルゴリズムがモデルのパラメータを最適化する前にその値を選択する包括的なパラメータのことである）を選択するためのガイダンスを提供する。大きさや複雑さの異なるCNNに対する特徴ベースのアルゴリズムの性能を評価し、メタデータを含むことの利点を定量化する。 ## Materials and procedures ### Machine learning algorithms and image processing software CNNに加えて、5つの特徴量ベースのアルゴリズムを用いた。Random Forest Classifier (RFC)、Extremely Randomized Trees (XRT)、Gradient Boosted Classifier (GBC)、MLP、SVMである。ランダムフォレストアルゴリズムは、訓練セットから抽出されたブートストラップサンプルに適合させることで、最適な決定木を構築します。その木が最適化されると、しきい値(Ho 1995)までさらに多くの木が構築されます。我々はまた、RFCのさらに最近の2つの修正を使用した。XRTアルゴリズムは、すべてのデータの代わりにデータの確率的な分割を使用し、各木を完全に最適化する代わりに確率的な木の構築条件を使用しています(Geurts et al. 2006)。これらの変更は、通常、アルゴリズムの収束を高速化する一方で、同等かそれ以上の結果をもたらします(Criminisi et al. 2012)。我々が使用しているもう一つのRFCのバリエーションであるGBCは、ブースティングの概念に基づいており、弱いモデルの集合をより強いモデルに組み合わせることができる(Freund and Schapire 1997)が、この場合は、完全な木の代わりに、より省略された決定「切り株」(Friedman 2001)。我々はまた、RFCのように個々の特徴のサンプル値に直接作用するのではなく、メトリック空間内での全体的な近接度に基づいて、すべてのサンプル間の空間を最適に分割する決定境界を構築するSVM（Cortes and Vapnik 1995）を評価する。最後に、我々はMLP(Rumelhart et al. 1986)を評価する。これは、各ニューロンが決定空間内で平坦な部分集合を生成し、これらの平坦な部分集合を学習することで、非常に柔軟性の高い複雑な決定面を集合的に形成する(Haykin 2009)。高レベルのデータ処理と一般的な計算にはPythonプログラミング言語(van Rossum 1995)を用いた．画像処理と操作には，OpenCV (Bradski 2000)を用いた．RFC, XRT, GBC, SVMにはScikit-Learn (Pedregosa et al. 2011)を用いた．MLPとCNNについては、Lasagneライブラリ(Dieleman et al. 2016a)を用いてモデルを指定し、Theanoフレームワーク(Al-Rfou et al. 2016)で実行した。代替的なCNNの実装は、TensorFlow、Caffe、Torchなどで利用可能である。 ### Computational equipment 我々は、40 個の CPU コア、128 GB の RAM、NVIDIA K40 GPU を搭載したシンプルなサーバ上で小規模な数値実験を行った。大規模な実験では、NSFのExtreme Science and Engineering Discovery Environment (XSEDE.org; Towns et al. 2014)を利用しました。この環境では、全国規模のスーパーコンピューティングリソースを介して、数十台のグラフィックスプロセッシングユニット(GPU)に同時にアクセスすることができます。私たちが評価した個々のモデルは1つのGPUで評価できますが、XSEDEの計算リソースを利用することで、何千回もの試行と複製からなる実験をより徹底的かつ効率的に実施することができました。 ### Image acquisition 我々の画像は、Zooglider によって取得された。Zooglider は、テレセントリックレンズシステムを搭載した Zoocam を搭載した自律型車両で、1 フレームあたり ~ 250 mL の容量でプランクトン生物や粒子のその場観察が可能である (Ohman et al. 2018)。Zoogliderは水深400～0mで動作し、上昇中に2Hzの周波数で白黒シルエット画像を取得し、～5cmの垂直解像度で空間的に分解された画像のシーケンスを作成し、それぞれが独立した水の体積をイメージングします。また、Zooglider は導電率、温度、水深、クロロフィルa (Chl a ) 蛍光を測定し、Zoocam で撮像したものとほぼ同じ大きさの物体 (0.5-50 mm) からの音響後方散乱を測定するためのデュアル周波数 Zonar (200/1000 kHz) を搭載している。Ohmanら(2018)に詳細に記載されているように、コントラストを改善するために、ノイズ除去およびガンマ補正を含むZoocam画像フレームの画像補正を行った。これらの操作はセグメンテーションの精度を向上させるのに役立つ。セグメンテーションは、どの特定のピクセルがエッジとして機能し、画像内の２つの連続した領域間の境界上にあるかを識別するプロセスである。我々は、視野内の関心領域（ROI）をセグメント化するために、Cannyエッジ検出（Canny 1986; Ohman et al. 2018）のカスタムの２パスバージョンを使用した。 ![Uploading file..._ywugkz4y2]() ### Image compilation アノテーションのために選択された画像が偏りなく選択されることが重要である。このトピックおよびプランクトン画像の特徴ベースの分類を検証するための他のベストプラクティスは、Gonzálezら（2017）によって議論されています。私たちの画像は、145万枚のフルフレーム画像キャプチャを含む225ダイブプロファイルからなる季節のZoogliderカバレッジから描かれました。我々は、15万枚のフルフレーム画像を選択し、我々の数値実験で使用された178,547個の非雪のROIを得るために、それらから偏りのない方法で〜200万のROIを手動で分類した。画像は27のカテゴリに分類されました（表1と図3）。我々は以前に、クラスが十分に定義されている必要があるクラスの例の数のための大まかなガイドラインとして、クラスごとに約1000枚の画像が必要であることを発見しました（Graff and Ellen 2016）。そこで、初期のトライアルとデバッグの目的のために、我々はクラスごとに1000例以下の限定的なデータセットを作成し、合計25,047のROIを得ました。2番目のデータセットは、各クラスを5000例に制限して作成し、76,190のROIが得られました。実行可能な候補アルゴリズムを迅速に評価するために、予備的な探索のほとんどがこのデータセットで実行されましたが、これは私たちが強く推奨する手法です。解決策を絞り込んだ後は、パラメータを微調整し、可能な限り最大のデータセットを使用して結果を報告しました。ほとんどの特徴ベースのアプローチは、メモリを使い果たしたり、無期限に継続したりすることなく、完全に学習することはできませんでした。最大のデータセットを構築するために、雪以外のすべてのROIと171,447枚の海洋雪のROIを組み合わせ、合計350k枚の画像を作成しました（表1）。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/39782d88-a35f-45a5-9f9a-942752ad31db/lom310324-fig-0003-m.jpg 我々の主な評価では、この最大のデータセットを使用しています。我々はより大きなデータセットを評価して350 kに到達しましたが、精度に大きな違いは見られませんでしたが、コンピュータの実行時間が長くなりました。雪を含むすべてのROIは、偏ったメタデータやその他の異常を導入しないように、それぞれのクラスからランダムにサンプリングされました。全体のデータセットサイズは1.5, 4.7, 21.5GBであり，メタデータ（後述）は各データセットで約0.1GBである．CNNは一様なサイズの画像を必要とする。ROIの大部分のサイズに基づいて，128×128ピクセルを選択しました．より小さなROIは、このサイズに適合するようにニュートラルピクセルでパディングすることでサイズを大きくしました。各ニュートラルピクセルは、全ての画像の平均強度値の周りの正規分布からサンプリングされたランダムな強度値を含み、第１層フィルタによって誤って検出されるであろう人工的なエッジまたは均一な色の領域の導入を最小限にすることを意図している。したがって、パディングされたニュートラルピクセルは、レンダリングされたときに、単色のソリッドな厚いフレームではなく、斑点状の外観をもたらす。リサイズの際には、画像のサイズを変更するために、ランチョスフィルタを用いたリサンプリングを使用した（Ｂｌｉｎｎ１９９８）。 ### Hydrographic, geotemporal, and geometric metadata 私たちは、3 種類のコンテキストメタデータ、すなわち、水文、地点、幾何学的メタデータを組み込みました（表 2）。水文メタデータは、画像が取得された特定の水域の原位置環境を反映することを目的としている。これらの測定は、Chl a 蛍光、塩分濃度、密度（Fernandes 2014 を用いて Fofonoff and Miller 1983 に従って計算された）、温度、上昇流指数（Schwing et al. 1986; Pacific Fisheries Environmental Laboratory 2018; 33°N, 119°について、各 Zooglider 画像に先行する 10 d の平均値）の Zooglider 測定、および物体濃度を近似する 2 つの異なる方法を含む。Zooglider による Chl a と CTD の測定は 8 秒ごとに行われ、一方 Zoocam 画像は 2 Hz で取得されているので、測定値は各 Zoocam フレームに線形補間される。また、Zoogliderで測定した２つの音響周波数での音響後方散乱とその差をメタデータとして使用しており、これは小さな散乱体と大きな散乱体を区別するのに役立ちます。Zooglider に搭載されている Zonar は画像化されたものと同じ体積を同音化しないので、音響反射は記録された ROI のプロパティではありませんが、近くの音響散乱体の密度に関するコンテキスト情報を提供します。音響後方散乱は1mの深さのビンで平均化されています。また、ＲＯＩがセグメント化されたフルフレーム画像は、近傍の粒子密度に関する情報を提供する。各領域からフレーム内の最も近い隣人のそれぞれまでの個々の距離を最大５まで計算します。6つ未満のROIを持つフレームでは、9999のデフォルトの最大ピクセル距離が使用されます。視野内の領域よりも視野外の領域の方が近い場合があり、視野の深さを考慮することができないため、このメトリックは常に正確であるとは限りません。しかし、データセット内の他の画像との比較のための2次元メトリックとしては一貫性があり、局所的な粒子密度の指標となるはずです。地理空間メタデータは画像が取得された場所と時間を特定します。Zoogliderで直接測定された値は、静水圧、画像取得時刻、緯度経度を各グライダー浮上面間で補間したものです。これらの位置値に基づいて、海底の深さは、海底地形をダウンサンプリングして計算した~100mのグリッドセルから得られます(NOAA 2016)。また、Point Conception（主要な上昇流中心）までの距離とSanta Barbara Basin（生産性の高い地域、Ohman et al.2013）までの距離も計算しています。海岸までの距離と最も近い大陸斜面（600m）までの距離は、ダウンサンプリングされた海底地形を用いて計算した。我々は、4種類の時間的メタデータを生成する：1日の時間（8つの時間間隔に分割）、季節（四季、それぞれ3ヶ月の長さ）、カリフォルニア沖のエルニーニョ-南方振動指数（毎月、Lilly and Ohman 2018より）、太平洋10年振動（毎月、Mantua et al. 1997より）。画像から抽出された幾何学的特徴は、CNNアーキテクチャのための第3のタイプのメタデータとして使用された（幾何学的特徴は、特徴ベースのアプローチのために必要とされる）。幾何学的な値は，セグメンテーション・アルゴリズムによって領域内にあると指定されたピクセルに関して計算される（例えば，平均強度，尖度，面積，直径，加重セントロイド）．これらの値は画像自体の中の情報から得られるが，幾何学的特徴は，画像が再スケーリングされ，ピクセル値がCNNによる処理のために調整される前の元の画像内容と領域サイズを記述するという意味でメタデータである．これらの値には，境界長や偏心などのセグメンテーション境界の測定値や，最小値，最大値，平均値などの元々測定された強度値に関する情報が含まれているが，これらはCNNには提供されていない。これらを組み合わせることで、元の画像キャプチャの照明やスケールに関するコンテキストが得られる。これら58の幾何学的測定に関する詳細はEllen et al. ### Procedures それぞれの評価について、データをトレーニング用に80％、検証用に10％、テストセットとして10％に分割しました。これらの分割比率で10個の異なるランダムに選択されたセットを複製試験として生成しました。ほとんどのアルゴリズムは、定義された範囲（通常は[0-1]または[-1～1]）の特徴量を受け入れるように設計されています。以前の研究では、4つの異なるホワイトニングと正規化技術を検討した結果、我々の画像では領域ごとの正規化が最も効果的であることがわかりました(Graff and Ellen 2016)。一般的にグローバルコントラスト正規化と呼ばれ、画像の平均値が各ピクセルから減算され、その結果が元のピクセル値の標準偏差で除算されます。メタデータ測定の各タイプは、他のものとは異なる尺度（例えば、温度やサンプリング深度）を持っているので、我々はまた、その観測から測定の平均値を減算し、標準偏差で割った。すべての正規化は、各レプリケートの訓練データの80％の分割を使用して計算しました。各モデルをデータの各レプリケートに対して校正しましたが、これは一般的にハイパーパラメータ・チューニングと呼ばれるプロセスです。特徴に基づくアルゴリズムの中には最小限のチューニングを必要とするものもあるが、CNNは強力なモデルを実現するためにはより慎重な評価が必要である。一つのCNNを訓練するには、画像上でのネットワークの性能を評価し、ネットワークの重みを調整して、良い性能を補強し、悪い性能を変える。これは通常，画像のうちの1つを置き換えずにランダムに選択し，それを処理した後，別の画像を選択することによって行われる．用語「エポック」は、ネットワークが各訓練画像を１回ずつ見ている状態を説明するために使用される。このワークフローは、多くの異なるオプションとハイパーパラメータを作成し、それらのすべてが評価されたわけではない。複数の画像を同時に評価するために、バッチサイズを25とし、スループットを向上させた。エポック数を40に制限しましたが、この制限はほとんど必要ありませんでした（停止基準および他のハイパーパラメータの選択に関するガイダンスについてはBengio 2012およびSmith 2018を参照してください）。我々はまた、全体的な精度を向上させるために合成例を生成することを含むデータセットの増強（Dai et al. 2016; Dieleman et al. 2016b）を評価する。我々の画像は既知のピクセルピッチでキャプチャされ、画像は我々のセグメンテーションプロセスによって中心化されているので、我々は水平反射、垂直反射、および回転のみを評価した。 ### CNN architecture 我々はCNNを異なる応用領域からのネットワークを採用するのではなく、de novoで訓練した。これは、de novoの結果が今回の研究と以前の研究(Graff and Ellen 2016)の両方で顕著に優れていたからである。初期のネットワークはほぼランダムな重みを持ち、識別力はない。学習率は、学習している間に、重みの量を調整している。学習率は、最新の例に応じて重みが調整される量を制御し、重要なハイパーパラメータである。我々は、初期学習率の修正に加えて、すべてのネットワーク値を更新するアダム最適化アルゴリズム（Kingma and Ba 2015）を使用した。2つの初期化アルゴリズムは、Lasagne/Theanoソフトウェア（Glorot and Bengio 2010; He et al. 2015）を通じて利用できるようになっている。我々は両方を評価したが、有意な差は見られなかったので、前者を使用した。ネットワーク形状は結果に大きな影響を与え、活発な研究分野である(Lee et al. 2015; He et al. 2016; Sabour et al. 2017; Szegedy et al. 2017)。我々は、VGG-16モデル（Simonyan and Zisserman 2014）に基づいたネットワーク形状を実装したが、224×224の画像で1000通りの分類問題があったため、より小さなスケールで実装した。我々はまた、すべての層にサイズ3×3の小さなフィルタと整流線形単位活性化関数（ReLU）を使用しましたが、それ以外の場合、我々のネットワークの畳み込み部分は、彼らのネットワークの約4分の1のサイズでした。我々は、16、32、32、64、64のフィルタを持つ合計5つの畳み込み層を持ち、各層の間にプーリング層を設けた（図4）。プーリング層は、最大値プーリングを使用して、1つの層から次の層への入力サイズを半分に減らす役割を果たしています。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/025b6ebd-917c-4cd6-b444-229596488d48/lom310324-fig-0004-m.jpg VGG-16と関連モデルのもう一つの重要なアーキテクチャの詳細は、分類を決定する最終的なソフトマックス層の前に、完全に接続された層のニューロンを使用していることです。ハイパーパラメータの調査として、これらの完全に接続された層のサイズを小さくし、VGG-16で使用されていたものよりも少ない層と小さい層（8分の1以上）で構成された構成にたどり着きました。畳み込み層は画像の画素を操作するように設計されているため，メタデータを直接畳み込み層に融合させる手段はない．追加のコンテキストメタデータを組み込むための1つのアプローチは、メタデータの値を最後のネットワーク層に連結することである。これは、Tangら(2015)が彼らの5ポイントの精度向上を達成するために使用したアプローチである。その代わりに、図5に模式的に示すように、完全に接続された層に早い段階で特徴を組み込むと、より良い精度が得られることがわかります。メタデータ・インタラクション（Metadata Interaction）と呼ぶ我々の最良のモデルは、最終的なプーリング・レイヤーの出力と特徴の間に何らかのインタラクションを可能にします。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/573ae971-ec44-485e-a2f1-baaa40e63d93/lom310324-fig-0005-m.jpg 図5は、図4の「分類」とラベル付けされた破線の右側に、最終的に完全に接続された層のバリエーションを示しています。これらの４つのアーキテクチャはすべて、５つの畳み込み層と５つのプーリング層の同一の構成を有している（図４ｂ）。完全に接続された層では、各ニューロンの出力は、後続の層のすべてのニューロンの入力にルーティングされ、各経路に重みが付けられている。したがって、完全に接続された層の出力に適用される重みの数は、その層のサイズと後続の層のサイズの積となる。入力が画像からのものであるかメタデータからのものであるかにかかわらず、それらはニューロンとして実装されているので、これらの層のバリエーションはすべて、畳み込み層と同じアルゴリズムを使用して訓練される。我々が選択した「メタデータなし」アーキテクチャは、畳み込み層の出力を、512個のニューロンからなる2つの連続した層にルーティングし、その後に27個のニューロンからなる層が続き、結果として合計で〜278k個の重みが得られます。図5-図示されていない畳み込み層は、図示されているすべてのモデルで同一の構成で、～700キロの追加の重みを含んでいる）。もし93個の特徴のベクトルをすべて最後の層に連結すると、そのCNNはメタデータなしのオプションよりもわずかに重みが増えることになる。したがって，この単純な連結モデルでは，完全に連結された層が512，256，128，27と小さくなっています．メタデータを追加した後の重みは～193 k個しかなく、精度の向上はコンテキスト・メタデータによるものでなければならないことを確実にしています。我々のメタデータ相互作用モデルはさらに制限されています。単純連結（256, 128）と同じレイヤ構造を使用しますが、CNNで抽出された特徴の代わりに、メタデータを複数の完全に接続されたレイヤを経由しているため、重みの数はどちらよりも大幅に少なくなっています（～74 k個の重み）。あるいは，メタデータを単一のレイヤーに通し，抽出された特徴と組み合わせ，さらに完全に接続された2つのレイヤーを使って，合計257 k個の重みを得ることもできる．これらは、193 k、74 k、257 kという最大の数字であり、93個のコンテキストメタデータ特徴をすべて使用していることに対応している。ドロップアウト（Hinton et al. 2012）は、「確率的正則化技術」（Srivastava et al. 2014）として作用する。ドロップアウトは、ネットワークの残りの部分を強化するために、ネットワーク内の一部のニューロンの出力をランダムに無視するという概念であり、ほとんどの場合、有益である。我々は、ドロップアウトがピクセルデータとコンテキストメタデータの両方に与える影響を評価する。 ### Performance metrics 我々は、我々の各モデルについてバイナリ精度を報告する。ここでは、原産地のクラスに関係なく、正しく分類された画像には完全なクレジットが与えられ、正しく分類されなかった画像には何も与えられない。混同行列は、真/偽の正と負のクラス固有の分布を解釈するために使用されます。提供されている場合、タイミング情報は、データの単一複製のトレーニングとテストのためのシングルスレッド計算のためのものである。データセットをメモリにロードする時間は含まれていません。我々のボックスプロットは、四分位範囲の内側1.5倍に相当するウィスカを表示し、個々の試行の結果を円として重ね合わせて、訓練されたモデルの分布を示しています。トライアルの数は10回（各レプリケートに1回）と少なく、20回を超えることはほとんどありませんでした。 ## Assessment ### Feature‐based algorithm assessment 評価した5つの特徴ベースのアルゴリズムのそれぞれについて、総合的に最高の性能を発揮する値を選択するために、さまざまなハイパーパラメータを評価しました（図6）。ヒートマップは、我々が評価した最も影響力のある2つのハイパーパラメータの各組み合わせの平均値を10倍に渡って示しています。最も重要なハイパーパラメータの値（図6、右の列）について、すべての試行における分散を調べることで、これ以上の検索は必要ないと判断できます。図６の右列パネルの左端のバーには、最適でない組み合わせが含まれており、中央のバーには、重要なハイパーパラメータを１インクリメントだけ調整した結果、右端のバーには、さらに１インクリメントだけ調整した結果が示されている。右端の値は精度の向上はほとんど見られませんが、いずれも計算コストが大幅に高くなっています。例えば、正則化の強さが100、1000、10,000の中程度のデータセットの単一レプリケートでのSVMの収束までの時間は、それぞれ2時間、6時間、34時間という結果になりました。したがって、真ん中のバーは、すべての追加評価で選択されたハイパーパラメータの組み合わせを表しています。ランダムフォレストベースの3つのアルゴリズムについて、我々の評価に最も影響を与えるハイパーパラメータは同じです（RFC、XRT、GBC、図6a-f）。これらのアルゴリズムはそれぞれ、構築される森林の最大サイズ（推定量の数）と、各木/切り株で考慮される特徴の数（最大深度）に制約を持っています。SVMについては、決定境界のカーネル係数（ガンマ）と誤差項の強さを決定するペナルティ・パラメータのグリッド探索を行うのがベスト・プラクティスです（図6i,j）。どちらも幾何学的/指数関数的な増分で評価することが推奨されています(Hsu et al.2003)。我々のMLPは、アダム最適化アルゴリズムと、デフォルトのパラメータである整流線形単位活性化関数を使用しており、これも我々のCNNアーキテクチャと同じである。MLPの形状は、ニューロンの「隠れた」層の数と各隠れた層のニューロンの数のハイパーパラメータによって決定される（隠れた層は入力層と出力層の間にある）。我々は2つの異なるネットワーク形状を評価しました。1つは同じ大きさの層が2つあるもの（長方形）、もう1つは3つの層があり、それぞれが前の層の半分の大きさのもの（三角形）です。第二のハイパーパラメータは、ベース層の幅である（図6g,h）。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/24ab156b-0851-40ba-9cfe-c85eced95932/lom310324-fig-0006-m.jpg データセットのサイズが特徴量ベースのアルゴリズムの分類精度に与える影響を評価した結果、最大のデータセットが一貫して最良の結果を提供していることがわかりました（図7）。中型のデータセットは小型のデータセットよりも3倍以上のトレーニング画像が含まれていますが、大型のデータセットは小型のデータセットよりも14倍以上のトレーニング画像が含まれていることから、小型のデータセットから中型のデータセット、大型のデータセットへの精度の向上は、トレーニング画像の数に対して線形以下であり、漸近的な性能に近づいていることを示唆しています。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/5bb3ce29-3826-49f0-a417-ca617d3cdf88/lom310324-fig-0007-m.jpg ハイパーパラメータとデータセットのサイズを最適化したところで、次にメタデータに目を向ける。コンテキスト・メタデータを含めることで、5つの特徴ベースのアルゴリズムすべての性能が大幅に向上しました（図8）。中程度のデータセットで評価したアルゴリズムでは、6.9～12.2％ポイントの向上が見られます。これは、大規模データセットを幾何学的データのみで使用した場合の利点と同様である（図７）。地形メタデータと水路メタデータの影響はほぼ同じであり、両方を含めることで全体的に最も高い分類精度が得られます。サイズが約 2 倍（58 から 93）になったことで、特徴量ベースのアプローチは、メモリを使い切らずに完全に訓練することができなかったり、無限に継続したりしたため、その結果は示されていません。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/231f95b7-fa16-4229-9819-ae32c7c9c666/lom310324-fig-0008-m.jpg ### CNN assessment CNNは性能に劇的に影響を与えるハイパーパラメタが多いので、より予備的な調査が必要である。性能に最も大きな影響を与えるのは学習率と正則化の強さの2つである．学習率の影響は正則化の影響よりもはるかに強いが，両方とも正則化=0.0001で局所的な最大値を持つことがわかった（図9）．CNNアーキテクチャが成熟するにつれ、この評価を再検討したが、両方の値を0.0001に設定することが、我々のデータにとって最適であることに変わりはなかった。以降の図はすべてこの値を使用している。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/04266e09-da38-46fc-a682-9e8dc0d60630/lom310324-fig-0009-m.jpg 水平方向と垂直方向の画像反射の増強戦略は、より大きなデータセットよりも、我々の媒体の方がパフォーマンスに強い影響を与えます（図１０）。我々の実装では、各エポックの各画像に対する各反射操作の実行時に50％の確率で、追加の計算要求がなかったので、以降のすべての図でこの拡張を使用した。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/e45db393-5cc2-4369-8d2f-39d0d8f6628c/lom310324-fig-0010-m.jpg 我々は、ある特定のニューロンの出力が無視される確率を増加させることで、ドロップアウトの影響を評価しました。中程度のデータ・セット（図11a）では、ドロップアウト確率と精度の間にほぼ単調な関係が見られましたが、大規模なデータ・セット（図11b）では無視できるほどの影響は見られませんでした。図11は、完全に接続された層のニューロンのみにドロップアウト確率を適用した場合の結果を示しています。このように、データセットが大きい場合のドロップアウトの影響が限定的であるという我々の発見は、ドロップアウトが広く利用されているために注目に値する(Srivastava et al. 2014)。ドロップアウトを使用してもパフォーマンスが低下することはなく、機械学習アプリケーションで広く使用されているので、我々は現代の慣習に沿って、我々の評価の残りの部分にドロップアウトを使用することを選択しました。50%のドロップアウト値が中程度のデータ・セットに最も有益であったので、残りの評価に50%のドロップアウトを使用しました。選択したベースライン手法に到達する前に、多数のネットワーク構成を評価しました。このベースライン・メソッドは、評価した他の代替案と同等かそれ以上の性能を示しました（図12）。我々のベースラインモデルは、図４に示すように、５つの畳み込み層（１６個のフィルタ畳み込み層、プール層、３２個のプール、３２個のプール、３２個のプール、６４個のプール、６４個のプール）を有する。図１２で「ベースライン」とラベル付けされたこのモデルは、図１２で「フューラーレイヤー」とラベル付けされた３つの畳み込み層（１６、プール、３２、プール、６４、プール）を有する同様のモデルと比較して、1.5ポイントの精度の向上が見られた。畳み込み層にドロップアウトが適用されたモデル（図１２-「より多くのドロップアウト」）、および狭く完全に接続された層（５１２、２５６、１２８、２７-図１２-「狭く完全に接続された層」）は、３つの完全に接続された層を有する我々の選択されたベースライン構成（図５-５１２、５１２、２７）よりも低い精度を有していた。3×3フィルタの代わりに5×5フィルタを代用すると，必要なメモリ量は3倍になるが，ほぼ同じ結果が得られる（図12-"5×5フィルタ "と "ベースライン "の比較）．図3に示すように，最小のデータセット(25 k ROI; 1クラスあたり1 k)でも，ベースラインCNNの精度は，最大のデータセット(350 k ROI; 1クラスあたり最大5 k)での特徴ベースの分類器の精度を上回っている．我々のCNNは，収束時間と学習例数との間にほぼ直線的な関係を示し，小さなデータセットでは1-2時間/試行，最大のデータセットでは8-12時間/試行であった． https://aslopubs.onlinelibrary.wiley.com/cms/asset/9d73a244-5561-4d63-bf86-91c6538d6141/lom310324-fig-0011-m.jpg https://aslopubs.onlinelibrary.wiley.com/cms/asset/fa32cb50-7127-4f87-b065-9688c11bc633/lom310324-fig-0012-m.jpg ベースラインCNNを選択した後、ピクセル情報をコンテキスト・メタデータで補強した場合の効果を分析した（図13）。地点情報と水路情報の両方のメタデータは、個別に分類精度を有意に向上させる（p < 0.001; 図13）。しかし、地形メタデータと水路メタデータを組み合わせた場合には、それぞれのメタデータを単独で用いた場合と同等の分類精度が得られ、特徴量の重複や冗長性を示唆する可能性がある。このように，それぞれを個別に幾何学的メタデータと組み合わせることで，性能を向上させることができる．この結果を説明するための一つの可能性として、幾何学的メタデータには元々の関心領域のサイズに関する情報が含まれており、それだけでは価値があるとは言えなかったが、深さや温度が与えられたサイズは識別価値があるかもしれないということが考えられます。3種類のメタデータをすべて使用することで、90.5%の精度が得られます。そこで、残りの分析は93個の特徴をすべて利用して行うことにした（表2）。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/1e08fa67-f5e4-4463-ac9e-07b78ca7d67b/lom310324-fig-0013-m.jpg メタデータの組み込み方が精度に影響することがわかった。完全に接続されたレイヤーに早期に特徴を組み込むと、より良い精度が得られました（図14）。我々の単純連結メタデータモデルは、メタデータなしのモデルよりも全体的に重みが小さいだけでなく（図5-193 k vs. 278 k）、具体的には、512, 256, 128, 27の完全連結層が小さくなっている。上では、この構成は、512,512,27のレイヤを有する構成よりも効果が低いことを示した（図12）ので、得られる精度はすべてメタデータの取り込みによるものでなければならない。メタデータインタラクションはメタデータに対してより多くの重みを必要とするので、我々はピクセルベースのデータから完全に接続されたレイヤを完全に削除し、単純連結モデルに対するメタデータインタラクションモデルからの改善のすべては、ネットワークのサイズや形状ではなく、メタデータとインタラクションからであることを示す証拠を提供する。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/8e23af24-4169-4a17-b200-289e947a1c03/lom310324-fig-0014-m.jpg メタデータに由来する特徴を含む完全に接続されたレイヤにドロップアウトを適用することは、精度に有害であることがわかった（図１５）。メタデータのドロップアウトは、ピクセルのドロップアウトが除去されていても（図１５ａ）、特に高いドロップアウト分率では有害である。メタデータのドロップアウトは、大集合では不利である（図１５ｂ）。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/210eae64-98e2-4f41-9334-90f1342be999/lom310324-fig-0015-m.jpg さらなる精度を追求するために、より高度なCNNアーキテクチャを調査した（図16）。Cyclic Pooling and Rolling（Dieleman et al. 2016b）は、はるかに長いランタイム（5-8×長い）を犠牲にして精度を向上させることが示されている。我々のメタデータ相互作用モデルは、Cyclic Pooling and Rollingとほぼ同等の利点を提供します（中央値90.70% vs. 90.40%）。各レイヤのフィルタの数を2倍にすると、実行時間が50%長くなる代償として、わずかなパフォーマンスの向上（90.92%）が得られます。代わりにレイヤーの数を2倍にすると、100%長いランタイムを犠牲にしてパフォーマンスの向上が小さくなります。サイクリック・プーリングとローリングは、メタデータを使用して、異なるネットワーク・サイズにまたがっても有益です。サイクリック・プーリングは単独でも適用できますが、メタデータ・インタラクション＋サイクリック・プーリングとローリングの方が優れており、この組み合わせはメタデータなしでプーリングとローリングを使用するよりも有意に優れています（p < 0.0001）。フィルタの数を2倍にしても、これほど有益ではありません。この結果は、追加のフィルタが他の意味のあるフィルタの回転学習に費やされているのであれば、理にかなっています。したがって、レイヤーの数を2倍にし、周期的プーリングとローリングを用いて増強することは、単にフィルターの数を2倍にするよりも多くの利益を提供します。最良のモデルは、27クラスのデータセットで92.28%の精度を達成しました。 https://aslopubs.onlinelibrary.wiley.com/cms/asset/9bbcd198-f077-4c3d-ae0b-9b075170a7e4/lom310324-fig-0016-m.jpg 図１７ａの混同行列は、メタデータ相互作用、サイクリック・プーリング、およびローリング（図１７ａ）を介して追加されたコンテキスト・メタデータを含む、我々の最高性能モデルのクラスごとの性能を評価している。我々の混同行列は、真の陽性率を優先するために網掛けされている。例えば、テストセットの75匹の魚の幼虫のうち21匹が橈脚類として誤ってラベル付けされていたため、そのセルには強い赤の網掛けがあるが、橈脚類として誤ってラベル付けされた111匹の雪（テストセットの17,889匹の雪のROIのうち0.06％に相当）は、本質的には色付けされていない。図17bは、特定のクラスのメタデータを含めることの利点を示しており、ほとんどのクラスが恩恵を受けていることを示しています。4つの最大の利益は、ナウプリ、ナルコメド科、ユーファウス類、魚類の幼生で見られ、観測されていないクラスの一部に対応しています。メタデータを追加する前には、いくつかのカエトグナートは、以前は他の3つの比較的細くてまっすぐなクラスとしてラベル付けされていました: appendicularians, tentacles, and thread-like diatoms. https://aslopubs.onlinelibrary.wiley.com/cms/asset/3d16d067-5ac4-45a5-ae89-c085459c5f3b/lom310324-fig-0017-m.jpg ## Discussion ### Impact of context metadata コンテキスト・メタデータを含めることで，CNNと特徴ベースの分類器の両方で分類精度が向上することがわかった．CNNの場合、精度の向上は平均1.3ポイントで、CNNアーキテクチャを強化する前に全体の分類精度を90.5%まで向上させた。数値的な増加はわずかではあるが，結果はすべての複製で一貫しており，全体的な精度の系統的な向上を示している．メタデータを含めることでCNNの実行時間も改善され，収束時間が17%短縮された（30.9エポックから25.6エポック）．特徴ベースの分類器の場合，メタデータを含めることで，中程度のデータセットでの分類器の精度が，考慮された手法にもよるが，6.9～12.2ポイントの間で顕著に向上した．我々の特徴ベースのモデルがメタデータに対して過小評価されている可能性があるため，メタデータを追加した場合の影響についての我々の推定値は保守的なものである可能性が高い．メタデータを含むモデルと含まないモデルは、同じサイズでありながら同じ複雑さを持つことはできないので、我々はメタデータを含まないモデルを優先しました。我々は最初に58の幾何学的測定値でモデルをチューニングし、ハイパーパラメータ（決定木の数や深さなど）を一定に保ちましたが、その後、再チューニングを行わずに地時・水文脈のメタデータを追加し、入力を約2倍の93の特徴量に増やしました。メタデータによって実行時間は1.6倍にもなり，特徴量の増加に比例して増加した（58→93）．しかし、ハイパーパラメータの選択は、この増加よりも実行時間に10～100倍の影響を与えた。全体的に見ると、これらは大幅な改善であり、様々な機械学習手法にコンテキストメタデータを組み込むことの明確な利点を示している。メタデータを説明のために3つのカテゴリに分けたが、我々のアーキテクチャではそれらはすべて等しく扱われており、CNNの後の層にメタデータが含まれている。複数のタイプのメタデータを含めることは、通常、2つの理由から単一のタイプよりも優れている。1つ目はCNNアーキテクチャによるもので，強い正の相関が中立や負の相関を上回るため，1つのタイプのメタデータから利益を得ている画像は，通常，中立やわずかに矛盾するメタデータを追加で含んでも害を受けることはありません．第二の理由は、我々のメタデータ相互作用アーキテクチャでは、特徴を組み合わせて分類に影響を与えることができるからです（例えば、特定の温度値は冬と夏では異なる意味を持ちます）。文脈メタデータをCNNに組み込むための12の異なるアーキテクチャを評価した。最もナイーブなメタデータの組み込みでは0.6ポイントの精度向上が得られたが、これは我々の最良のアーキテクチャが提供する利益の半分以下であった。7つのインタラクション・アーキテクチャは、単純連結のアプローチを超えて0.8ポイントでほぼ同じ結果を得た。我々は、好ましいメタデータ相互作用モデルを指定するために、実行効率をタイブレークとして使用しました。しかし、データセット・サイズが350 kの効率的なネットワークは、より大きなデータセットではサイズ不足になる可能性があります。おそらく、コンテキストメタデータを処理する完全に接続されたニューロンを追加した他のアーキテクチャのいくつかは、我々が提示したより単純なアーキテクチャよりも優れているだろう。 ### CNNs vs. feature‐based algorithms CNNが開発される前は，プランクトン画像は主に幾何学的特徴を用いて程度の差はあれ成功していた（González et al. 最近では、CNNがプランクトンの分類問題に応用され、アプローチの可能性を示唆している(Wang et al. 2016; Zheng et al. 2017)。公開コンペ(Robinson et al. 2017)が新たなソリューションを刺激した(Dieleman et al. 2016b)が、プランクトン画像解析のためのCNNを検討する際の具体的な設計の選択についての定量的な評価はまだない。Luoら（2018）はコンテストで得られた知見を検証し、CNNが将来の画像への一般化に成功し、したがって彼らが詳細に概説しているエンドツーエンドのワークフローの一部として使用できることを示した。しかし、彼らの「記述された方法は、特定の機器によって収集された画像に高度にチューニングされている」（Luo et al. 2018）。ここでは、コンテキストメタデータを組み込むことに加えて、さまざまな機械学習の増強を組み込んだCNNの性能を、古典的な特徴ベースの分類器と比較して最適化し、定量的に評価した。その結果、CNNは特徴ベースのアプローチの応用よりも一貫して向上することがわかった。最小のデータセットでは，CNNの計算量は特徴ベースのアプローチを上回るが，データセットのサイズが大きくなるにつれて，CNNはデータセットのサイズの影響を受けにくくなるため，特徴ベースのアプローチはより多くのリソースを必要とする．CNNは画像を個別に考慮するので，データセットのサイズと画像の数には直線的な関係がある．特徴ベースのアルゴリズムは一般的にデータセット全体を集合的に考慮するので、データセットサイズに関して線形よりも急峻にスケールし、SVMは二次関数以上である(Cortes and Vapnik 1995; Pedregosa et al. 2011)。我々の結果は、より大きなデータセットの利点を明確に示しているが、その利点はアルゴリズムがうまく訓練できた場合にのみ実現できる。実際には，より大きなデータセットではCNNの方が扱いやすい．なぜならGPUは何百，何千ものコアを持っており，CNNが依存する計算に適しているからである． CNNの欠点としては、現在のところ直接的な解釈ができないことが挙げられる(Zeiler and Fergus 2014)。対照的に，訓練されたRFCモデルでは，個々の特徴の相対的な重要度や，それらの特徴の特定の値について統計量を計算することができる．CNNでは、フィルタ重みの最初の層はレンダリングできるが、CNNのインタラクション・アーキテクチャのため、後続の層は直接的な可視化を欠いているが、これは未解決の研究分野である(Castelvecchi 2016)。 ## Optimizing machine learning architectures for plankton classification CNNも特徴ベースのアルゴリズムも、最適なパフォーマンスを得るためにはハイパーパラメータのチューニングが必要である。特徴ベースのアルゴリズムについては、ハイパーパラメータ最適化のベストプラクティスに従った。その結果、以前に文献で述べたように、RFCベースのアプローチでは推定器の数と深さに注意を払うこと（Boulesteix et al. 2012）、MLPではネットワークサイズと活性化関数に注意を払うこと（Haykin 2009）、SVMではガンマと正則化に注意を払うこと（Hsu et al. 2003）が性能を向上させることがわかった。訓練データの量を増やすと精度が向上することがわかりました。これら2つの結論は、以前の調査(Ellen et al. 2015)と一致している。我々はCNNをde novoで訓練した。CNNのアプリケーションによっては，植物プランクトン画像で実証されたように，事前に訓練したモデルから始めることで，訓練時間が短縮され，精度が向上することがある(Orenstein et al. 2015)．CNNの学習においては、現在のCNNのベストプラクティス(Bengio 2012; Smith 2018)に従ったが、このガイダンスは急速に進化している。特筆すべきは、ドロップアウト(Hinton et al. 2012)がピクセルベースのデータにはほとんど影響を与えず、コンテキストメタデータ層に適用した場合には有害であることを発見したことである。私たちが評価したデータセット増強は、どちらのタイプも有益でした。反射は実行時間の増加を伴わずに精度を0.34ポイント増加させたのに対し、周期的なプーリングとローリング（Dieleman et al. 2016b）は実行時間を4倍程度増加させる代償として精度を1.6ポイント増加させました。Dielemanら(2015)は、Cyclic Pooling and Rollingの概念を、異なるクラスの回転不変画像(銀河の形態)で最初に試みた。Liら(2018)による回転増大を得る代替的な方法は、我々がLasagneから使用したものよりも効率的であるかもしれない(Dielemanら(2016a))。さらに、Luoら(2018)で述べられているように、追加の訓練画像を収穫するために、初期モデルを使用して、利用可能なラベル付けされていないデータを反復的に処理することで、反復的な増強が可能である。 CNNは特徴ベースのアプローチよりもデータセットのサイズに合わせてスケーリングするので、より複雑で深みのあるアーキテクチャ（すなわちディープラーニング）を検討することが容易になる。公開されている画像分類のためのCNNベンチマークは、19層のネットワークから、7つの別個の22層のネットワークのアンサンブル、152層のネットワーク、そして数千層へと増加している（Simonyan and Zisserman 2014; Szegedy et al. 2015; He et al. 2016）。ResNet（He et al. 2015）と呼ばれる特定のモデルは、LiとCui（2016）によってプランクトンに適用され、控えめな結果であったが、これは不十分な訓練画像の結果である可能性があることを著者らは示唆している。限定的な試験では、我々は、我々の画像の寸法を24層でフィットするようにResNetのバージョン（Szegedyら2017）を修正し、それは我々の中程度のデータセット上で我々の5層のメタデータ相互作用モデルと比較して0.8ポイントの増加を提供したが、〜12倍長い実行時間を犠牲にしました。我々はResNetの50層バージョンを試したが，24層モデルよりもパフォーマンスは劣っていた（0.3ポイント低く，コストは～1.25×長い実行時間であった）．これらの予備的な結果は、50層のネットワークはオーバーフィットであり、24層のネットワークは我々の画像にとって最適な構成に近いことを示唆しています。 ### Metadata limitations 教師付き機械学習アルゴリズムは、トレーニングデータが将来のサンプルの代表であることに依存します。プランクトン画像の分類では、このガイダンスは、サンプリングされた生物の分布だけでなく（Gonzálezら2017）、使用されるあらゆるコンテキストメタデータにも適用可能である。用語「概念ドリフト」（Widmer and Kubat 1996; Gonzálezら2017）は、この将来の分布が定常的でない場合の状態を説明する。メタデータの分布の中には、個体レベルの応答が文脈測定の変化に遅れをとる可能性があるため、個体そのものの画像よりも速くドリフトするものもある。追加の懸念の一つは、メタデータは、訓練セットに十分に表現されていない条件に対してあまり有用ではないだろうということである；全てのサンプルが夜間に収集された場合、一日の時間は情報に乏しい。 ## Comments and recommendations ### Recommendations トレーニングセットは、ほとんどの場合、クラスの比例分布を反映しているはずです。我々のROIでは、原位置で画像化された海雪の割合は90%を超えていますが、我々の最大のデータセットは海雪の割合が50%しかありません。我々は、よりバランスの取れていないデータについて限定的な評価を行い、全体的なパフォーマンスがわずかに向上したことを発見しましたが、そのほとんどは雪のみの精度が向上したことによるものでした。雪以外のクラスの精度はわずかに低下しましたが、雪のカテゴリーでの偽陽性は増加しました。我々はアルゴリズムのエラーを手動で修正することになるので、この結果は上記の混同行列で示されている状況よりも望ましくないことがわかりました（雪以外のROIが雪のラベルで終わるものは非常に少ない）。異なるタイプのエラーに異なるコストを割り当てて異なるタイプの混同行列を作成するペナルティ関数には多くのオプションが存在します(Elkan 2001)が、より大きなデータセットの処理をさらに容易にします。ここでは、訓練された各モデルが独立して画像のラベル付けに使用された場合の結果のみを示すが、実際には、複数のモデルを同時に使用したり、順次使用したりすることができる。複数のモデルを組み合わせて、それ単体よりも高い精度を達成することをアンサンブルと呼ぶ。プランクトン画像上のメタデータを持たない特徴ベースのモデルのアンサンブルは有益である可能性がある（Ellen et al.2015）。ほぼすべての主要な機械学習コンテストでは、複数のモデルのアンサンブルが優勝しているように、アンサンブルの概念はよく受け入れられています(Robinson et al. 2017)。アンサンブルのダイナミクスは、各モデルの有効性だけでなく、各モデル間の相互作用の影響も調べる必要があるため、学術的な分析を困難にしますが、エビデンスはアンサンブルの実装を支持しています。我々のワークフローのほとんどは、1つの例外を除いて、データセットの大きさに関係なく同じです。パフォーマンスの低いモデルを持つ小さなデータセットでは、学習が遅くなったり、不規則になったりして、学習が終わらないことがある。パフォーマンスの低いモデルで計算コストが発生することを防ぐために、エポック数に厳しい制限を設けました。我々の40エポック制限は、小データセットの試行の20％、中データセットの試行の8％、大データセットの試行の2.5％で達成されました。もし、より小さなデータセットでより詳細な調査を行っていたら、それらの試験では40回目のエポックからモデルの訓練を再開するでしょう。 ### Comments 我々のCNNは、プランクトン画像を用いたCNNの他の現代的な評価と比較して、より多くの訓練例、特にクラスあたりの訓練例の数が多いと、有意に小さくなります(Dieleman et al. 2016b; Wang et al. 2016; Moniruzzaman et al. 2017; Zheng et al. 2017)。Luoら（2018）は、"ディープラーニング手法は大量のトレーニングデータを必要とし、108カテゴリに対する我々の42,000項目のトレーニングセットはローエンドにある可能性が高い "と指摘しています。我々の画像の全体的な品質、解像度、およびクラス間の識別性は、先行研究と類似している。過去の研究結果に基づいて、我々のモデルがこれほど少ないレイヤーとフィルターでこれほどの性能を発揮するとは予想していませんでした。予備的な結果として、10層の畳み込み層を持つネットワークがCNNの複雑さに関して漸近的な精度に近づいていることを示唆するものがある。特徴ベースのアプローチとCNNの両方のキャリブレーションプロセスを概説したところ、多くの状況では受け入れられている慣行が維持されていることがわかった（例えば、特徴ベースのアプローチのハイパーパラメータの重要性やCNNの増強など）が、ドロップアウトの利益は以前に観察されていたよりもあまり重要ではないことがわかった。幾何学的、地理的、時空間的、水路的メタデータは、特徴ベースとCNNアプローチの両方において、in situ画像の分類に有用であることがわかりました。コンテキストメタデータは、CNNアーキテクチャの最後の単純な補強として有用であるだけでなく、他の組み込み方法が計算効率が良いだけでなく、精度の面でも2倍有益であることがわかった。 CNNは急速に進化しており，繰り返し層の部分構造（ResNetなど），最適化関数，アンサンブル技術の3つが現在の結果以上に性能を向上させる可能性の高い研究分野として注目されている．最も効果があると思われる4つの要因（データセットのサイズ、適切なネットワークの深さ、データセットの増大、コンテキストメタデータの包含）は、一般的に相加的なものでした。これら4つの要因を最適化しながら、将来的にはディープラーニング手法の構造的な改良を取り入れることで、さらなる進歩を期待しています。