### 2021 年度 キオクシア・電気通信大学 共同研究報告書 # 半導体検査画像の分類への深層学習の応用 今年度は、半導体のSEM画像の欠陥の判定への深層学習の応用に取り組みました。 1. 物体検出のための深層学習モデルをレビューして、SEM画像にアノテーションを付与し、異常検出に用いた。 2. 中央部分をアルファブレンディングでマスキングした画像から画像クラスタリングによってシーン分類を学習し、マスキングなしの画像の分類学習をシーン別にファインチューニングすることで、分類精度を向上させ得ることを示した。 用いたデータは、次の表にある10分類がなされている半導体製造工程からのSEM画像です。ISSM2020 AI Challengeの実施組織によって、すべての写真にこれらのラベルの一つが付与されています。 ![](https://hackmd.io/_uploads/HybfFcgvc.png) これに私たちは次のような背景ラベルと、欠陥の位置のアノテーションを付与しました。 ![](https://hackmd.io/_uploads/rJrBYcxvc.png) これらを用いて、次の結果を得ました。 欠陥ラベルを学習したEfficientNet B5によるテストデータの分類精度が79.43%なのに対して、アノテーションを付与したデータを学習したYOLOX(物体認識モデルの一つ)は75.71%でした。 ![](https://hackmd.io/_uploads/rkfNoqgvc.png) 画像の中央部分をアルファブレンディングを用いてマスキングした画像と背景ラベルに基づいて画像クラスタリングを学習したSCANでシーン分類を行い、同じく欠陥ラベルを学習したEfficientNet B5を更にファインチューニングすることにしました。 ![](https://hackmd.io/_uploads/ryVk6cevc.png) これを用いたところ、性能を落とさず、層別の改善を実現できました。次の表の左側がEfficientNet B5による結果、右側が提案手法による結果です。 ![](https://hackmd.io/_uploads/HyIjyjeP9.jpg) 薄片、汚れ、壊れ、紐、粒子において改善できています。薄片以外は頻度が少ないクラスであり、アンバランスなデータからの学習に、提案する手法のような層別学習が寄与する可能性を示唆していると考えています。 またこれらの取り組みを通じて、学習データが少ない場合には、欠陥発生部分の特定に物体検出モデルを適用してマスキングを自動で施すより、欠陥部分に当たりをつけてマスキングする方が、工数が少なく、精度が向上するとの知見を得ました。 ## 以下、今年度の補足 この共同研究は、2019年7月に株式会社キオクシアと電気通信大学の間で結ばれた連携協定に基づいています。深層学習の応用として2019年度には、折原先生にご指導頂いて、種類ごとに粒径分布が異なる粒状素材の写真から、それぞれの種類を画像分類で学習できるかという問題に取り組みました。2020年度も引き続き折原先生にご指導を頂き、半導体生産技術国際シンポジウム(ISSM)に参加して、半導体製造現場からの SEM画像中の欠陥の画像分類に取り組みました。2021年度には伊藤様、藤原様、鳥井様、Ng様、山根様にもご参画頂いて、単なる画像分類以上のことを目指しました。 この3年間の成果の概要は次の通りです。 |年度|概要| | ---- | ---- | |2019年度|深層学習の画像分類モデルが粒状素材の粒径分布の分類を学習できることを示した| |2020年度|半導体のSEM画像の深層学習による画像分類に取り組みながら、レビューを進めた| |2021年度|SEM画像を欠陥発生箇所のシーン分類に基づく層別学習が分類精度を改善する可能性を示した| 本報告は主に、2021 年度の成果の報告です。 研究の開始当初は、SEM画像を入力、欠陥の分類ラベルを出力とする画像分類の問題として捉えました。深層学習モデルを古いものから追いかけ、VGG、ResNetなどを通過して、EfficientNetに辿り着きました。またデータ拡張も 標準で使用するようになり、RandAugmentを定石としています。 その議論の中で、ISSMから提供を受けたデータに偏りがありそうなため、データ自体を分析した方がよいという 示唆を頂きました。それで深層学習に基づく画像クラスタリングのモデルを幾つか(SPC、SCAN、SPICE)を試す中で、どうにか扱えた SCAN を用いるようになりました。 ここから、研究を二手に分けました。 粒径分布の分類からずっとこの研究に従事してくれていた古橋くんには、半教師学習をイメージして、次の方針で研究を進めてもらいました。第II部は、粒径分布の分類とSEM画像中の欠陥の分類に取り組んでくれた古橋くんの成果です。副産物としてすべての学習データにアノテーションを付与して、物体検出を学習し、検証データに適用した際の精度評価も行いました。 1. 学習データ中の画像の一部にアノテーションを付与して物体検出を学習させる 2. 学習データ中の残りの画像に物体検出を適用して、アノテーションを予測する 3. 予測したアノテーションに基づいて、学習データの画像を切り取る (確信度 0.3 以上、第一位のアノテーションのみ) 4. 切り取った画像を学習データに加えて、画像分類を学習させる 2021年度の後期から加わってもらった岩塚くんには、画像クラスタリングの活用に取り組んでもらいました。またキオクシアの皆様との議論を経て、青色で示す改善を行いました。第III部は、SEM画像のクラスタリングによるシーン学習と、シーンごとの層別の画像分類に取り組んでくれた岩塚くんの成果です。 1. 学習データの欠陥ラベルの画像分類を、データ拡張を適用して学習する 2. 学習データに背景ラベルを付与する 3. シーン分類を意図して、画像中央無を薄くするマスクをアルファブレンディングで適用し、背景ラベルに基づいて画像クラスタリングを学習させる 4. 学習したクラスタリングを用いて、学習データをクラスタに層別する 5. クラスタごとに画像分類を学習させる ⇒ クラスタごとに画像分類をファインチューニングする 学生たちの研究完了後に幾つかの論点が浮かび、それらへの対応を行いました。 1. データ拡張のやりすぎの可能性は検討しました 2. マスクの決めうちにオートエンコーダによる異常検知を用いるのは、オートエンコーダをチューニングしきれず断念して、マスクの方が単純と判断しました 以上から、シーン分類を用いた層別学習の成果と、物体検出を用いた分類を比較して、提案手法の方が精度が高くなることを確認しました。