期中專題報告：機器學習商品自動化分類

# 期中專題報告：機器學習商品自動化分類 ## 封面大家好我是施宏勲，今天要分享我的期中報告。 --- ## 目錄這邊我會分三個部分說明，大概會分為一、問題與目標二、資料來源最後則是解決方法 --- ## 一、問題與目標我們公司主要提供 CRM、電商系統以及 AI 智能行銷客服等服務。在實際合作的客戶中，我們發現一個常見的問題：客戶在後續上架商品時，商品分類與標籤設定都需要人工完成，這個動作相當不但花時間，也容易出現錯誤或分類不一致的情況。因此，我希望幫公司建立一個「自動商品分類系統」，讓系統根據商品的名稱或描述，自動預測應該屬於哪一個分類。不過由於法規與隱私的限制，老闆說不能直接使用 production 的真實資料，所以我這次的專案目標是：「利用客戶的電商網站，建立一個透過機器學習商品自動化分類的程式。」 --- ## 二、資料來源由於無法使用內部資料，我決定自行蒐集我們客戶的電商網站，這邊以大買家為例，我想這樣應該也算公司的資料。那之所以選大買家是因為零售商的商品資料夠多，可能比較適合做機器學習。我想簡單先設計一個 python 爬蟲程式，去爬大買家的商品資訊。大致上會去取比如說： - 商品名稱 - 商品描述 - 價格 - 所屬分類（作為標籤）資料蒐集後，我會先進行基本清理： - 移除重複與缺漏值 - 統一文字格式（像是大小寫、標點） - 去除多餘符號或無意義的字接著進行特徵轉換，把文字轉換成數值型特徵，讓模型能夠處理。我目前有查到一些比如說 **TF-IDF** 的統計方式： TF-IDF 是一種用於資訊檢索與文字挖掘的常用加權技術，它能用來從一段文字或一個語料庫中，給越重要的字詞或文檔越高的加權分數，透過詞頻與重要性來表示每個詞對分類的影響。如果時間充足，我也考慮嘗試 **Word2Vec**，它的想法是把每個詞轉成一個向量，向量之間的距離可以表示詞語之間的語意關係，例如「球鞋」和「運動鞋」會比較接近，代表電腦也能理解它們在意思上是相似的。 --- ## 三、解決方法在方法設計上，我大致規劃了整個流程。首先，會先做資料前處理。像剛剛提到的，主要是清理文字、統一格式，然後移除一些無意義的字。接著是特徵轉換。我會使用像 TF-IDF 或 Word2Vec 這樣的方式，把文字變成數值型的特徵，讓模型能夠學習並找出文字之間的差異。之後，我會試著用不同的機器學習模型來比較看看效果。像是邏輯迴歸（Logistic Regression）或隨機森林（Random Forest），看看哪一種模型在商品分類的準確率上表現比較好。最後是模型評估。我會觀察每個模型的預測結果，了解哪些類別容易被誤判、也看看資料本身的分布狀況。最終的目標是希望讓系統在看到新的商品文字時，就能大致判斷出它應該屬於哪一類。