# 期中專題報告:機器學習商品自動化分類 ## 封面 大家好我是施宏勲,今天要分享我的期中報告。 --- ## 目錄 這邊我會分三個部分說明,大概會分為 一、問題與目標 二、資料來源 最後則是解決方法 --- ## 一、問題與目標 我們公司主要提供 CRM、電商系統 以及 AI 智能行銷客服 等服務。 在實際合作的客戶中,我們發現一個常見的問題: 客戶在後續上架商品時,商品分類與標籤設定 都需要人工完成, 這個動作相當不但花時間,也容易出現錯誤或分類不一致的情況。 因此,我希望幫公司建立一個「自動商品分類系統」, 讓系統根據商品的名稱或描述,自動預測應該屬於哪一個分類。 不過由於法規與隱私的限制,老闆說不能直接使用 production 的真實資料, 所以我這次的專案目標是: 「利用客戶的電商網站,建立一個透過機器學習商品自動化分類的程式。」 --- ## 二、資料來源 由於無法使用內部資料,我決定自行蒐集我們客戶的電商網站, 這邊以大買家為例,我想這樣應該也算公司的資料。 那之所以選大買家是因為零售商的商品資料夠多,可能比較適合做機器學習。 我想簡單先設計一個 python 爬蟲程式,去爬大買家的商品資訊。 大致上會去取比如說: - 商品名稱 - 商品描述 - 價格 - 所屬分類(作為標籤) 資料蒐集後,我會先進行基本清理: - 移除重複與缺漏值 - 統一文字格式(像是大小寫、標點) - 去除多餘符號或無意義的字 接著進行特徵轉換, 把文字轉換成數值型特徵,讓模型能夠處理。 我目前有查到一些比如說 **TF-IDF** 的統計方式: TF-IDF 是一種用於資訊檢索與文字挖掘的常用加權技術, 它能用來從一段文字或一個語料庫中, 給越重要的字詞或文檔越高的加權分數, 透過詞頻與重要性來表示每個詞對分類的影響。 如果時間充足,我也考慮嘗試 **Word2Vec**, 它的想法是把每個詞轉成一個向量, 向量之間的距離可以表示詞語之間的語意關係, 例如「球鞋」和「運動鞋」會比較接近, 代表電腦也能理解它們在意思上是相似的。 --- ## 三、解決方法 在方法設計上,我大致規劃了整個流程。 首先,會先做資料前處理。 像剛剛提到的,主要是清理文字、統一格式,然後移除一些無意義的字。 接著是特徵轉換。 我會使用像 TF-IDF 或 Word2Vec 這樣的方式,把文字變成數值型的特徵, 讓模型能夠學習並找出文字之間的差異。 之後,我會試著用不同的機器學習模型來比較看看效果。 像是邏輯迴歸(Logistic Regression)或隨機森林(Random Forest), 看看哪一種模型在商品分類的準確率上表現比較好。 最後是模型評估。 我會觀察每個模型的預測結果,了解哪些類別容易被誤判、 也看看資料本身的分布狀況。 最終的目標是希望讓系統在看到新的商品文字時, 就能大致判斷出它應該屬於哪一類。
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up