LLM 在電商平台的落地應用：商品屬性自動化解決方案 - 林儀潤(Vila Lin)

--- GA: UA-34467841-15 --- # LLM 在電商平台的落地應用：商品屬性自動化解決方案 - 林儀潤(Vila Lin) ###### tags: `HelloWorld2025` `HWDC2025` `2025` `A 會議室` `AI 如何改變產品規劃與需求定義` <blockquote> LLM 在大規模資料環境中建構可擴展、成本效益提示管道的實務經驗與可行策略，探討開發過程中遭遇的挑戰與解決方案。深入了解 LINE SHOPPING 如何運用 LLM 從千萬商品中萃取屬性，為關鍵應用提供動力。可擴展且成本效益的系統建置核心策略與方法論開發實戰經驗分享提示工程與少樣本學習技術挑戰與解決方案技術難題突破規模化與成本控制洞察準確性與效能平衡策略聽眾收穫：提示工程和少樣本學習的實務見解了解大型語言應用如何設計以平衡準確性、成本和擴展性從成功方法和失敗中汲取的經驗教訓 </blockquote> {%hackmd @HWDC/announcement-2025 %} ## 會議資訊 **時間：** 13:40 ~ 14:10 **地點：** A 會議室 **日期：** 2025年10月14日 **語言：** 中文 **難度：** 中階 **相關連結：** - [Hello World Dev Conference 2025 官方網站](https://hwdc.ithome.com.tw/2025) [target=_blank] - [Hello World 2025 議程表](https://hwdc.ithome.com.tw/2025/agenda) [target=_blank] ## 筆記區 > 請從這裡開始記錄你的筆記 Role: EC Data Lead ### 資料礦脈那這邊呢,就是一個我們常看到的冰山的圖, 通常我們看到的是海面上的,所以大部分的團隊或是產品端。他們看到的就是我們商品很多,那右邊這邊就是相對來說會產生一些side effects。那像說我們產品很多,就是在微運其實非常耗時間。那如果再往下一層看,在中間層就會發現說我們合作廠商很多的時候,那跑出可能會覺得說產品其實很多元,那其實它的反向的缺點就是產品的亞太會有很大的入場。因為每一個廠商他們會有自己的marketing的需求,他可能會有自己的不同的設計方式。通常大家都會希望做一些Google的曝光,調整一些SEO。這些資訊其實在我們真正應用上是蠻麻煩的, 會造成很多的curve down。那最後一點就是大家最不會發現的就是說, 這項其實是非結構化的。 ### 它可能會有文字或是一些圖片、各式各樣奇怪的訊息。我們真的要做開發,是不太好去使用。好,那我們這邊來講一下說是這種我們如果要去做規格等等的 NLP 傳統的做法就是我們會必須要很規則式的去維譽用很多日文跟時間那就會像右邊這張圖就是打地鼠,就是一個一個坑突然間一直跳出來,那我們其實就是只能邊做邊改邊做邊改,非常麻煩。那另外對於新的產品或... 長尾的商品不熱門,又很少人看,但廠商其實要曝光,對於我們要幫他們做流量,會很不友善。最後這一個,仰賴上下回頭結構化的資訊這個其實在基本上是日本的市場比較好做吧就是日本他們的電商主要就是樂天、亞馬遜那一些他們跟廠商合作其實是會嚴格定義你要給進來的資料照他們的Pattern 但是其實大部分的電廠,像台灣或是新加坡的環境是比較freestyle, 所以這個其實是有一定難度的。那我们期待是可以做到，我们又可以达到准确度要够高，因为大家都知道说。 ### 期望與挑戰但是其實大部分的電廠,像台灣或是新加坡的環境是比較freestyle, 所以這個其實是有一定難度的。那我們期待是可以做到我們又可以達到準確度要夠高因為大家都知道說 LLM 其實本質深層其實還是會有一些幻覺之類的, 但這一塊我們希望東西不要品質不好。然後另外的話就是資料這麼多, 我們不斷迭代希望能夠可以很好去擴充。那最後一點其實是最重要的,就是這一次分享落地這件事,其實在很多產業導入AI,雖然我們可能比較少去談到這一點,就是成本管控,因為你其實去串不管是Chap2D或是Gemini等等的, 他們就是用API收費,那你丟進去的資料, 它是用Token去算。 ### 構築魔法陣乾淨、品質越好,它其實對模型做出來的結果, 費用就會相對比較低。那接著我來講一下就是, 我們在做這個核心的部分是怎麼去做? 既然我們就是要使用這個魔法,那就是有一個魔法陣。那這個其實是比較屬於說,我們在做 Rationality 的時候,裡面有一些常見的步驟。那這個就是從內圈往外圈轉。當我們拿到資料以後,會做資料的清洗。那在3號規格萃取這邊,我們就會去串LLM。模型做出來以後,大家就會理想上說 AI 應該會處理完一切的事情。不過我們剛剛有講到成本這個問題嘛,有些東西其實在 programming 的階段是可以定義出來的。這個就不需要讓AI去做,因為這會帶來一些BIOS, 而且會有成本增加。那這些都做完以後,我們必須要去做一些驗證, 最後才能進行量產。好，那這個就是第一個階段 ### 資料品質的清洗(淨化試煉) 這個就不需要讓AI去做,因為這會帶來一些BIOS, 而且會有成本增加。那這些都做完以後,我們必須要去做一些驗證, 最後才能進行量產。好,那這個就是第一個階段,就是我們要做資料品質的清洗。那清洗呢,其實我們在做這一塊啊,一個很大的... 重點就是我們要最大化SNR,那這個其實是英文的縮寫,就是Signal-to-Noise的Ratio,那我們就是要嘛就是把分母提高, 把 Signal 放大, 要麼就是把你的 Noise 往下降,你分母越小,整體的比例就會越好。那這邊要講的就是說, 因為訊號這件事,我們... 這邊會依賴 LLM 去處理, 那我們能做的就是降低雜訊。所以我們這邊會做幾件事, 第一個是要醫治結構化的雜訊。那所謂的結構化雜訊就是我們必須要先去看過資料, 知道說我們的資料有哪一些比較有結構性。像右邊這邊就有幾個案例, 就是像說電商領域常常會有一些促銷語。就是可能買了一陣、買一送一等等的, 這些會增加我們的Token數。然後第二個表情圖案呢, 其實它會造成模型的誤解。然後裡面最可怕其實是附加資訊,附加資訊這個東西其實是廠商他有時候不想要讓使用者還特別翻來翻去,所以他們其實會在商品的描述或者是Title上面會給像這兩個雲朵的東西。比方說右上角這個,這個其實是家電用品常會用到,就是杯杯機,可能比較近,我收你五百塊,然後哪裡哪裡是多少錢。那這邊出現了所謂的地名那地名這個東西其實在你要萃取的規格裡面有個東西叫產地那對模型而已啦,它其實搞不清楚你這個是運費的或是什麼的,還是這個是真的產地必須這麼講,LOM本身它對整個情境的理解度是很有限的。它現在能做的大部分都是用人類的模型,不然丟進去的資料去... 學到中間的一些相關性。那另外一個,像我們左下角那個女神節免運這個東西,電商很喜歡用一些大的處。那女神節免運會造成什麼問題? 我們的功能裡面有一個是對象族群,這個東西適合賣給什麼人。女神節他會誤以為這個是女生可以用的,沒有,只是這個活動,他其實男生女生都可以買。模型會誤解,我們這麼多商品, 其實如果這樣子要進去是很難發現的。那第二個這個分流極端樣本這一個呢,就是其實我們要去抑制這些結構化的訊息,其實我們也可以另外做一個更前沿的分類,也就是說,如果這個商品的名稱非常非常多,可能不到十個字, 那還有另外一種是非常長,可能有三、四十個字。那這個其實跟一般商品不要混著做會比較好。因為通常我們很短的商品有時候吧,有時候它其實就是我們想要萃取的規格, 比如說是商品的型號。那它寫這麼短,就是剛好寫型號, 但是如果你丟到一般的破文裡面,它可能會因為一些訊息占比分布的問題, 它就被消滅掉。所以分流這個也是... 蠻有意義的。那最後可觀測性就是你做了這麼多,我們要持續去把它追蹤,就是我們去處理這些訊號,有時候會發現意料之外的東西。 ### 詠唱學院 ### 同意藝詞擴展 ### 福利品好,然後再來一個case是這個是電商領域很常會遇到的就是所謂的福利品、神清品、神修品我們可能去買Apple的筆電或什麼會有這樣的東西嘛那下面有很多描述這個真的是千奇百怪,就是二手還常看到的。競犬星、裁縫星、甚至於最扯的會有九成八星。這個東西就是你如果真的寫 Pattern 是寫不完。對,那我們這邊其實是會用算是Visual Learning的方式,讓他去了解一些Case。那慢慢的模型就會比較知道說,這些東西其實就是我們想要target到Flip這個。 ### 法遵強約束那另外這個議題啦,就是因為我們花了蠻多時間跟法務,還有我們的一些團隊,運營團隊去討論這個問題,應該說在我們 LINE 裡面其實會有所謂的 AI Government 的單位那因為 AI 的呃,就是可能會有我們只是會覺得說他可能因為在電商領域其實有非常多的法條,像說消費者保護法或定期化契約這些,這些東西其實會造成我們在銷售一些產品或使用者去下單, 它會有一些法律的問題,甚至會引起一些訴訟。所以我們在做這件事的時候, 其實有加上一個東西,就是強約束的一個複項規則。那這個東西就是我們不想要模型它走回原本就是深層的本質,而是要讓它在我們的範圍裡面去好好做事。 ### 自動生成規格那像這邊的case就是我這邊舉了三個,那像第一個就是用的人應該會最常遇到,就是會自動生成某個東西,在我們這邊就是要做規格萃取。那他就自動生成規格比方說我們要品牌那這個商品其實沒有寫品牌但是最後結果他得到了華碩這是為什麼?因為本身這個商品主機板是標寫的,但LM學習了很多背景,我覺得主機板應該會有個品牌。那他就塞一個話說給你,看起來也沒有錯, 但你如果回去看資料的時候發現這是有問題的,他沒寫。其實這一個本身可能是違心的。那第二個就是變造商品數值,這一個其實不太好察覺。這個就是像說我們要容量,他跟我們說這個商品是6公升。但最後結果其實不是,就是如果你看這事實是它整個有12管,然後500毫升,確實相乘變6公升,但這不是一貫的。最後,正面語言會跟他講說不要自行推論。不要自行推論的意思是說,嗯,這算是 LAM 的特色,算是他的強項。但是有時候就是人家會說出幻覺,我個人會覺得說他比較像是小朋友在看這些資訊的時候,他中間沒有那麼好對這個世界的了解。所以其實100毫安培這個電流被填進去, 其實是因為他從商品描述,就是編碼裡面去解析出來,因為他搞不清楚那個跟電流是不一樣的,它其實是片段的資訊。那最後一個其實是蠻有趣的,就是說我們希望得到產地。那我們一開始做的時候其實很開心, 說哇,產地怎麼大家都拿得到? 那後來發現它其實是一個台灣製的德國風格安全帽那有德國嘛,所以它就被填進去了就是有時候也蠻有趣的那接著這一塊。 ### 範例驅動那後來發現它其實是一個台灣製的德國風格安全帽那有德國嘛,所以它就被填進去了就是有時候也蠻有趣的好,那接著這一塊其實是我們在做LAM, 甚至大家之後有再創一些AI Agent,這一個其實是非常關鍵的一個東西,就是說現在的 LAM 不需要去把這個大模型改做特別的一些 pre-train那通常就是會用到叫 Fusion Learning 或是 Zero-Shot 等等的那這個東西呢其實主要來自於下面這一個 paper,就是這一篇2020年的MetaDataSet這個paper,這個paper非常多人的用,那它其實在講一件事就是說除了我們原本的資料以外, 用來描述資料的那一堆資料,叫MetaData。這些東西在這一篇裡面的實驗, 他們其實發現到說,如果你可以給的資訊他的訊號覆蓋率如果夠高,他其實不用給太多。這個意思是說,我們給的東西要精確、閱精。其實你給三個和給三百個,那三個可能比那三百個好很多。不過大家現在很多的習慣就是一股腦把它丟進去,那最後說出來的結果怎麼會不好? 那三百個其實都沒有代表性,所以我這邊講到說就是其實高品質比較重要。那這一段哪一些要當作一個Sample Case,其實是要做一些實驗。那這個花時間做實驗大家會覺得麻煩,但它的效益在於說我們這些Future Learning的資料其實是要送給OM它就是跟成本是有關係啦,你丟越少你的費用就越低現在可以達到一樣的效果,就是和樂部位。 ### 後處理(附魔工訪) 好,那剛剛講到那些我們用模型做完有一個是我們如果在程式邏輯上、商業邏輯上可以自己做的,我們就用後處理。整理&字幕由Amara.org社區提供我這邊可能沒特別寫到,那它就是會像說我們常常一個手機iPhone,它的商品因為希望更多人收到它,它就會寫說iPhone Pro Max的 128G、256G、512G那這個東西我們真的要用,其實推出來這個容量,那三個值都會達到。那我們就需要一些Domain Knowledge 讓他去把這些pattern切開。那第二個呢,就是單位的標準化。我們下面那個綠色格子裡面就是第一個其實全部都是公分啦。那這邊就是我們有看到大家的各種表示法。那其實真的使用者要搜尋的時候, 我們是要做所謂的標準化。我們最後可能只留下字幕由AI產生,僅供參考。那如果是7,應該是Windows的7。但如果我們真的沒做處理,它出來一定是一堆數字,就變成0份了。那最後一個是品牌制這個東西,就是說其實以寶雅這個例子,寶雅其實我這邊是有三個名稱, 它其實有六、七個同義字,它們都叫寶雅。那對使用者來說它可能會找某一個,都是有可能的。那因為邏輯是我們可以確定的,所以這一塊如果有做得好,其實在使用者要去做搜尋,我們都可以提供很大的幫助。 ### 資源管理那有些人可能會想說,欸不是現在有更好的嗎?嗯,目前試起來其實他的更不穩對,因為他們現在其實把很多多模態合在一起那一塊其實 Chalk2P 還沒有處理的很好,因為我們這邊比較重視穩定性, 所以還是繼續用果果的模型。那批次處理這件事就是... 不知道大家有沒有用過,就是你如果去串它的 Realtime API它的費用跟 Batch API 其實是有兩倍之差你讓它 Batch 去做,你只要一半的錢但缺點是,你丟上去的東西要在他們那邊有一個Job Queue,就是Job Queue,你要等它。那這個後續就是要去做一些系統的架構設計,我們怎麼把不同時間做好的資料拿回來,然後又不會重複去跑。那一件事就是最後這一個,就是增量堆疊。我們每天只會有一部分資料抓出來,讓它跑 LLM 的 Trace 去。那這些萃取過的資料回寫回去以後呢,就是我們可能還會遇到,他可能跑壞掉了,OpenAI最近馬上壞掉了。我們就是必須要讓它可以重新的回滾,這個也是要做一些設計。 ### 守望者之塔那可以做版本的管控,由不同版去做實驗,那它會有很好的效果,你才可以去追蹤你的Prompt調整是不是真的有用。那雙重閉環實驗就是說我們右邊有一個圖,一般我們可能用模型自動化去做一些指標,可能 F1 score 之類的。那另外一個是人類利用這個基礎, 我們再拿一些正確的答案去做驗證,雙重驗證。讓你的資料的準確度可以達到你的標準。我們最後設定這個目標,其實是我們現在要做這種大模型的任務都應該要定,就是你的準確度要多少,還是你要覆蓋率高。像我們準確度其實定就是Percent。 ### 傳承那最後這邊呢,就是一些經驗上的傳承。就是我們這一個方案,其實主要是在做這三件事。就是將我們一般的呃,跟大模型串接這個把它做成系統化。那我知道其實有很多的材料應該可能用 Notebook、Jupyter 就可以做,但其實,呃,這些東西我們需要一直持續的去優化, 就是要做迭代。所以,我們要迭代的時候,其實要去做系統。那這個迭代就是不斷的品質驗證,確保我們的優化不會全面性影響,可以持續的去改善我們想要的一個部分。好,那我最後講一下這邊就是我們的一個經驗啦對,那其實就是不要過度的去相信LNOM那因為它本質其實是生存啦那其實很多人就會像今天我聽到幾位講者會講到說很多企業或老闆就會說你的模型是幾筆臉之類的然後其實業界裡面,應該說他們那些模型訓練驗證的分數可能會是用一些學科啊、考試啊等等的,這些東西在實際落地的時候會有很多的問題。就是你真實行徑,它其實沒有整體動態,然後你去拿去訓練。那所以說,如果你直接把這個模型覺得很棒, 直接這樣做的話,很容易會遇到以前說我們學員人理 open fitting 的問題。你的測試資料跟真實世界根本就是違背。你看到你的模型好像只吸一百分,但用戶端或是業務端覺得這個東西怎麼這麼有問題,不能上線。剛才講了很多事實,另外一個就是,只有唯一方案這個東西就是說我們可能在驗證的時候,就是不要只用一個方法去驗。多設計幾個,你可能現在第一個方案就是MVP階段, 我先用模型的資料來看,第二個可能加一點人工去看。那再來呢,我們可能可以加一些日本商品的抽樣等等的,那越多方案的整個服務就會品質越來越好。 ## 討論區 > 歡迎在此進行討論與 Q&A ## 相關資源 - 投影片連結：(待講者提供) - 相關文件：(待更新)