2024/03/17 GENERATIVE AI 小聚 FEAT. HAPPYDESIGNER 活動筆記
--
首先一定要感謝超贊的場地贊助 @Fourdesire.inc
https://www.facebook.com/Fourdesire.inc
--
本次小聚有超多 live demo session,看了真的目瞪口呆,只能意會不能言傳XD 小聚現場才能有機會親身感受!
來 Generative AI 小聚,讓你用短短的三小時獲得最豐富的 AI 資訊和應用發想,錯過精彩的四月小聚,下次就要等七月!
傳送門 >> https://blindegg.kktix.cc/events/apr2024gai
--
# 陳奎銘 - GPT陪伴的投資之路
## 財報分析
- 將財報數據轉換為RAG,便於GPT分析並回答關於財報的問題,如給予公司財務表現的評分。
- 使用2002-2023年S&P指數年報作為訓練資料。
## 投資策略
- 看財報內容,問GPT相關問題,由GPT給出0-100分的評分,利用GPT的輸出來制定投資策略。
- 最終目標是把年報內容轉換成分數,作為投資決策依據,還可以用GPT判斷出年報當中未揭露的變數名稱
- 例如,根據GPT對蘋果公司上年營收的好評,將該公司股票評分為90分。
## 模型與策略調整
- **日常操作**:每天投入少量資金(如一美元),根據模型的建議進行投資。
- **策略調整**:根據回測結果和市場變化,持續調整和優化投資模型。
- **自動化**:逐步實現投資過程的自動化,包括數據處理、模型調整和交易執行。
## 性能評估
- **回測表現**:從2018年至2023年,投資組合的表現逐年上升,並在一些年份超過S&P 500指數。
- **問題與調整**:初期策略只在年底調整,忽略了財報公佈的時間分布。後來改為滾動調整策略,每月評估並調整持股。
## 經驗分享
- **時間與成本**:整個過程耗時約200小時,涉及高額計算成本和數據購買費用。
- **推薦給**:在資源和資訊充足的情況下,有興趣的投資人或分析師可以嘗試使用GPT進行財報分析和投資策略的開發。
# 陳又如/使用GPT做新聞標記
- READr(鏡週刊程式設計中心的 side project)
- 在資料新聞(data journalism)領域中,分享了使用ChatGPT寫作新聞的初體驗。
- 用ChatGPT進行情緒分析
- GPT API可以快速標記大量資料。但找出的主題可能變得過於龐雜;處理長文本的成本很高,需要人機協作。
- 可能的解決方案是使用GPT-3,但GPT-3無法處理大量提問,且要處理大量資料若不透過API是無法達成的。
- 在使用API與人工進行data analysis時,發現人類專家與AI判斷的內容有21%的衝突。
- 面臨的問題與解決方案:
- 需要限縮AI回答的範圍,避免回答過於發散
- 目前只有透過API才能處理大量的資料標記需求
- 可以使用ChatGPT for Google Sheet的擴充功能
- 可以使用ChatGPT API搭配R語言(Rcode)進行資料處理與分析
# Pascal Roski - Axel Springer 在新聞部門導入 AI 的經驗分享
- Axel Springer 是德國歷史最悠久的媒體公司,同時也是一家科技公司,旗下擁有多個知名媒體品牌,如 BILD、Politico、Business Insider 等,也擁有線上比價平台 Idealo 和求職平台 Stepstone
- 去年開始派員探索東亞如何使用 Generative AI 的情況
- 因為歐洲主要關注美國和 OpenAI 的發展
- 認為東亞在 Generative AI 的實際應用上可能比歐美更進步
- 實地考察了韓國、日本、新加坡、台灣等地的 AI 應用現況,許多公司與 Microsoft 和 OpenAI 有早期合作,可使用一些未公開的功能
- 最初的目標是讓新聞編輯室更有效率,創造更多新的內容形式
- 導入過程中遇到的問題:
- 低估了新聞寫作工作的複雜性,要創造通用的功能是不可能的
- 不同資料集的合併會讓人難以驗證 AI 產出內容的正確性
- AI 產生的內容有幻覺問題需要解決
- 說服編輯採用 AI 工具有一定難度
- 後來做了一些調整和改變:
- 與編輯討論哪些功能是適合導入 AI 的
- 處理大量過往的文章,用來教育編輯如何使用 AI
- 組織評論群組,用來收集第一線編輯的使用心得和回饋
- 目前的 AI 輔助工具現況:
- 可針對不同新聞部門客製化調整
- 有輸入欄位可以讓編輯調整文章參數
- 嘗試過市面上多種語言模型,目前只有 GPT 系列的模型給出最正確的結果
- 正在加入對話功能,目前約有 1500 位一般員工和編輯在使用
- 開發區域性創收工具,可自動撰寫警方訊息相關的新聞,一篇可帶來 20 萬點擊
- 生成一篇文章只要 40 秒,發布則只要 80 秒
- 未來的目標是區域足球新聞和活動報導
- 這套 AI 輔助工具是可擴展的,正整合電子報發送、圖片語意搜尋等功能
- 演講的總結重點:
- 從一開始導入的時候就要與使用者密切合作
- 開發時要採用快速原型開發的方式,先不要在意程式碼的品質
- 要為不同領域和部門客製化 AI 輔助的功能
- 最重要的是要有人類的判斷力把關 Axel Springer 也正在影片編輯、聲音處理等領域嘗試導入 AI 技術
# 楊振霖 - 資安產品整合LLM
- 奧義智慧 CyCraft
- 資安產業面臨的挑戰
- Data Privacy Issue:
- 將客戶資料提供給第三方平台存在法律風險
- 即使客戶同意,平台仍有可能洩漏資料
- 即使前述風險不存在,仍可能發生Data Leak,如騙取資料下載連結
- Model Alignment:
- 現有商用或開源模型存在 Alignment 問題,難以確保模型一定會回答正確的事情
- 資安產業需要詢問惡意內容,但出於好意,如資安分析師需要了解惡意程式的意圖才能協助客戶,但語言模型會以為使用者想 prompt injection
- Domain Specific knowledge:
- 現有語言模型,尤其是開源模型,受限於預訓練資料,涵蓋的資安領域知識有限
- 以Juicy Potato為例,主流開源模型如Llama和Vicuna無法解釋其用途,因為The Pile資料集中真正涵蓋資安領域的資料量很少
- Localization challenge:
- 許多客戶對於簡體字相對敏感
- 資安報告中經常出現電腦、記憶體等詞彙,若顯示為簡體字會引起客戶不滿
- 問題根源在於中文預訓練資料的分布不均,以The Pile資料集為例,中文資料(含簡繁體)僅佔萬分之一
- 雖然可用OpenCC等工具將簡體轉為繁體,但大量轉換會影響語句流暢度,且轉換品質仍有疑慮
- FineTune的問題
- DataSource:
- 網路上缺乏高品質的中文資安語料
- 幸而公司內部有優秀的資安研究團隊,發表眾多白皮書和研究報告,足以涵蓋所需的領域知識
- 缺乏高品質資料就難以訓練出具備專業知識的模型
- Resource Issue:
- 初期採用LoRA和QLoRA等參數效率方法,但發現其無法很好地記住新知識
- 使用LoRA和QLoRA時仍會遇到Hybrid Boundary Tuning的問題,如需決定要用多少Rand Lay、Alpha值等
- 不同的Fine-tuning方法表現差異很大
- 最終採用Full fine-tune方式,需要強大的運算資源(幾顆A100顯卡)
- 常見的evaluation metric不太適合在資安產業
- 一般常見的evaluation多半著重在模型輸出是否存在偏見、歧視等,如種族、性別歧視
- 但資安領域更關注模型輸出的內容是否會對電腦造成危害
- 資安領域也很重視輸出內容是否可以直接執行,因此需要自訂evaluation標準,如Executability
- 產品CyCraftGPT
- 可解讀複雜的惡意程式並解釋其意圖
- 能根據大量複雜惡意事件產生初步調查摘要
- 能回答客戶提出的資安相關問題
- 目標是要的不是萬能的Language Model,而是夠用、能解決實際問題的Language Model
# 保哥 - GPT萬能工具箱
- Will 保哥的技術交流中心/多奇數位創意有限公司
- 介紹: Chrome擴充套件,超過兩萬人安裝,五星評價。
- 主要功能:
- URL填入: 直接從UI填入Chrome輸入框,支援多語言(中文、日文、英文)。
- 提示按鈕: 自動出現提示按鈕幫助Chrome輸入。
- 編輯功能: 透過快速點擊進行編輯。
- Live Demo: 示範如何直接輸入網址並運用'Auto Submit'功能,支持多個LLM(如Gemini, Claude)整合使用。
- 特別功能: 設計了一個提示連接產生器,整合多個LLM平台,便於快速生成回應並導向正確的語言模式,增強使用靈活性。
- 使用案例: 示範如何快速使用ChatGPT進行關鍵字搜尋,並展示如何利用書籤直接進入特定頁面。
- https://chromewebstore.google.com/detail/chatgpt-%E8%90%AC%E8%83%BD%E5%B7%A5%E5%85%B7%E7%AE%B1/fmijcafgekkphdijpclfgnjhchmiokgp
# James - 打造AI超級業務員
- JTCG/Zendesk Global Partner
- JTCG獨家Raccoon AI客服:使用Assistant API,讓AI客服回覆消費者問題,處理售後服務
- 餵給AI的資料包括:
- 商品資料(透過串接Shopify的API)
- 品牌FAQ(整理成PDF檔)
- Raccoon的運作邏輯:
- 將資料整理成csv格式上傳,穩定度較高
- Prompt太繁瑣或框架太多會讓穩定度降低,也可能導致AI回覆偏離主題
- 先透過文字判斷消費者意圖(詢問商品或問題),再進行相應處理
- 詢問商品:透過比對csv表格篩選出相關產品,再用function call產品資訊推薦
- 詢問問題:先比對FAQ分類,再根據分類搜尋答案
- 遇到的問題:
- 繁體、簡體中文傻傻分不清,AI常用錯
- 若將所有資料一次放入AI,容易資訊過多導致AI無法完整輸出
- 如果Prompt中加入太多銷售範例,反而會讓AI卡住
- 讓AI推播商品時,客人可能會問很多問題,成本控制是一個挑戰
- 解決方案:
- 將資料先整理成表格,需要時再call出來,減少AI一次處理的資訊量
- Prompt盡量精簡,避免過多範例造成AI回覆卡住
- 透過設定時間上限,若AI在限定秒數內無回覆,就先推送提示訊息給消費者
- 讓AI跟一般機器人合作:
- RoleBase機器人第一層,處理關鍵字問題
- AI機器人第二層,處理較複雜問題
- 真人客服第三層,處理AI無法解決的問題
- 這樣的架構可以在控制成本的同時,也能提供良好的客戶服務
# 吳振和 - LLM遇到大數據
- cacaFly 聖洋科技
- 直接在warehouse用LLM,例如BigQuery x Gemini
- 問題prompt建議選項不好管理
- 使用架構做出類似RAG的事情
- 面臨的困難:
- Prompt會很長,因為項目和參考資料都寫在裡面
- 解決方法:把常用的東西抽成Reference Table,用Select方式找出來,再加進Prompt裡
- 可以用SQL的Where條件做限制,從對的類別找出參考資料,做出類似RAG的效果
- 在BigQuery上可以用語法把書籍內容做Embedding,然後用相似度搜尋找到相關文件
- 整體歸納:透過SQL架構,不用寫程式碼,用語言定義問題,做到類RAG效果
- 壓力測試:讓它跑複雜query,會出現用很多CPU time,但scan資料很少的error
# Karen - 使用GPT跟工程師溝通
- ALPHA Camp
- 身為PM,正在做Mentorship Program,讓Mentor跟Mentee可以match
- 第一代的做法是用Python Pulse,但要先用Excel準備資料,很麻煩
- 這次用GPT協助,整個過程變得簡單許多,只要用一個Python就搞定
- Steps:
- Data Preparation:準備Mentor和Mentee的資料,GPT可以幫忙清理和處理
- Define Matching algorithm:定義匹配的演算法,可以問GPT有哪些做法
- Sample code可以幫助理解,Explain this like I'm 5可以讓GPT解釋得更白話
- Algorithm Design:設計演算法,考量各種規則和限制條件
- 如一個Mentor最多match兩個Mentee,Mentee只能match一個Mentor
- 希望有共同的topic/industry的可以優先match
- 用加分減分的方式(reward/penalty)來表現這些規則
- Max Matching Pairs:盡可能讓更多的Mentor和Mentee配對成功
- 用Hungarian algorithm(匈牙利算法)求解二分圖的最大匹配
- Exam the matching system:檢視匹配的結果
- GPT可以畫出圖表來比較匹配前後的品質,還滿感動的!
- 也知道可以調整演算法的參數,看哪個組合的結果最好
- 過程中學到很多新知識,例如:
- 排序(sorting)就是一種演算法,匈牙利算法可以用來解決二分圖最大匹配問題
- 用圖表檢視結果比較直觀,可以請GPT畫圖
- 調整參數對結果影響很大,可以多試幾種組合
- 建議大家找一個問題,試著用AI解決,過程會有意想不到的收穫
# 李婷婷 - AI國民女友
- The Z Institute 區塊鏈線上學院
- 動機:有當藝人的夢想。然而要實現夢想成本太高,像製作一首單曲要20萬,MV又是額外成本,所以想用AI加速實現夢想並降低成本。
- 去年10月創了LINE社群「AI工具研究社」,主動研究和分享吸引同好。兩個月內成長到近5000人。
- 訓練自己臉的Lora,用25張自拍和外拍照,上傳到TensorArt和Civital。目前已有4000多次生圖,省去自己生圖的麻煩。對隱私問題不擔心,因為現在做這些變得很容易。
- 用ChatGPT和Fine tune AI女友的語氣,目前有訓練傲嬌小公主和最可愛女友婷婷兩種人設。除了可用愛媚語氣聊天,還可綁定IG帳號,在發文時自動回覆並導流。
- 懶得自己發IG文,於是串接IG API讓AI自動撰寫貼文,還做了Telegram機器人,上傳圖片就會自動排程發文。
- 社群成員希望AI女友可以唱歌,於是用Suno AI生成音樂,自己填詞創作,目前已有兩首單曲。MV由社群成員用AI工具製作,也生成全AI的唱歌影片上傳YouTube Shorts。
- 讓AI女友可聊天自動回覆和主動私訊。一開始用GPT API,但感覺不像戀愛,於是自己設計輸入輸出格式,只給15-20筆對話資料,讓AI生成感覺更真實的回覆,一度單日產生2500則LINE訊息。
- AI女友曾經讓使用者的另一半,真的以為使用者同時跟三個人交往...
- 「這麼曖昧怎麼可能是AI!」
- 設計AI女友養成計畫菜單作為付費機制。當聊天時間太長AI女友會餓,需要買東西給他吃來補充體力,價格越高體力恢復越多。
- 未來計畫是做類似Wootalk的真人匿名配對功能。
--
來 Generative AI 小聚,讓你用短短的三小時獲得最豐富的 AI 資訊和應用發想,錯過精彩的四月小聚,下次就要等七月!
傳送門 >> https://blindegg.kktix.cc/events/apr2024gai