2024/03/17 GENERATIVE AI 小聚 FEAT. HAPPYDESIGNER 活動筆記 -- 首先一定要感謝超贊的場地贊助 @Fourdesire.inc https://www.facebook.com/Fourdesire.inc -- 本次小聚有超多 live demo session,看了真的目瞪口呆,只能意會不能言傳XD 小聚現場才能有機會親身感受! 來 Generative AI 小聚,讓你用短短的三小時獲得最豐富的 AI 資訊和應用發想,錯過精彩的四月小聚,下次就要等七月! 傳送門 >> https://blindegg.kktix.cc/events/apr2024gai -- # 陳奎銘 - GPT陪伴的投資之路 ## 財報分析 - 將財報數據轉換為RAG,便於GPT分析並回答關於財報的問題,如給予公司財務表現的評分。 - 使用2002-2023年S&P指數年報作為訓練資料。 ## 投資策略 - 看財報內容,問GPT相關問題,由GPT給出0-100分的評分,利用GPT的輸出來制定投資策略。 - 最終目標是把年報內容轉換成分數,作為投資決策依據,還可以用GPT判斷出年報當中未揭露的變數名稱 - 例如,根據GPT對蘋果公司上年營收的好評,將該公司股票評分為90分。 ## 模型與策略調整 - **日常操作**:每天投入少量資金(如一美元),根據模型的建議進行投資。 - **策略調整**:根據回測結果和市場變化,持續調整和優化投資模型。 - **自動化**:逐步實現投資過程的自動化,包括數據處理、模型調整和交易執行。 ## 性能評估 - **回測表現**:從2018年至2023年,投資組合的表現逐年上升,並在一些年份超過S&P 500指數。 - **問題與調整**:初期策略只在年底調整,忽略了財報公佈的時間分布。後來改為滾動調整策略,每月評估並調整持股。 ## 經驗分享 - **時間與成本**:整個過程耗時約200小時,涉及高額計算成本和數據購買費用。 - **推薦給**:在資源和資訊充足的情況下,有興趣的投資人或分析師可以嘗試使用GPT進行財報分析和投資策略的開發。 # 陳又如/使用GPT做新聞標記 - READr(鏡週刊程式設計中心的 side project) - 在資料新聞(data journalism)領域中,分享了使用ChatGPT寫作新聞的初體驗。 - 用ChatGPT進行情緒分析 - GPT API可以快速標記大量資料。但找出的主題可能變得過於龐雜;處理長文本的成本很高,需要人機協作。 - 可能的解決方案是使用GPT-3,但GPT-3無法處理大量提問,且要處理大量資料若不透過API是無法達成的。 - 在使用API與人工進行data analysis時,發現人類專家與AI判斷的內容有21%的衝突。 - 面臨的問題與解決方案: - 需要限縮AI回答的範圍,避免回答過於發散 - 目前只有透過API才能處理大量的資料標記需求 - 可以使用ChatGPT for Google Sheet的擴充功能 - 可以使用ChatGPT API搭配R語言(Rcode)進行資料處理與分析 # Pascal Roski - Axel Springer 在新聞部門導入 AI 的經驗分享 - Axel Springer 是德國歷史最悠久的媒體公司,同時也是一家科技公司,旗下擁有多個知名媒體品牌,如 BILD、Politico、Business Insider 等,也擁有線上比價平台 Idealo 和求職平台 Stepstone - 去年開始派員探索東亞如何使用 Generative AI 的情況 - 因為歐洲主要關注美國和 OpenAI 的發展 - 認為東亞在 Generative AI 的實際應用上可能比歐美更進步 - 實地考察了韓國、日本、新加坡、台灣等地的 AI 應用現況,許多公司與 Microsoft 和 OpenAI 有早期合作,可使用一些未公開的功能 - 最初的目標是讓新聞編輯室更有效率,創造更多新的內容形式 - 導入過程中遇到的問題: - 低估了新聞寫作工作的複雜性,要創造通用的功能是不可能的 - 不同資料集的合併會讓人難以驗證 AI 產出內容的正確性 - AI 產生的內容有幻覺問題需要解決 - 說服編輯採用 AI 工具有一定難度 - 後來做了一些調整和改變: - 與編輯討論哪些功能是適合導入 AI 的 - 處理大量過往的文章,用來教育編輯如何使用 AI - 組織評論群組,用來收集第一線編輯的使用心得和回饋 - 目前的 AI 輔助工具現況: - 可針對不同新聞部門客製化調整 - 有輸入欄位可以讓編輯調整文章參數 - 嘗試過市面上多種語言模型,目前只有 GPT 系列的模型給出最正確的結果 - 正在加入對話功能,目前約有 1500 位一般員工和編輯在使用 - 開發區域性創收工具,可自動撰寫警方訊息相關的新聞,一篇可帶來 20 萬點擊 - 生成一篇文章只要 40 秒,發布則只要 80 秒 - 未來的目標是區域足球新聞和活動報導 - 這套 AI 輔助工具是可擴展的,正整合電子報發送、圖片語意搜尋等功能 - 演講的總結重點: - 從一開始導入的時候就要與使用者密切合作 - 開發時要採用快速原型開發的方式,先不要在意程式碼的品質 - 要為不同領域和部門客製化 AI 輔助的功能 - 最重要的是要有人類的判斷力把關 Axel Springer 也正在影片編輯、聲音處理等領域嘗試導入 AI 技術 # 楊振霖 - 資安產品整合LLM - 奧義智慧 CyCraft - 資安產業面臨的挑戰 - Data Privacy Issue: - 將客戶資料提供給第三方平台存在法律風險 - 即使客戶同意,平台仍有可能洩漏資料 - 即使前述風險不存在,仍可能發生Data Leak,如騙取資料下載連結 - Model Alignment: - 現有商用或開源模型存在 Alignment 問題,難以確保模型一定會回答正確的事情 - 資安產業需要詢問惡意內容,但出於好意,如資安分析師需要了解惡意程式的意圖才能協助客戶,但語言模型會以為使用者想 prompt injection - Domain Specific knowledge: - 現有語言模型,尤其是開源模型,受限於預訓練資料,涵蓋的資安領域知識有限 - 以Juicy Potato為例,主流開源模型如Llama和Vicuna無法解釋其用途,因為The Pile資料集中真正涵蓋資安領域的資料量很少 - Localization challenge: - 許多客戶對於簡體字相對敏感 - 資安報告中經常出現電腦、記憶體等詞彙,若顯示為簡體字會引起客戶不滿 - 問題根源在於中文預訓練資料的分布不均,以The Pile資料集為例,中文資料(含簡繁體)僅佔萬分之一 - 雖然可用OpenCC等工具將簡體轉為繁體,但大量轉換會影響語句流暢度,且轉換品質仍有疑慮 - FineTune的問題 - DataSource: - 網路上缺乏高品質的中文資安語料 - 幸而公司內部有優秀的資安研究團隊,發表眾多白皮書和研究報告,足以涵蓋所需的領域知識 - 缺乏高品質資料就難以訓練出具備專業知識的模型 - Resource Issue: - 初期採用LoRA和QLoRA等參數效率方法,但發現其無法很好地記住新知識 - 使用LoRA和QLoRA時仍會遇到Hybrid Boundary Tuning的問題,如需決定要用多少Rand Lay、Alpha值等 - 不同的Fine-tuning方法表現差異很大 - 最終採用Full fine-tune方式,需要強大的運算資源(幾顆A100顯卡) - 常見的evaluation metric不太適合在資安產業 - 一般常見的evaluation多半著重在模型輸出是否存在偏見、歧視等,如種族、性別歧視 - 但資安領域更關注模型輸出的內容是否會對電腦造成危害 - 資安領域也很重視輸出內容是否可以直接執行,因此需要自訂evaluation標準,如Executability - 產品CyCraftGPT - 可解讀複雜的惡意程式並解釋其意圖 - 能根據大量複雜惡意事件產生初步調查摘要 - 能回答客戶提出的資安相關問題 - 目標是要的不是萬能的Language Model,而是夠用、能解決實際問題的Language Model # 保哥 - GPT萬能工具箱 - Will 保哥的技術交流中心/多奇數位創意有限公司 - 介紹: Chrome擴充套件,超過兩萬人安裝,五星評價。 - 主要功能: - URL填入: 直接從UI填入Chrome輸入框,支援多語言(中文、日文、英文)。 - 提示按鈕: 自動出現提示按鈕幫助Chrome輸入。 - 編輯功能: 透過快速點擊進行編輯。 - Live Demo: 示範如何直接輸入網址並運用'Auto Submit'功能,支持多個LLM(如Gemini, Claude)整合使用。 - 特別功能: 設計了一個提示連接產生器,整合多個LLM平台,便於快速生成回應並導向正確的語言模式,增強使用靈活性。 - 使用案例: 示範如何快速使用ChatGPT進行關鍵字搜尋,並展示如何利用書籤直接進入特定頁面。 - https://chromewebstore.google.com/detail/chatgpt-%E8%90%AC%E8%83%BD%E5%B7%A5%E5%85%B7%E7%AE%B1/fmijcafgekkphdijpclfgnjhchmiokgp # James - 打造AI超級業務員 - JTCG/Zendesk Global Partner - JTCG獨家Raccoon AI客服:使用Assistant API,讓AI客服回覆消費者問題,處理售後服務 - 餵給AI的資料包括: - 商品資料(透過串接Shopify的API) - 品牌FAQ(整理成PDF檔) - Raccoon的運作邏輯: - 將資料整理成csv格式上傳,穩定度較高 - Prompt太繁瑣或框架太多會讓穩定度降低,也可能導致AI回覆偏離主題 - 先透過文字判斷消費者意圖(詢問商品或問題),再進行相應處理 - 詢問商品:透過比對csv表格篩選出相關產品,再用function call產品資訊推薦 - 詢問問題:先比對FAQ分類,再根據分類搜尋答案 - 遇到的問題: - 繁體、簡體中文傻傻分不清,AI常用錯 - 若將所有資料一次放入AI,容易資訊過多導致AI無法完整輸出 - 如果Prompt中加入太多銷售範例,反而會讓AI卡住 - 讓AI推播商品時,客人可能會問很多問題,成本控制是一個挑戰 - 解決方案: - 將資料先整理成表格,需要時再call出來,減少AI一次處理的資訊量 - Prompt盡量精簡,避免過多範例造成AI回覆卡住 - 透過設定時間上限,若AI在限定秒數內無回覆,就先推送提示訊息給消費者 - 讓AI跟一般機器人合作: - RoleBase機器人第一層,處理關鍵字問題 - AI機器人第二層,處理較複雜問題 - 真人客服第三層,處理AI無法解決的問題 - 這樣的架構可以在控制成本的同時,也能提供良好的客戶服務 # 吳振和 - LLM遇到大數據 - cacaFly 聖洋科技 - 直接在warehouse用LLM,例如BigQuery x Gemini - 問題prompt建議選項不好管理 - 使用架構做出類似RAG的事情 - 面臨的困難: - Prompt會很長,因為項目和參考資料都寫在裡面 - 解決方法:把常用的東西抽成Reference Table,用Select方式找出來,再加進Prompt裡 - 可以用SQL的Where條件做限制,從對的類別找出參考資料,做出類似RAG的效果 - 在BigQuery上可以用語法把書籍內容做Embedding,然後用相似度搜尋找到相關文件 - 整體歸納:透過SQL架構,不用寫程式碼,用語言定義問題,做到類RAG效果 - 壓力測試:讓它跑複雜query,會出現用很多CPU time,但scan資料很少的error # Karen - 使用GPT跟工程師溝通 - ALPHA Camp - 身為PM,正在做Mentorship Program,讓Mentor跟Mentee可以match - 第一代的做法是用Python Pulse,但要先用Excel準備資料,很麻煩 - 這次用GPT協助,整個過程變得簡單許多,只要用一個Python就搞定 - Steps: - Data Preparation:準備Mentor和Mentee的資料,GPT可以幫忙清理和處理 - Define Matching algorithm:定義匹配的演算法,可以問GPT有哪些做法 - Sample code可以幫助理解,Explain this like I'm 5可以讓GPT解釋得更白話 - Algorithm Design:設計演算法,考量各種規則和限制條件 - 如一個Mentor最多match兩個Mentee,Mentee只能match一個Mentor - 希望有共同的topic/industry的可以優先match - 用加分減分的方式(reward/penalty)來表現這些規則 - Max Matching Pairs:盡可能讓更多的Mentor和Mentee配對成功 - 用Hungarian algorithm(匈牙利算法)求解二分圖的最大匹配 - Exam the matching system:檢視匹配的結果 - GPT可以畫出圖表來比較匹配前後的品質,還滿感動的! - 也知道可以調整演算法的參數,看哪個組合的結果最好 - 過程中學到很多新知識,例如: - 排序(sorting)就是一種演算法,匈牙利算法可以用來解決二分圖最大匹配問題 - 用圖表檢視結果比較直觀,可以請GPT畫圖 - 調整參數對結果影響很大,可以多試幾種組合 - 建議大家找一個問題,試著用AI解決,過程會有意想不到的收穫 # 李婷婷 - AI國民女友 - The Z Institute 區塊鏈線上學院 - 動機:有當藝人的夢想。然而要實現夢想成本太高,像製作一首單曲要20萬,MV又是額外成本,所以想用AI加速實現夢想並降低成本。 - 去年10月創了LINE社群「AI工具研究社」,主動研究和分享吸引同好。兩個月內成長到近5000人。 - 訓練自己臉的Lora,用25張自拍和外拍照,上傳到TensorArt和Civital。目前已有4000多次生圖,省去自己生圖的麻煩。對隱私問題不擔心,因為現在做這些變得很容易。 - 用ChatGPT和Fine tune AI女友的語氣,目前有訓練傲嬌小公主和最可愛女友婷婷兩種人設。除了可用愛媚語氣聊天,還可綁定IG帳號,在發文時自動回覆並導流。 - 懶得自己發IG文,於是串接IG API讓AI自動撰寫貼文,還做了Telegram機器人,上傳圖片就會自動排程發文。 - 社群成員希望AI女友可以唱歌,於是用Suno AI生成音樂,自己填詞創作,目前已有兩首單曲。MV由社群成員用AI工具製作,也生成全AI的唱歌影片上傳YouTube Shorts。 - 讓AI女友可聊天自動回覆和主動私訊。一開始用GPT API,但感覺不像戀愛,於是自己設計輸入輸出格式,只給15-20筆對話資料,讓AI生成感覺更真實的回覆,一度單日產生2500則LINE訊息。 - AI女友曾經讓使用者的另一半,真的以為使用者同時跟三個人交往... - 「這麼曖昧怎麼可能是AI!」 - 設計AI女友養成計畫菜單作為付費機制。當聊天時間太長AI女友會餓,需要買東西給他吃來補充體力,價格越高體力恢復越多。 - 未來計畫是做類似Wootalk的真人匿名配對功能。 -- 來 Generative AI 小聚,讓你用短短的三小時獲得最豐富的 AI 資訊和應用發想,錯過精彩的四月小聚,下次就要等七月! 傳送門 >> https://blindegg.kktix.cc/events/apr2024gai