每周讀書會紀錄

# 每周讀書會紀錄 ## 2024/11/29 * 穿衣技術分享 * imagdressing * ipadapter better * Agent Fabric * 助手功能更新 * 服務使用說明(網站內容) * text to 3D motion * momask bvh檔 * blender骨架綁定+匯出動畫 * unity動畫匯入+綁骨架 * hackmd 公開紀錄 * 訂閱付費改私人 * teams團隊notion ## 2024/11/22 * Agent Fabric * 語音轉文字(teams vs whisper) * whisper無法辦法識別誰說話跟用詞無法修正和斷句 * 會議小幫手沒辦法上傳30分鐘以上的語音檔案 * 報告產製小幫手只能支援單個session * 檔案上傳新增【狀態】 * continue vscode * 串接ollama(免費) * 可以用文字指令打code * 單個function修正 * cline * 適合整篇code的修正 * ScreenAgent * 操控螢幕(根據具體行為去設計，like：點開特定應用程式) * 可能擁有資安問題 * Deepface * 辨識參數(提升辨識同個人的不同角度) * 人臉相似度的距離單位 * 人臉檢測模型(RetinaFace效果最好) * 人臉對齊 * 義大(亞特蘭提斯) * 文字生成骨架動作 * 母片產製(圖生影片+骨架影片=前後景合成) * 人物mask和骨架影片幅度修正 * 前後景可能要分別製作在合成起來 ## 2024/11/15 【義大】 * 鬼屋 * 亞特蘭提斯沉浸式體驗 * 油畫-骨架生成影片 * 蒐集母片 * 客製化商品 * 智慧巡檢 * 入園人數計算 * 巡邏機器人 * 3D人偶模型更換-mysmocap * powerautomate(nina) * 信件提醒 outlook->teams * 提醒事項通知 * AI簡報演講者 * google xxx:簡報轉講稿，每個講者會有不同的演講風格 * futrue sensing diagram demo * 新增首頁 * 流程自動化 * wikidata找資料進行爬蟲資料，新增資料 * 文章內容依照格式進行分類 * 預計新增問答查詢功能 * Agent Fabric * 報告產製小幫手能夠直接上傳PDF * 頁數限制30頁 * 待開發:一次上傳多個文件 * 長照訪視 * 關懷老人問題的延伸 * UI * Agent:監聽問答轉文字，檢測關鍵字 ## 2024/11/08 * living lab 二氧化碳檢測【柏鈞】 * 3D人偶結合神仙變裝境 * mixamo 綁骨架 * webui生圖 * tripSR產3D模型【羿婷】 * tts+musetalk 【宗翰】 * 自動簡報(數位分身) * 上傳投影片 * AI視圖生稿 * tts+musetalk * Q&A 【Sky】 * 數位李登輝 * 國史館提供文件訓練 * 委員會檢查模型是否有不適之處 * 圖書館當導覽員 * 1/15 demo 【Vivian】 * agent fabric * api工具可綁至agent，前端調整中 * 會議記錄limit 30min * 爬蟲資料圖示化 * 大圈公司小圈資訊 * 結構化 ## 2024/02/01 ( 四 ) * 主題：AI生成 * 時間：10:30~12:00 * 主席：Kenny ### 技術分享者：Vivian **【紡織AI生成】** * 緣由：紡織勞力密集>>可用AI取代 1. 手稿生成->切塊較多學術模型可能無法達成 2. 2D擬真材質可增加細節供使用者辨識 3. 3D虛擬試穿資源最多可行 ->目前程度:動作流暢、可360度進行旋轉 **【CLO 成衣設計軟體】** 1. 內建已完成打版(跳過手稿生成) 2. Video：材質試穿 3. 設計師手稿需自行切塊 ->生成式AI改善紡織產業 ### 技術分享者：+1000 **【微風提案】** * 線上介紹產品使用影音或直播 * 人物以及衣服皆用AI生成<由他們指定> * 需求（目前1、4、5可行） 1. 指定服飾且需與真實相仿 2. 人物說中文、說話嘴型需與聲音同步 3. 指定商品 (請軟體院幫忙) 4. 指定動作 5. 人物臉部細紋 * 靜態圖+骨架圖(openpose)->生成影片(嘴巴也可控制) * 使用約20張的衣服圖片訓練LORA模型： 1. 靜態圖片完整度較高 2. 動態影片服飾呈現完整度較低 * 動態影片優化人物面部： 1. 優化臉部較隨機背景會模糊 2. 解決方法>>人物分割、人物生成再貼上mask 3. Mask可用於拿取飾品以及包包 * 訓練資料集也許可以改善訓練 ### 技術分享者：Kenny * Disney地板：可以多人使用 * Vision pro： 1. 頭帶顯示器 2. 沒有握把 3. 3D to 3D 4. webXR API 瀏覽器限制 5. AIPC #### 1/18分享：Sky , +1000 --- ## 2024/02/22 ( 四 ) * 主題：AI * 時間：10:00~11:00 * 主席：Kenny ### 技術分享者：柏鈞 **【AI嘴型+聲音】** https://hackmd.io/m_X2Py6tTku17HtJoOd8XQ * 三種工具介紹+操作流程 (DreamTalk、D-iD、SadTalker) * 圖片和音檔合成影片的成果展示 * 三者比較 (運作速度、穩定度、生成尺寸、影片呈現結果、最大問題) ### 技術分享者：羿婷 **【LoRA模型訓練+應用】** https://hackmd.io/WDJuwD2PQuOqu3L_2GoVBw * 使用工具介紹 * 成果展示 (換衣服+換動作、換衣服+影片生成、換臉) * 資料處理 * Embedding * HyperNetwork * LoRA --- ## 2024/03/14 ( 四 ) * 主題 : AI * 時間 : 10:00~11:00 * 主席 : Kenny ### 技術分享者：羿婷 **【Comfy UI介紹】** https://hackmd.io/_LYT6MMzRWq_RHz4Vw2rNQ * Comfy UI操作流程 * 成果展示 (影像換臉、換衣、跳舞) ### 技術分享者：+1000 **【多模態資料生成行銷影片工具】** * 多模態資料生成行銷影片工具流程 * 在開源模型中需要克服的項目 1. 影片中的人物可以穿著指定的服飾 (服飾上的車線、垂落感等需與真實物件相仿) 2. 影片中的人物可以說中文，同時保持嘴唇與聲音同步 3. 人物拿(穿)著指定的商品 4. 指定影片人物的動作 5. 臉部細緻的紋理 * 未完成的項目，作為未來計畫提案內容 1. 3D物品掃描與渲染 2. 台灣人臉譜模型 3. 逐幀順滑 4. 繁體中文對嘴(側臉) ## 2024/06/20 ( 四 ) **【義大】** * 討論人臉辨識技術(+1000、羿婷) * DeepFace * 涵蓋技術多元 * 使用yolov8檢測人臉:速度快、準確度高且可向下包容 * VGG比對人臉 * Face Recognition * 速度慢 * 臉部偵測不佳 * 目前使用DeepFace，後續討論偵測的準確度與速度測試方式 * API連接、server端(Vivian) * 已完成: * 偵測人臉建立資料庫 * 時間歷程(目前方案:保留所有紀錄) * 連接攝影機與server的資料(Sky) * manycam * 進度分配 * API:Vivian * 攝影機連接server/人臉辨識gpu加速:Sky * 前端:Nick * 3D模型:柏鈞 * 風格轉換:羿婷 * 後續測試:Allen ## 2024/07/18 ( 四 ) 【李登輝】 ### 語音 * 台德(設備需求高)-推論較快 * 雲端 openAI-打API * 不要有簡體字及捲舌 * 台語及日文居多【試衣間】 * 圖片裁切【義大】 * 人臉辨識壓力測試【AI agent】 lllava sharegpt4V