期末報告互評表
報告順序 | 報告題目 | 你的評分 |
---|---|---|
1 | ChatGPT | 10 |
2 | 啦啦隊對中華職棒的影響分析 | 8 |
3 | PTT 房間討論與房間波動的相關性 | 8 |
4 | 真假新聞判別 | 9 |
1 -> 圖表資料非常齊全
3 -> 資料分析想法豐富
4 -> 勇於被提問(?)
Quiz - 1 : 我和我的同組組員,都非常清楚期末專案報告的:時間、地點、報告內容、繳交書面報告期限、等等資訊
了解!
Quiz - 2 : 我們今天提供了六家電視台的新聞片段,請選擇其中一個片段,指定一個特定影格,並執行範例一。請問你覺得文字辨識的結果,是否符合你的期待?
看起來套件是簡體中文的QQ
截圖到的片段剛好是字較模糊的狀態,以辨識結果來說算是還行了
Quiz - 3: 請設定不同的語音片段,或重新錄製語音,並觀察哪些因素可能會影響辨識結果?
測試結果,主要影響範圍我認為還是錄製的音檔的清晰程度,以及語句中的斷詞處
產出方法看起來是以單詞做生成,如果語句的斷句較為明顯的話,辨識效果會較好
Quiz - 1 : 以上每個範例分別使用不盡相同的操作流程。請問,你覺得哪個流程最簡單明瞭?為什麼?
GPT2
從前文去逐字產生後文的方式較為直觀
Quiz - 2 : 以上哪個模型,你覺得最好用?為什麼?(從下游任務,模型參數,以及執行時間來探討。)
albert-tiny-chinese-ws
總體而言模型參數數量、執行時間都優於其他範例模型
Quiz - 3: 目前已經有了 transformers 這個套件,為何 CKIP 還要出一個中研院套件?在執行過以上程式以後,你認為是為什麼?
即便原本已經有可支援中文斷句的模型
但訓練資料集的來源和數量會大幅影響模型結果,而中研院的套件是以台灣人語言習慣去做訓練的模型,在訓練結果上會更加貼合台灣人的用語
Quiz - 1 : 請自行設定一句話,並隱藏其中的一到數個字,使用預訓練模型,得出該隱蔽位置最可能的前三名字詞。
輸入
text3 = "[CLS][MASK]歡音樂、喜[MASK]美術、喜歡與朋友聊天和出門玩!"
輸出輸入 tokens : ['[CLS]', '[MASK]', '歡', '音', '樂', '、', '喜', '[MASK]', '美', '術', '、', '喜', '歡', '與', '朋'] ... -------------------------------------------------- Top 1 (34%):['[CLS]', '樂', '歡', '音', '樂', '、', '喜', '[MASK]', '美', '術', '、', '喜', '歡', '與', '朋'] ... Top 2 ( 6%):['[CLS]', '喜', '歡', '音', '樂', '、', '喜', '[MASK]', '美', '術', '、', '喜', '歡', '與', '朋'] ... Top 3 ( 4%):['[CLS]', '同', '歡', '音', '樂', '、', '喜', '[MASK]', '美', '術', '、', '喜', '歡', '與', '朋'] ... 輸入 tokens : ['[CLS]', '同', '歡', '音', '樂', '、', '喜', '[MASK]', '美', '術', '、', '喜', '歡', '與', '朋'] ... -------------------------------------------------- Top 1 (33%):['[CLS]', '同', '歡', '音', '樂', '、', '喜', '樂', '美', '術', '、', '喜', '歡', '與', '朋'] ... Top 2 ( 6%):['[CLS]', '同', '歡', '音', '樂', '、', '喜', '喜', '美', '術', '、', '喜', '歡', '與', '朋'] ... Top 3 ( 4%):['[CLS]', '同', '歡', '音', '樂', '、', '喜', '同', '美', '術', '、', '喜', '歡', '與', '朋'] ...
Quiz - 2 : 以上兩個範例都跑過了嗎?請問你對哪個下游任務最感興趣?為什麼?
跑過了
主要會對非監督式的異常檢測較有興趣;工作是與資訊安全有關,在實務環境中,自動化找到大量程序中的異常(惡意)程序(或者說離群值)一直都是難事,因此對其較有興趣
Quiz - 3: 請在執行上頁範例後,舉出一個 SentenceTransformer 的應用情境。
用於情意、同字異義的分析
如上週課程的 t-SNE 繪出向量圖的作業,將字句的向量算出後,可以透過比對每個字句的向量來分析相關度
Quiz - 1 : 你順利執行上頁範例程式了嗎?請問你認為這個模型有什麼樣的優點及缺點?
執行完畢
注意力機制的高權重機制,可以更有效的減少效能花費去做相關性的計算
Quiz - 2 : 你順利執行 BERT 的兩個範例程式了嗎?請選擇一種語言, 並自行挑選同字異義的語詞,用 t-SNE 畫出你的結果。
執行完畢
用的是日文字句,故長不出點座標
Image Not Showing Possible ReasonsLearn More →
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Quiz - 1 : 你順利建立 N-gram 模型、並使用了這個模型嗎?請問你認為這個模型,可以做什麼樣的應用?有什麼缺點?
使用完成
應用:僅偵測下一個字元的話,可用於手機輸入的推薦字
缺點:看起來會很容易預測出連接字(因頻率特別高)
Quiz - 2 : 你順利建立 HMM 模型、並使用了這個模型嗎?請問你認為這個模型,可以做什麼樣的應用?有什麼缺點?
使用了,但
缺點:真的太久…等3小時還沒出來
**Quiz - 3: 你順利建立 Word2Vec 模型、並使用了這個模型嗎?請問你認為這個模型,可以做什麼樣的應用?有什麼缺點? **
使用完成
應用:情義分析的判讀,除了用字數頻率去偵測外,向量模式可以更好去做擬合
缺點:目前使用上尚未能發現較大的缺點
Quiz - 1 : 請製作文字圖片,並使用上頁範例程式辨識你的圖片。請把你的圖片和辨識結果,一起上傳至小練習區。
圖片
Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
輸出結果Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Quiz - 2 : 請使用本週提供的 testdata 資料圖片,進行上頁的文字偵測及辨識。把你覺得辨識效果最棒的程式參數,及辨識結果圖片,一起上傳至小練習區
參數:ch,試著想用 ch_tra 但搞不定
結果:Image Not Showing Possible ReasonsLearn More →
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Quiz - 3: 以上三種任務,你對哪個最有興趣?請發表你執行範例的感想、或、對於該技術可能的應用?
第三種,無文字的產生圖標
對於現在最熱門的 GPT 來說,給文字產出文字是簡單的,但透過圖示更切和主題性地產出圖標肯定是很大的應用
Quiz - 1 : 大家覺得以下哪個是 AI 呢?
以上皆是,我認同老師的「需要電腦幫忙判斷、決策的地方,就有 AI」這個論點
AI 這個詞彙對於大眾來說過於廣泛且不精確,機器學習、深度學習 等等都僅單單用「AI」去帶過
Quiz - 2 : 請解讀邏輯迴歸建模係數,或嘗試加入更多欄位(然後重新建模),以回答哪個是對生還機率影響最大的變因。
Quiz - 3: 觀察以上兩個模型的學習曲線(learning curve),請問你認為、以上模型哪一個可以開始拿來用?(用來預測圖片中的數字)
Quiz - 1 : 剛才介紹的四種輿情分析資料庫/系統,你對哪一個最有興趣?為什麼?
其實對我來講都差不多,建立在非必要性需求的前提下,只有好不好用,沒有太大興趣
Quiz - 2 : 任選其中一種取得tweets的方式(選人 or 選關鍵字詞),並試著抓取 100 筆資料。請回報完成與否。
token 節省著使用,跑這筆就好QQ
Quiz - 3: 請和同一小組一起討論:你們關注的議題,應該抓取 SNS 資料嗎?適合去哪些 SNS 抓取呢?把你們初步的結論寫在這裡。
我們的組別主題為博弈預測,主要是希望針對球類賽事的賭博進行勝敗決策,我認為抓取 SNS 資料透過網路留言的情意分析無法精準預測勝敗
Quiz - 1 : 我清楚地知道:4/10(一)要到行大八樓 AI 中心上課。
- 非常清楚
Quiz - 2 : 請用程式抓出『網頁(2)』中的分數,並計算平均。
73.33333333333333
Quiz - 3: 使用這個連結,練習取出至少一篇新聞標題與內文、並分享你的爬蟲心得。
心得:不同頁面版型的網頁規則會不一樣
Quiz - 4: 找一個你有興趣的 PTT 板,並修改課程提供的 PTT 專案內的起始連結,爬回至少 100 筆資料。分享你爬蟲過程或結果的心得。
Quiz - 5: 請告訴我找出校內分機的 regular expression。
Quiz - 1: 請將 p.13 NER 結果畫成的文字雲,和用 nltk tokenize 後的文字雲,比較一下。
NER
nltk tokenize
Quiz - 2: 自行尋找一篇新聞,列出 TF-IDF 前十名的關鍵字
[('的', 7.688670047696207), ('演練', 4.892790030352132), ('各', 4.892790030352132), ('飛彈', 3.494850021680094), ('基地', 3.494850021680094), ('今天', 2.7958800173440754), ('一', 2.7958800173440754), ('配合', 2.7958800173440754), ('射擊', 2.7958800173440754), ('2', 2.7958800173440754)
Quiz - 3: 自行尋找一篇新聞,列出 TextRank 前十名的關鍵字(最好先過濾停止詞),並比較一下和 Quiz-1 的 TF-IDF 的結果
Quiz - 4: 請問你成功讓ChatGPT總結/摘要一個陶傑影片了嗎?如果不幸未完成,請問你認為是卡在哪一關?
Quiz - 5: 意向調查:請問你覺得中國會攻打台灣嗎?如果會的話,何時(或滿足何條件)會攻打?如果不會的話,這個「不會」大概可以維持幾年(或滿足何條件)?
會,在 2024 年總統大選過後,一但確認國民黨即將執政、在蔡政府任期的最後即會有所動作
Quiz - 1 : 請將 CNN 新聞所製作的文字雲,貼上至本週小練習
Quiz - 2 : 請整理上週你所關心的大事(最多三項),上傳至本週小練習
桃園神社拆除
Quiz - 3 : 請將自由時報新聞所製作的文字雲,貼上至本週小練習
Quiz - 4 : 請以今日 CNN 新聞為例(自行選一篇),進行 NER 分析,至本週小練習
太長了,貼在以下
[('ROOT', 0, 15), ('nmod:poss', 4, 1), ('case', 1, 2), ('amod', 4, 3), ('nsubj', 15, 4), ('punct', 4, 5), ('nsubj', 7, 6), ('acl:relcl', 4, 7), ('det', 10, 8), ('amod', 10, 9), ('dobj', 7, 10), ('case', 13, 11), ('det', 13, 12), ('nmod', 7, 13), ('punct', 4, 14), ('case', 17, 16), ('nmod', 15, 17), ('case', 20, 18), ('det', 20, 19), ('nmod', 17, 20), ('acl', 20, 21), ('det', 24, 22), ('amod', 24, 23), ('dobj', 21, 24), ('det', 26, 25), ('nsubjpass', 28, 26), ('auxpass', 28, 27), ('acl:relcl', 24, 28), ('punct', 15, 29), ('case', 32, 30), ('compound', 32, 31), ('nmod', 15, 32), ('case', 34, 33), ('nmod', 15, 34), ('punct', 34, 35), ('advmod', 41, 36), ('amod', 38, 37), ('compound', 40, 38), ('compound', 40, 39), ('nsubj', 41, 40), ('acl:relcl', 34, 41), ('nmod:poss', 43, 42), ('dobj', 41, 43), ('cc', 43, 44), ('det', 46, 45), ('conj', 43, 46), ('case', 49, 47), ('det', 49, 48), ('nmod', 41, 49), ('mark', 53, 50), ('nsubj', 53, 51), ('aux', 53, 52), ('ccomp', 49, 53), ('det', 55, 54), ('nmod:poss', 59, 55), ('case', 55, 56), ('amod', 59, 57), ('amod', 59, 58), ('dobj', 53, 59), ('punct', 15, 60), ('ROOT', 0, 4), ('det', 3, 1), ('nummod', 3, 2), ('nsubj', 4, 3), ('case', 6, 5), ('nmod', 4, 6), ('nsubj', 9, 7), ('aux', 9, 8), ('acl:relcl', 6, 9), ('xcomp', 9, 10), ('dobj', 10, 11), ('punct', 11, 12), ('dobj', 15, 13), ('nsubj', 15, 14), ('acl:relcl', 11, 15), ('aux', 17, 16), ('ccomp', 15, 17), ('nsubj', 19, 18), ('xcomp', 17, 19), ('case', 21, 20), ('nmod', 19, 21), ('punct', 4, 22), ('ROOT', 0, 5), ('nmod:poss', 2, 1), ('nsubjpass', 5, 2), ('auxpass', 5, 3), ('advmod', 5, 4), ('case', 9, 6), ('det', 9, 7), ('amod', 9, 8), ('nmod', 5, 9), ('punct', 9, 10), ('nsubj', 12, 11), ('acl:relcl', 9, 12), ('det', 14, 13), ('dobj', 12, 14), ('advmod', 17, 15), ('advmod', 17, 16), ('advcl', 12, 17), ('cc', 17, 18), ('advmod', 20, 19), ('conj', 17, 20), ('punct', 5, 21), ('ROOT', 0, 2), ('nsubj', 2, 1), ('det', 6, 3), ('amod', 6, 4), ('compound', 6, 5), ('dobj', 2, 6), ('case', 8, 7), ('nmod', 2, 8), ('punct', 2, 9), ('ROOT', 0, 7), ('nsubj', 7, 1), ('case', 5, 2), ('det', 5, 3), ('compound', 5, 4), ('nmod', 1, 5), ('advmod', 7, 6), ('advmod', 10, 8), ('mwe', 8, 9), ('nummod', 11, 10), ('nmod:npmod', 12, 11), ('advmod', 7, 12), ('punct', 7, 13), ('cc', 7, 14), ('mark', 18, 15), ('auxpass', 18, 16), ('advmod', 18, 17), ('advcl', 25, 18), ('case', 20, 19), ('nmod', 18, 20), ('punct', 25, 21), ('nsubj', 25, 22), ('aux', 25, 23), ('advmod', 25, 24), ('conj', 7, 25), ('mark', 27, 26), ('xcomp', 25, 27), ('nmod:poss', 29, 28), ('dobj', 27, 29), ('punct', 7, 30), ('ROOT', 0, 21), ('nsubj', 3, 1), ('aux', 3, 2), ('ccomp', 21, 3), ('nmod:poss', 5, 4), ('dobj', 3, 5), ('case', 9, 6), ('amod', 9, 7), ('amod', 9, 8), ('nmod', 5, 9), ('case', 11, 10), ('nmod', 3, 11), ('punct', 3, 12), ('cc', 3, 13), ('nsubj', 17, 14), ('aux', 17, 15), ('neg', 17, 16), ('conj', 3, 17), ('advmod', 19, 18), ('advmod', 17, 19), ('punct', 21, 20), ('compound', 23, 22), ('nsubj', 21, 23), ('punct', 23, 24), ('det', 27, 25), ('amod', 27, 26), ('appos', 23, 27), ('case', 30, 28), ('det', 30, 29), ('nmod', 27, 30), ('case', 32, 31), ('nmod', 30, 32), ('case', 36, 33), ('det', 36, 34), ('compound', 36, 35), ('nmod', 30, 36), ('punct', 21, 37), ('ROOT', 0, 1), ('amod', 3, 2), ('nsubjpass', 8, 3), ('case', 5, 4), ('nmod', 3, 5), ('auxpass', 8, 6), ('advmod', 8, 7), ('root', 1, 8), ('xcomp', 8, 9), ('dobj', 9, 10), ('dep', 10, 11), ('punct', 11, 12), ('conj', 11, 13), ('punct', 11, 14), ('cc', 11, 15), ('mwe', 15, 16), ('mwe', 15, 17), ('amod', 20, 18), ('punct', 20, 19), ('conj', 11, 20), ('punct', 8, 21), ('ROOT', 0, 22), ('det', 3, 1), ('amod', 3, 2), ('nsubj', 4, 3), ('ccomp', 22, 4), ('mark', 7, 5), ('advmod', 7, 6), ('xcomp', 4, 7), ('advmod', 9, 8), ('advmod', 10, 9), ('ccomp', 7, 10), ('dobj', 10, 11), ('cc', 11, 12), ('conj', 11, 13), ('punct', 4, 14), ('nsubjpass', 18, 15), ('aux', 18, 16), ('auxpass', 18, 17), ('parataxis', 4, 18), ('punct', 22, 19), ('punct', 22, 20), ('nsubj', 22, 21), ('case', 25, 23), ('det', 25, 24), ('nmod', 22, 25), ('punct', 22, 26), ('ROOT', 0, 13), ('advmod', 2, 1), ('amod', 4, 2), ('amod', 4, 3), ('nsubj', 8, 4), ('cop', 8, 5), ('neg', 8, 6), ('det', 8, 7), ('ccomp', 13, 8), ('acl', 8, 9), ('case', 11, 10), ('nmod', 9, 11), ('punct', 13, 12), ('compound', 15, 14), ('nsubj', 13, 15), ('punct', 15, 16), ('appos', 15, 17), ('case', 20, 18), ('det', 20, 19), ('nmod', 17, 20), ('case', 24, 21), ('compound', 24, 22), ('compound', 24, 23), ('nmod', 20, 24), ('cc', 24, 25), ('amod', 27, 26), ('conj', 24, 27), ('case', 32, 28), ('det', 32, 29), ('compound', 32, 30), ('compound', 32, 31), ('nmod', 20, 32), ('case', 34, 33), ('nmod', 32, 34), ('punct', 32, 35), ('nsubj', 37, 36), ('acl:relcl', 32, 37), ('det', 43, 38), ('nummod', 43, 39), ('compound', 43, 40), ('compound', 43, 41), ('compound', 43, 42), ('dobj', 37, 43), ('case', 45, 44), ('nmod', 47, 45), ('nsubj', 47, 46), ('acl:relcl', 43, 47), ('mark', 49, 48), ('xcomp', 47, 49), ('nmod:poss', 51, 50), ('dobj', 49, 51), ('punct', 13, 52), ('ROOT', 0, 1), ('punct', 4, 2), ('compound', 4, 3), ('nsubj', 10, 4), ('punct', 4, 5), ('cop', 10, 6), ('neg', 10, 7), ('det', 10, 8), ('amod', 10, 9), ('root', 1, 10), ('case', 13, 11), ('det', 13, 12), ('nmod', 10, 13), ('punct', 10, 14), ('ROOT', 0, 11), ('nsubj', 11, 1), ('case', 5, 2), ('nmod:poss', 5, 3), ('amod', 5, 4), ('nmod', 1, 5), ('nsubj', 8, 6), ('advmod', 8, 7), ('acl:relcl', 5, 8), ('cop', 11, 9), ('det', 11, 10), ('mark', 17, 12), ('expl', 17, 13), ('aux', 17, 14), ('cop', 17, 15), ('amod', 17, 16), ('ccomp', 11, 17), ('punct', 17, 18), ('amod', 20, 19), ('appos', 17, 20), ('acl', 20, 21), ('compound:prt', 21, 22), ('mark', 24, 23), ('xcomp', 21, 24), ('compound', 26, 25), ('dobj', 24, 26), ('case', 30, 27), ('det', 30, 28), ('amod', 30, 29), ('nmod', 24, 30), ('punct', 17, 31), ('punct', 17, 32), ('nsubj', 34, 33), ('dep', 17, 34), ('case', 36, 35), ('nmod', 34, 36), ('case', 39, 37), ('det', 39, 38), ('nmod', 34, 39), ('punct', 11, 40)]
Quiz - 1 : 以上新聞,你對哪則最有共鳴?(請見 p.8)
- 228紀念日
Quiz - 2 : 請問你是否支持烏克蘭去納粹化?
是,但僅針對國家內政策自行肅清,而非外部洗禮
Q.3: 請問你是否支持俄羅斯侵略烏克蘭?
否
Q.4: 你覺得什麼樣的問題陳述,有引導式的嫌疑?
1 & 2
- 透過半真半假混淆手段意圖引導受眾往預期方向走
- 透過激昂文字刻意引起群眾情緒氛圍進而達到模糊焦點、滑坡理論手段
Q.5: 執行到現在,有沒有哪裡覺得怪怪的?申論看看?
原文:Take the situation of Japan, a country limited in its post-World War II constitution to “self-defense” forces. Now it’s going to buy long-range Tomahawk cruise missiles from the US, weapons that could strike well inside China.
輸出內容:'Take the situation of Japan, a country limited in its post-World War II constitution to “self-defense” forces.',
'Now it’s going to buy long-range Tomahawk cruise missiles from the US, weapons that could strike well inside China.',
Q.6: 執行到現在,有沒有哪裡覺得怪怪的?申論看看?
針對中文語料處理較差,會變成一句話
Quiz - 1 : 請問你乖乖地看影片了嗎?如果你原來有疑惑,它解答了你心裡的疑惑了嗎?
看了喔,沒問題owo/
Quiz - 2 : 請問單純執行以上區塊程式碼,是否會發生錯誤?如果不會,那要怎麼樣才會錯?
單純執行會,因為除數不可為 0。
透過 try except 排除,程式碼更改為以下
def func_bomb():
try:
result = 100 / 0
print(result)
except:
print("owo 886")
Q.3: 解決口口口口問題
先解決了中文錯誤問題
Q.4: 把 dict_statSNS 的降冪排序後結果,畫成圓餅圖,在「餅圖標題註記自己姓名」
再來進行排序及圓餅圖繪製
Quiz - 1 : 請問大家都在哪裡表達意向?
- Facebook
- Plurk
- Instagram
- Twitter
Quiz - 2 : 想要在本學期達到的目標、或想研究的議題?
工作的 Line 訊息匯出後,將訊息進行情意分析做出可以明確針對問題進行回覆的 Bot
Quiz - 3 : 請執行範例程式,並將你覺得其中較滿意的結果,寫在本週的Moodle小筆記上。