# IRWorkshop 2021 ## 杜奕瑾 - 主要講解雅婷 - 有和cdc合作 - 音樂的辨識 audio轉譜 辨識情緒等 - 假消息辨識 島民衛星是一個網站 可以用於媒體觀測 可以去了解新聞台的立場 - Twitter 的sentiment偵測 並且找出是因為什麼東西或事件(主要是針對hate speech) - Data model會因為train的人的不同而導致有不同的bias - 在使用資料的時候要注意到使用者隱私,資料有可能在未來都要做去中心化。 - Gpai ailab 醫學的去中心化的聯合學習 ## 阮大成 - Neural structure learning - 如何做image emb - 如何透過kg去增強modek - 一般的training都只有用到per sample data,也就是一次只會讀到一個sample 並沒有考慮到sample之間的關係 - structure learning主要是能透過unlabeled data能夠拿來增強。 - 目前多數都是用transformer 去做inter-sentence的relation,我們可以透過這種方式來增加kg - data有3種inductive prior: - manifold - 存在一個低維的表示 - clustering - 同一個cluster share相似的property - continuity - 資料特徵具備連續性(非離散) - structural regularization主要就是在supervised上面加上neighbor loss - $\sum_{x \in N()}w_{ij}*D(h(i),h(j))$ - 放在哪一個layer都可以 - workflow of structure learning - 可以先assume某幾個cluster 接著再去minimize neighbor loss 有點類似knn - packages * graph_regularization * pip install neursl_structured_learning - 有時候no explicit structure data - 可以透過text graph的方式去加入,但是largely depends on prettained emb - image emb有個很基本的問題 - image 的semantic有高低維度的差異 但是卻都被flatten像是鋼鐵的橋和橋 就是兩種class,他們共同是橋的這個屬性被忽略了 - 有相對應的dataset可以用 有40m個class - 透過google image search去蒐集資料 - 假設使用者搜尋某張圖片 然後點擊某一個另一個圖片的時候 我們就假設這兩張圖片somehow有一些相似度 - kg completion - (source,relation,targer?) - 如果given s,r能否得到t - attending to facts related to an entity(neighbor) - acl2019 attending to neighbors - 在將資料轉成structure data後 是否需要考慮data balance的問題: - 要 但是有很多graph tips可以解決 - 像是downsampling,將大cluster的node sample少一點node ## 陳縕儂 - Toward conversational AI - NLU: - domain identification - intent prediction - slot filling - Dialogue mangpagement - dialogue state tracking - dialogue policy - 去決定如何和使用者說回傳的答案 - NLG - 產生實際的文字回答 - bert是透過text去train,所以speech 會導致training-test mismatching->error propagation - Goal: asr-robust contextualize embedding - 運用speech的lattice給予後面的model 予前面model的candidate(lattice) - 直接將softmax前的那層logits vector給予後面的model去學 - 但是training要很久且lattice取得不易 - 所以他們提出一個asr robust的方法 - NLU跟NLG 可以利用dual的關係 - 但是我們需要去估計marginal probability,如果是nl是簡單的 但是semantice frame就難以估計 ## 許聞廉 - 跟我所知大致一致 ## 古倫維 - fake news - echo chamber - 很多人都活在同溫層 - backfire - 如果使用者已經有立場 你去跟他說是假的 他反而不相信你 - imply true - 使用者會預設你會把不實新聞標記出來,他會認為沒有被標記的對象是對的 - 且使用者其實不太理是否被你標記成是假新聞,他只會想看他自己想看的 - 想要盡量讓使用者讀到澄清新聞,但是要怎麼樣找到最適當的時機。 - 在這個系統底下,不需要對新聞做真假的標籤,這樣可以避免前面說的那兩個問題。 - 使用者還是比較喜歡看假新聞,有可能跟標題有關係。所以可能就可以從正確新聞的標題下手。 - 預防勝於治療,比起看到假新聞再給他看澄清新聞,不如一開始就預防。 ## 黃瀚萱 - 單機版的音樂推薦 - next music to play - next album to buy - next artist to explorer - 精確的nlp interface - 主流的推薦系統有兩種 - collaborative filtering - 透過其他使用者的喜好來決定推薦給你什麼 - content-based approach - 要去分析音樂的內容 * metadata(作曲家等) * textual information(歌詞等) * acoustic information(波形等) - dataset來源: all music - 音樂家有可能會有關係 - 共演過 - 被影響 - 使影響 - 曲風相似 - 等 - 把推薦系統想成一個link prediction - 因為在單機的狀況下不能用cf,所以需要利用音樂家之間的關係,將原本兩張沒有的專輯link在一起。 - 難點在於如果要用graph的話,每一種類別的資料都是不同構的: * Music item * User * Atrist - 有透過一些pretrain task 來pretrain
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up