# Foxconn ###### tags: `Interviews` ## Questions 1. transformer & bert差異 - multihead attention & self attention 3. multihead attention & self attention - parallel computing or not 5. what is DTW(dynamic time warping)? Take some examples of its applications 7. 特徵篩選的相關性是怎麼計算?(哪一種相關係數?線性?非線性?)有沒有想過篩選出線性相關特徵後,進入訓練的模型是非線性模型,會有什麼影響? 9. 通常你在分類/多分類問題使用的loss function有哪些?為什麼? [loss function introduction](https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8-%E6%B7%B1%E5%BA%A6%E5%AD%B8%E7%BF%92-%E5%9F%BA%E7%A4%8E%E4%BB%8B%E7%B4%B9-%E6%90%8D%E5%A4%B1%E5%87%BD%E6%95%B8-loss-function-2dcac5ebb6cb) 11. 請解釋SMOTE原理 - [Data imbalance method for data](https://medium.com/%E6%95%B8%E5%AD%B8-%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7%E8%88%87%E8%9F%92%E8%9B%87/smote-enn-%E8%A7%A3%E6%B1%BA%E6%95%B8%E6%93%9A%E4%B8%8D%E5%B9%B3%E8%A1%A1%E5%BB%BA%E6%A8%A1%E7%9A%84%E6%8E%A1%E6%A8%A3%E6%96%B9%E6%B3%95-cdb6324b711e) 12. 處理問卷資料時,是否有考慮到缺失值、離群值? 在特徵篩選和模型訓練前如何處理?(在問卷亂填的部分有沒有做防範,否則訓練出來的模型會不準確) 14. self attention中value, key, query vector初始化是多少? 如果是隨機生成,是否有限制範圍? 16. 訊號補償時,用中值的0.8-1.2倍的原因? 18. 在這些時序序列資料問題中,常使用CNN+LSTM,其中卷積層的目的何在?