###### tags: `定例会議事録` # kaggle練習定例会議事録 ## 定例会詳細 ### 取り組み概要 - kaggleの過去コンペのうち,共通の初級~中級者向けコンペに取り組み,各人の取り組みを紹介/フィードバックする会. ### 日時 - 毎週土曜 11:00~12:00?(仮案,参加メンバーの都合再度調整予定) ### github(コード共有用) - https://github.com/y-vectorfield/kaggle_workshop ### skype(通話用) - https://join.skype.com/WwepsgE2LUd9 ### hackmd(議事録用) - これ ## 取り組み中のkaggleコンペ - 銀行のターゲット予測(二値分類) - 2020/12/20~ - https://signate.jp/competitions/1/ - bestscore:0.9395272(須藤) - 国勢調査からの収入予測(回帰) - 2020/12/27~ - https://signate.jp/competitions/107/ - bestscore:0.87?(田中) ## 第一回 2020/12/20 ### signateについて - kaggleの日本版 - kaggleにはnotebook機能があるが,signateにはない. ### 取り組み紹介 #### 須藤 - テストスコア:0.8245827 - 数値型データのみを使って決定木分析してみた. - https://github.com/y-vectorfield/kaggle_workshop/blob/sudot/target_bank/sudot/notebook/decisiontree.ipynb - test dataのroc_auc scoreが0.8245847 - roc_auc_scoreについて - 各レコードに対するモデルの予測結果(確率値)を確率値が大きい順に並べた時に,どれだけ正例のレコードが序盤に出現するか. - 正例のレコードがすべて序盤に出現しているとき([1,1,1,$\cdots$,0,0,0]),score=1(最大値.良い)となる. - 正例と負例が完全に交互に出現しているとき,score=0.5(最小値.悪い)となる. - 上記の性質から,予測値の大小関係のみでスコアが決まる. - https://www.randpy.tokyo/entry/roc_auc - 良くない点 - 交差検証法をしていない - 検証法とは - 訓練用データの一部を検証用データ(機械学習モデルに与えないデータ)にすることで,機械学習モデルの未知のデータに対する予測性能を見ることができる. - 交差検証法とは - データをK個に分割し,それぞれを検証用データとする機械学習モデルの作成をK回繰り返し,その平均などをとることで機械学習モデルの**作成方法**を評価する. - ただの検証法の場合,検証用データの情報をテスト用データの予測に利用することができなくなるが,交差検証法の場合,全データそれぞれが訓練用データとして1回は利用される. - 交差検証法をする目的 - テスト用データに対する予測を提出する前にある程度性能を把握する. - 機械学習モデルのパラメータ調整をする. ### 次回日程 - 2020/12/27(日) 10:00~11:00 ## 第二回 2020/12/27(日) 10:00~11:00 ### 取り組み紹介 #### 田中 - テストスコア:0.9362203 - ノートブック - https://github.com/y-vectorfield/kaggle_workshop/blob/target_bank_kanataken/target_bank/kanataken/target_bank.ipynb - 機械学習モデル:lightgbm(決定木分析の改良版)を利用 - lightgbmについて - 決定木モデルをたくさん作って,多数決させる方法 - 似た方法としてrandom forestというのがある. - random forest:使う説明変数をランダムに選択し決定木モデルを作ることを何回か試す. - lightgbm:random forestと似た方法だが,直前に作った決定木分析モデルでうまく分類できなかったものを上手く分類できるように決定木モデルを作ることを繰り返す. - レコードに欠損値などあったり,標準化しなくても使えるため,便利. - 変数の重要度(判断にどれほど使われたか)を見ることもできる. - 検証用と訓練用データの分割のため,train_test_splitを利用 - 説明変数のうち,「default」を削除しているが,それはlightgbmを実行し,変数の重要度を確認した結果,重要でないことがわかったため.(セル的に上のほうだが,時系列的に一回lightgbmを実行した後) #### タカギ - lightgbmのアルゴリズムを知りたい. #### 谷口 - 決定木分析のノートブックを確認した. - https://github.com/y-vectorfield/kaggle_workshop/blob/sudot/target_bank/sudot/notebook/decisiontree.ipynb #### 矢野 - pandasでread_excelを実行する際,日付が変になることがある. - http://192.168.1.11:8889/tree/work/docker/ml_gpu ### 次回までの宿題 - 谷口氏にデータ分析初心者用の参考書を渡す - lightgbmの良い解説記事があればアップする. ### 次回日程 - 2021/1/3(日) 10:00~11:00 ## 第三回 2020/12/27(日) 10:00~11:00 ### 新しい取り組みコンペ - 回帰の練習のため,以下のコンペに取り組んでくれてもいいよ - https://signate.jp/competitions/107/ ### 取り組み紹介 #### タカギ - EDAを実施した. - 月ごと,日ごとの登録者数および成功率の傾向を調査した. - 月日において,登録者数/成功率共に周期性はなかった. - 登録者が多いほど,成功率が低い #### 須藤 - 月,日の周期性をcos,sinで表現してみた. - https://qiita.com/shimopino/items/4ef78aa589e43f315113 ### 次回までの宿題 - コンペいずれかに取り組む. ### 次回日程 - 第一候補:2021/1/9(土) 11:00~12:00 ## 第四回 2021/1/9(土) 10:00~11:00 ### 取り組み紹介 #### 田中 - 画像20種類の分類コンペに取り組んだ. - https://signate.jp/competitions/108/data #### 谷口 - K-最近傍法でデータビューイングしてみている. #### タカギ - https://signate.jp/competitions/107/ - データを確認したところ,列「職業クラス」,「職業」,「母国」に値「?」が含まれていた. - 列「職業クラス」,「職業」は5.7% - 列「母国」は1.3% - 列「職業クラス」,「職業」は同時に「?」になっていることが多い. ### 次回までの宿題 - コンペいずれかに取り組む. ### 次回日程 - 第一候補:2021/1/16(土) 11:00~12:00 ## 第5回 2021/1/16(土) 11:00~12:00 ### 取り組み紹介 #### 田中 - 試しに国税調査の提出をしてみた. - 「出身国」について,訓練用データに存在せずテスト用データにのみ存在する国(オランダ)があった. - 欠損値「?」について,lightBGMで予測してみた後で予測してみたが,ダメだった. ### 次回までの宿題 - コンペいずれかに取り組む. ### 次回日程 - 第一候補:2021/1/23(土) 11:00~12:00 ## 第6回 2021/1/23(土) 11:00〜12:00 ### 取り組み紹介 #### スドウ - EDAをやってみた. - 各変数の,訓練用/テスト用データごとのデータ件数を確認. - seabornのpairplotを使って各変数の関係性を確認してみた. #### 矢野 * Jupyterの最新版はTab補完が動かない=Jediの0.17.2をpipインストール ``` pip install -U jedi==0.17.2 ``` * jupyterのurlのtreeをlabに変えるとlabになる. ### 次回までの宿題 - コンペいずれかに取り組む. ### 次回日程 - 第一候補:2021/1/30(土) 11:00~12:00 ## 第7回 2021/1/30(土) 11:00〜12:00 ### 取り組み紹介 #### スドウ - signateのbegginerコンペに参加した. - https://signate.jp/competitions/356/leaderboard - 0.795 #### タカギ - signateのbegginerコンペに参加した. - https://signate.jp/competitions/356/leaderboard #### 田中 - target encodingを以下の取り組みに適用した. - https://signate.jp/competitions/107 - 0.9347779 ### 次回までの宿題 - コンペいずれかに取り組む. - 次のコンペを探す - 複数のデータソースがあるやつとかやってみたい - begginerコンペ反省会 - EDA(追加) ### 次回日程 - 第一候補:2021/02/06(土) 11:00~12:00 ## 第7回 2021/2/6(土) 11:00〜12:00 ### 取り組み紹介 #### 矢野 - piqcy #### タカギ - signateのbegginerコンペに参加した. - 基準を超えてintermediateになった. #### 田中 - signateのbegginerコンペに参加した. - 0.795 ### 次回までの宿題 - コンペいずれかに取り組む. - 次のコンペを探す - 複数のデータソースがあるやつとかやってみたい - EDA(追加) ### 次回日程 - 第一候補:2021/02/13(土) 11:00~12:00 ## 第7回 2021/2/13(土) 11:00〜12:00 ### 取り組み紹介 #### タカギ - xgboostでPCゲーム勝敗予測 ### 次回までの宿題 - 練習問題じゃないよさげなコンペを探す. ### 次回日程 - 第一候補:2021/02/27(土) 11:00~12:00 ## 第8回 2021/2/27(土) 11:00〜12:00 ### 取り組み紹介 - 新しいコンペ - https://www.kaggle.com/c/indoor-location-navigation/data ### 次回までの宿題 - コンペの概要把握. ### 次回日程 - 3032/3/6(土) 11:00~12:00 ## 第9回 2021/3/6(土) 11:00〜12:00 ### 取り組み紹介 #### コンペ紹介 - https://www.kaggle.com/c/indoor-location-navigation/ #### スドウ - pandas profilingでpd.dataframeを楽に可視化できる. #### 矢野 - begginerコンペに取り組んだ. - 質的変数に対してはone hot encodingを実施. - xgboost + kfoldを実施. - ハイパーパラメータは適当に設定.(sklearnのページを参照) - その後hyperoptでパラメータ最適化 - xgboostのalpha(L1正則化)とlambda(L2正則化)が重要 ### 次回までの宿題 - コンペの概要把握. ### 次回日程 - 3032/3/13(土) 11:00~12:00 ## 第9回 2021/3/13(土) 11:00〜12:00 ### 取り組み紹介 #### コンペ紹介 - 以下のコンペはやめた. - https://www.kaggle.com/c/indoor-location-navigation/ ― 以下のコンペにやっぱ取り組む. - https://www.kaggle.com/c/shopee-product-matching #### 田中 - コンペ内のEDA記事を見た. - https://www.kaggle.com/chandrylpaternetony/data-descript-outlier-detect-floor-mapping - E資格合格した. - 8割とれた. - 平均7割. #### たかぎ - データサイエンスやってる会社でよさげなとこ - ABEJA - モルフォ - ブレインパッド ### 次回までの宿題 - コンペの概要把握. ### 次回日程 - 3032/3/20(土) 11:00~12:00? - 3032/3/21(日) 11:00~12:00? ## 第10回 2021/3/20(土) 11:00〜12:00 ### 取り組み紹介 #### コンペ紹介 ― 商品画像と商品タイトルから同じ商品同士を結び付けるタスク - https://www.kaggle.com/c/shopee-product-matching #### スドウ - streamlitを使って,shopeeコンペのデータを確認するためのアプリを作った. #### 谷口 - beginnerコンペに参加中. - lightGBMを試しにやってみたが,0.817 #### 田中 - QiitaにE資格合格記事をまとめた - 参考書のおススメがあるのでオススメ - https://qiita.com/kanataken/items/397b07dacbe05ec9617b ### 次回までの宿題 - コンペの概要把握. ### 次回日程 - 3032/3/27(土) 11:00~12:00? ## 第10回 2021/3/27(土) 11:00〜12:00 ### コンペ紹介 ― 商品画像と商品タイトルから同じ商品同士を結び付けるタスク - https://www.kaggle.com/c/shopee-product-matching ### 取り組み紹介 #### 田中氏 - 深層距離学習を行うためのロードマップを作った. - pytorchだと細心のoptimizerを定義する. - 平日の定時後にペアプロしたい. - sensyに転職するかも. #### タカギ - C言語のコンパイラを作成 #### 谷口 - 入門「確率過程」 - https://www.amazon.co.jp/%E5%85%A5%E9%96%80%E7%A2%BA%E7%8E%87%E9%81%8E%E7%A8%8B-%E6%9D%BE%E5%8E%9F-%E6%9C%9B/dp/4489006594 ### 次回までの宿題 - 時間合えばペアプロ ### 次回日程 - 2021/4/3(土) 10:00~11:00 ## 第11回 2021/4/3(土) 10:00〜11:00 ### コンペ紹介 ― 商品画像と商品タイトルから同じ商品同士を結び付けるタスク - https://www.kaggle.com/c/shopee-product-matching ### 取り組み紹介 #### 田中氏 - モデル作成をした. ### 次回までの宿題 - 時間合えばペアプロ ### 次回日程 - 2021/4/10(土) 11:00~12:00? ## 第11回 2021/4/10(土) 11:00〜12:00 ### コンペ紹介 ― 商品画像と商品タイトルから同じ商品同士を結び付けるタスク - https://www.kaggle.com/c/shopee-product-matching ### 取り組み紹介 #### 田中氏 - VGGでモデル作成し,特徴量抽出をしてK-Meansでクラスタリングをした. - 学習が全然進まない - エポック進んでも評価指標が改善されない. - 10000クラス分類のため,モデルのノード数を多くする必要があり,学習時にメモリーに乗りきらなくなる. - 1epochの学習に30分かかる - クロスエントロピーを計算したら,0.9 - いいのか悪いのかわからない(須藤) - 転移学習(別の巨大なデータセットである程度学習させたモデルを転用して,効率的に学習させる) - 以下の取り組みが必要なのでは - CNN系のモデルで特徴量抽出する部分の改善 - 深層距離学習への取り組み - 画像の前処理の改善 #### スドウ - VGGの途中出力を可視化するアプリを作った. - 畳み込む中で情報がつぶれる(真っ黒)になってる気もするが,webアプリの不具合な気もする. - VGGをEfficientNetB1(imagenetで学習済み)に差し替えると,うまく学習できているぽかった ### 次回までの宿題 - 時間合えばペアプロ - 田中氏のノートブックをsubmission出来る形にする.(須藤) ### 次回日程 - 2021/4/17(土) 10:00~11:00 ## 第12回 2021/4/17(土) 10:00〜11:00 ### コンペ紹介 ― 商品画像と商品タイトルから同じ商品同士を結び付けるタスク - https://www.kaggle.com/c/shopee-product-matching ### 取り組み紹介 #### 田中氏 # ArcFace Qiitaに解説を移行しました。 https://qiita.com/kanataken/items/9b6af8f5c703ed0e21e0 ### 次回までの宿題 - 時間合えばペアプロ ### 次回日程 - 2021/4/24(土) 10:00~11:00 ## 第13回 2021/4/24(土) 10:00〜11:00 ### コンペ紹介 ― 商品画像と商品タイトルから同じ商品同士を結び付けるタスク - https://www.kaggle.com/c/shopee-product-matching ### 取り組み紹介 #### 田中氏 #### スドウ - モデルを共有したい. - 全部で500MBあるので,gitだとあかんのでは. - kaggleのデータセット機能を使う? ### 次回までの宿題 - 時間合えばペアプロ ### 次回日程 - 2021/5/1(土) 10:00~11:00 ## 第14回 2021/5/1(土) 10:00〜11:00 ### コンペ紹介 ― 商品画像と商品タイトルから同じ商品同士を結び付けるタスク - https://www.kaggle.com/c/shopee-product-matching ### 取り組み紹介 #### 田中氏 - 距離学習がうまくいかない場合,対照学習という手法がある. - https://www.google.com/url?sa=t&source=web&rct=j&url=https://www.kaggle.com/ayuraj/v2-self-supervised-pretraining-with-swav&ved=2ahUKEwiForCZq6fwAhXRGKYKHdfpC8sQFjAAegQIAxAC&usg=AOvVaw0ndHoe5hTFHRlIPINKfm0s&cshid=1619832746334 - https://qiita.com/omiita/items/a9b8b891ae759a75dd42 - https://qiita.com/omiita/items/a7429ec42e4eef4b6a4d #### スドウ - timm,RAPIDSを使っていったん提出したい. ### 次回までの宿題 - 時間合えばペアプロ ### 次回日程 - 2021/5/8(土) 10:00~11:00 ## 第15回 2021/5/8(土) 10:00〜11:00 ### コンペ紹介 ― 商品画像と商品タイトルから同じ商品同士を結び付けるタスク - https://www.kaggle.com/c/shopee-product-matching ### 取り組み紹介 #### 田中氏 #### スドウ - 100次元でadacosを実施. - 1280次元/100次元でもadacos,adamだと過学習しちゃう. - m=0.5が小さい?adamが悪い? ### 次回までの宿題 ### 次回日程 - 2021/5/15(土) 10:00~11:00 - 須藤欠席
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up