1日目午後1@研修2部屋 === 日時:2017/09/23 13:00 - 16:00 Code for Japan Summit 2017 共有ノート # 地図カフェin CodeforJapanSummit 高橋 真知 / 高橋 徹 13:00 - 14:15 ![](https://i.imgur.com/4EkvRJV.jpg) https://www.facebook.com/Stroly-186772521398038/ 多様な地図を利用可能にする 縮尺の合わないものも使えます。アプリも無料です。 openstreetmap QR コードを使って掲示することができる。 wikipedia town stroly 大正時代の地図の鳥観図のデモ。 QRコードをchrome で読み取ると、当時の地図のウェブページに飛ぶ。 当時の地図と現代の地図を対応付けて行き来することができる。 地域の魅力を伝えるためには、古地図を使えるようにしたほうがいい。 地図カフェ MTRL で開催。 「魅力のある地図を書いてください」とお願いして、地図を作成してもらった。 正確な地図ではなく、魅力的な地図、「愛のある地図」を投稿できるサイトになっている。 オープンなライセンスになったものでも投稿して遊べる。 自己紹介 - 持ってきた地図もあれば紹介 - 0m 地帯の地図 - 自転車のガイド地図:今は場所に対応付けて写真を割りつけている - 尾道観光市街地銭湯マップ Stroly - α版 - facebook でもサインインできる - 「マイページ」に「Upload my map」 - おおよその場所を書いて(書かなくてもよい)、upload を行う。 - MAPPING というタブがある - 左右にアップロードした地図と現在の地図が表示される - INPUT ボタンを押して、インプットモードに入って、左と右を順番に押していく - 正確な地図であれば 4 隅 + 真ん中 1 点ぐらいを抑えれば対応ができる - 歪んでいる場合は、適宜点数を増やす。 - シミュレーションできるので、道が沿っているかなどを基準に確認を行う - ライセンスなどのメタデータを入力する - SAVE する - 「限定公開」すると共有用の URL や embed 用の html タグが発行される。 - ランドマークのピンを立てられる - ピンに HTML で記述をを紐づけられる - wikipedia town のピンも立てて行っている - board に参加するとできることが増える アンケートもやっているので回答をお願いします。 # オープンデータを使った事例から学ぶ機械学習 寺田 学 16:00 - 17:30 ![](https://i.imgur.com/iW3oHuU.jpg) [投影資料](https://speakerdeck.com/terapyon/opundetawoshi-tutashi-li-karaxue-buji-jie-xue-xi-on-code4japan) 自己紹介 CMSコミュニケーションズ 代表、web系 Pycon JPの代表 [すらすらわかるPython](http://amzn.asia/3lvLZWd) 初心者向け。 [Boot camp](https://www.pycon.jp/support/bootcamp.html)  全国ツアー開催地募集中 機械学習とは データサイエンスの一分野  教師あり、教師なし、強化学習で3分類。  強化学習は、現段階で研究段階。ようやく成果が見えてきた。 機械学習とディープラーニングは異なるもの。使い分けが必要。 データの因果関係が分かるのが、機械学習。ディープラーニングはブラックボックス。 データ選び…目的に基づき、データを選ぶ。 データ加工…外れ値等を除去する。 可視化…データの正常異常が分かる。 アルゴリズム選定…データと目的よりアルゴリズム選定。 学習…ツール活用。 評価…ツール活用。 加工  政府のデータ、アンケートデータ等データ種類によって加工が必要。欠損を処理。 可視化  相関を確認し、多変量変数等で データの概要、アルゴリズム選定に必要な情報を確認する。 アルゴリズム選定  説明変数と目的変数を決める。 学習  学習データとテストデータを分割して学習。 評価  予測値に基づき評価。 データの前処理にPandasが便利。 Excelでも対応できるが、Pythonがおすすめ。  ライブラリ活用。高度なこと。汎用的にできる。がメリット。 Pythonツールの解説。  機械学習ライブラリ scikit-learn Jupyter Notebook Webブラウザで実行可能なツール  一連のツールで再利用可能。再試も可能。  学習⇔評価をたくさん回せる。 (ツールの説明)webブラウザ上でレポート形式で学習、評価の解析が可能なツール。使いやすい。  (注意)Python2と3は違うもの。     これから学習する人は3おすすめ。 チュートリアル(github) https://github.com/terapyon/python-machinelearning-tutorial (後半)チュートリアル   基本の2値分類。 気象情報からインフルエンザの流行を予測。 (学問的に間違っているのは承知の上の予測) データセット  ・気象データはCSVではない。先頭行をスキップ。 ・データの縦横の設定がおかしい。横が時系列。結合が難しい。 ・欠損値の取り扱い、平均値、前日データを参照等ができる。 ・流行/流行していないの2値を判断したい。 ・多変量相関図で見ると、相関が見えない。  わかりやすい相関として、平均気温と最高気温 ・ランダムフォレストで今回は実施。 ・大事な話1つ目。過学習により、汎化性能が落ちる。  データセットを学習用と評価用に分けるのがミソ。 ・大事な話2つ目。 混同行列の考えで偽陰性、偽陽性を見分ける。F値で見分ける。 ・大事な話3つ目。データセットの抽出繰返す。交差検証。 最後に、人間がデータを見て考えることが必要。 ツールを活用すると機械学習は簡単。 2017年気象データでアルゴリズムの予測。形は似ている。 おすすめの本については、 資料のP73~83.