BADオープンデータ供養寺 企画 === ## 目的(Why) - データ供養の大変さを伝え、使える状態のデータを公開してもらう(啓発) - データを公開したい公官庁向けに、正しいデータの出し方を伝える - [データをオープンにするには - The Open Data Handbook](https://opendatahandbook.org/guide/ja/how-to-open-up-data/) - →企業にも使える - 既に流通しているBADデータをきれいにするノウハウを共有する - データ供養を依頼し、解決できるようにする - データ管理に対する投資の重要さを理解してもらう ## どういう人に対して提供するのか?その人は何に困っているのか?(Who) - BADオープンデータを供養して、Machine Readableにしたい人 - 利用したいデータがBADな状態になっているのでGOODな状態に変換したい - BODを変換する方法やノウハウ、サービスを知りたい、提供してほしい - この世からBODを駆逐したい ## こんなことできたら良いな(What) - まずは現状・事実を伝える - 日本のオープンデータの現状はどうなっているのか - 何が問題なのか - どうすればいいのか - BOD供養寺はそれに対してどう貢献するのかを伝える - 供養の様々なノウハウをモジュール化(APIやnpm等)して提供 - "ー"の変換のセットとか - フロントエンドも一緒につけると - 自然言語処理の日本語前処理とか - 文字情報基盤の異体字マップ(斎藤の"さい"とか)のAPI化 - 住所の表記ゆれ - 政府系マスタデータ(ベースレジストリ)の修正依頼窓口 - 使えるツール類の紹介 - ブログ記事とか? - QIITA活用? - #BOD供養寺 タグを流行らす - OpenRefineとか? - 供養事例紹介 - データ供養の依頼(駆け込み寺) - お布施を払える - 学生がバイトでモジュール作るとか - ソリューション企業が名寄せサービスを提供 - IssueHunt とかと連動できないか? - プロジェクト支援を寺が行う - 有償で受けたものも、基本はオープンになる - ただの企業間取引みたいにはしたくない - BADオープンデータの通報 - 改善の必要なオープンデータ事例を収集 - 供養したデータのサーブは? - オープンデータを公開しているサイトに登録する - Kaggle に登録 - APIに投げる(関が調べる) - mynumbercard の市区町村コード対応(関) - 自分たちでDBを持たない方がよさそう ## どのようにやるのか(How) - Frontpage - GitHub Pages で良いのでは - Hugo, Gatsby, Jekyl, Middleman - (osokenさん) - Gatsby よさそう。 Contentful 連携できるようなので、記事の入稿そっちでもいいかも - 双方向性があるなら、CMSの方が良い? - 最初はGoogle Formでいいか - 検索したいニーズはありそう - ある程度までならフロントだけでいける - サイトのワイヤーフレーム - 住職&今村さん - Figma? - コンテンツ - みなさん既にお持ちのタレを提供してもらう - 判例のPDFパース記事を書く(shibacow さん) - marisakamozzから提供できそうなコンテンツ - 表(画像、PDF、EXCEL)などから情報を抽出する手法 - 都議会議事録の前処理を行った事例 - ロゴデザイン - 寺ロゴ→林さんに聞いてみよう - ワークフローを考える - Google Form からIssue登録? - GASでできそう - できました https://qiita.com/miyatsuki/items/5cc9c17c6d342007cb72 - GitHubのアクセストークンが必要です - ## 検討事項 - データのライセンス - 提供ライセンスをメタデータとして登録する - ## アーキテクチャ - 静的サイトのホスティング: ghPages - サイトのソースコード: GitHub で管理 - サイトのフレームワーク: Gatsby/TypeScript - 駆け込み寺: Google Form->GitHub Issue (Issue の一覧をサイトに import できるか?) - ↓でjsからissueの一覧が取得できます(pagingは考えない) - https://docs.github.com/en/rest/reference/issues#list-repository-issues - 公式のライブラリ使うともうちょっとシンプルに取れそうですhttps://github.com/octokit/core.js#readme ```javascript= fetch("https://api.github.com/repos/owner/repo_name/issues", { method: "GET", headers: { "Accept": "application/vnd.github.v3+json" } }) .then(res => res.json()) .then(data => console.log(data)) ``` - サイトの記事: Markdown で gitHub リポジトリに (将来的に Contentful などに移行しても良いかも: 記事の検索も実現できる) - 縦書きやりたい https://tategaki.github.io/ - いい感じの明朝体を使いたい https://googlefonts.github.io/japanese/#hannari - Gatsbyのテンプレートを調査 - 後々の開発効率に響くので - Markdownで書いたコンテンツを置いておくとページが生成されるように - Staging環境は作らない方針で - 本番にダイレクトに反映 - 不具合出ても特段困らないので - Sandbox的に、色々お試しや遊び場として使ってもらえたら良いかと ## ドメイン名 - data-kuyou.com -> 空 - bad-data-kuyou.com -> 空 - bad-data.rip -> 空:決定 --- ## 掲載コンテンツの整理 ### メニュー - 供養塔 - 事例 - まず記事一覧 - - 宝蔵 - ツール - スライドどうるする? - タグ付け? - カテゴリわけ? - ### 動画 - [BADオープンデータ供養寺公式チャンネル](https://www.youtube.com/channel/UCXOHlNR2upkwxTKxmXfU6rQ) - BADオープンデータ供養寺の公式YouTubeチャンネルです - [BADオープンデータ供養寺 〜本当にあったデータの怖い話〜](https://www.youtube.com/watch?v=PaTPh8rh-xE) - 2020年10月18日に開催された[Code for Japan Summit 2020](https://summit2020.code4japan.org/program/?id=149)におけるセッションの動画 <iframe width="560" height="315" src="https://www.youtube.com/embed/PaTPh8rh-xE" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> - Summit 2019 YouTube動画 <iframe width="560" height="315" src="https://www.youtube.com/embed/i1eIUsiWDMU?start=11059" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> ### スライド資料 - コンテンツ集約:過去のサミットでのプレゼン資料などから - [summit2020](https://summit2020.code4japan.org/program/?id=149) - [BADオープンデータ供養寺の紹介](https://speakerdeck.com/shishamous/badopundetagong-yang-si-ben-dang-niatutadetafalsebu-ihua) - 住職 - BADオープンデータ供養寺の紹介や、BADオープンデータ問題の解説など。 - [こんなBADオープンデータはイヤだ](https://docs.google.com/presentation/d/18UchUBIf5y956bVZnji0A9gFof-f2o5uOj0VlVgzsB0/edit?usp=sharing) - 古川 泰人さん - 皆様から寄せられた恐ろしいオープンデータネタ百連発!? - [埼玉の呪われた玉](https://www.slideshare.net/codeforjapan/bad-238905961) - 関 治之さん - PDFで公開されていたマイナンバーカード普及状況データを可視化できるようにするまでに大変な労力がかかった話 - [BADオープンデータあれやこれや](https://www.slideshare.net/ssuserc75473/badopendata2020/) - 林 正洋さん - データの中身がBADな件にとどまらず、もっと幅広い視点でび行政オープンデータのBAD案件についてのアレコレ。 - [マイナンバーというBADデータ](https://www.slideshare.net/mizuhoooyama/bad-data-named-my-number) - 大山 水帆さん - 全国の自治体でマイナンバーというBADデータに翻弄され、離職したり、もしかすると本当にお亡くなりになった方々を供養する話。 - 千葉 大右(LT) - タイトル:納品物がBADデータ☆ - 内容:仕様どおりにデータが納品されなかったら?締切までもう時間がなかったら?そう、データマゾヒストの出番です! - https://docs.google.com/presentation/d/1cM3EQ3IGknoA24IrRHM72eGqxec1AuNsqCXggtRmAVw/edit?usp=sharing - [本当にあったコードの話](https://docs.google.com/presentation/d/1p3yse2b-wpGeTLAVJ6yN_wVtQKjOHn6anZZ7t6rUIwo/edit?usp=sharing) - 病院薬局介護施設など医療系のオープンデータを取引先マスタデータに仕立て直して販売する狂気の会社ミーカンパニーでCDOを務める立場での実体験。 - [summit2019](https://www.facebook.com/events/1551705051638125/?active_tab=discussion) - [「供養寺 弐零壱玖」](https://www.slideshare.net/hiramoto/2019-c4j-kuyo) - 平本 健二さん - 法人情報におけるBADデータ事例と対策のご紹介に始まり、データ品質管理の国際標準体系についての解説など - [「悪霊のネ申エクセル その発生メカニズムと対策について」](https://www.slideshare.net/ssuserc75473/code-for-japan-summit-2019-bad-opendata-kuyodera-177709495) - 林 正洋さん - オープンデータ伝道師ならぬ "オープンデータ宣教師" が "ネ申" について語るという衝撃の内容。EXCELデータのGOODな例とBADな例の対比や、GOODな形にするための簡易な方法など。 - [summit2018](https://www.facebook.com/events/1815152438591631/?active_tab=discussion) - 2018年11月中野区区民と行政のためのオープンデータ活用勉強会第2回  [オープンデータのフォーマットデータ品質とIMI共通語彙基盤の活用](https://imi.go.jp/contents/2019/02/20181221_NAS_IMI.pptx) ### ブログ記事 - [マイナンバーカード普及状況データの供養方法](https://mynumbercard.code4japan.org/chant) ### 論文 - [奥村晴彦. "「ネ申 Excel」 問題." 情報教育シンポジウム 2013 論文集 2013.2 (2013): 93-98.](https://oku.edu.mie-u.ac.jp/~okumura/SSS2013.pdf) - [PDF版](https://oku.edu.mie-u.ac.jp/~okumura/SSS2013slide.pdf) - [紹介:論文『「ネ申 Excel」問題』が話題に](https://www.softantenna.com/wp/software/kami-excel-problem/) ### 本 - [図解入門ビジネス 最新データ流通ビジネスがよ~くわかる本](https://www.amazon.co.jp/dp/4798060402/) - 「データと機械判読性」「データとアクセシビリティ」でバッドデータ、グッドデータの例をとりあげてます。 - [バッドデータハンドブック ―データにまつわる問題への19の処方箋](https://www.amazon.co.jp/dp/4873116406) - ちょっと前の本ですが、考え方などは参考になります - [Qiita書評](https://qiita.com/kaeken1jp/items/7f79fb6a966e115ecd69) - [前処理大全 データ分析のためのSQL/R/Python実践テクニック](https://www.amazon.co.jp/dp/4774196479) - [数万件の汚いエクセルデータに困っている人のための Excel多量データクレンジング](https://www.amazon.co.jp/dp/4798059226) - VBAを駆使している ### ツール - クレンジングツール - 初級 - [OpenRefine](https://openrefine.org/) - OSS - [OpenRefineで神エクセルと戦う](https://qiita.com/higa4/items/5c2b2630bfd91e064f67) - [QiitaのOpenRefineタグ](https://qiita.com/tags/openrefine) - [Pandas](https://aiacademy.jp/media/?p=152) - Pythonのライブラリ - [Google Colaboratory](https://gammasoft.jp/blog/google-colaboratory-for-learning/)にもデフォルトでインストールされている - [データ分析初心者のためのPandas学習サイト](https://yolo.love/pandas/) - [データ分析で頻出のPandas基本操作](https://qiita.com/ysdyt/items/9ccca82fc5b504e7913a) - [【Pandas】データのクリーニングをする](https://ymgsapo.com/2019/07/10/pandas-cleaning-data/) - [Tableau Prep](https://www.tableau.com/ja-jp/products/prep#video) - 有償 - [Tableau Creatorライセンスが必要](https://www.tableau.com/ja-jp/pricing/teams-orgs) - 中上級 - [Google Cloud Dataprep](https://cloud.google.com/dataprep?hl=ja) - [オンライン教習の字幕](https://note.com/hiroyukiyokoyama/n/n81c26948424b) - [AWS glew](https://aws.amazon.com/jp/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) - [[AWS]AWSGlueを使ってデータをクレンジングする](https://qiita.com/is_ryo/items/1720b875425015401898) ### 住職のひと言 1. データを作る時は、日付は和暦や仏暦ではなく、西暦で。 1. グラフを見る時には 1.注釈 2.出典元 3.更新日 を必ずチェックしましょう。 1. 「データ」とは、「情報」を処理や共有に適した形に形式化したものであるため、再度「情報」に変換できる必要があります。 1. セル結合は許しません。 1. 何でもかんでも紙に印刷する時代はもう終わりです。紙前提のフォーマットから抜け出しましょう。 1. エビデンスに基づかない施策は、民間療法で病気を直そうとするようなものです。かえって状況を悪化させていませんか? 1. Excelでcsvを開いた時、文字化けしてしまったら。慌てずそっ閉じして、新規作成→インポートできっとうまく行きます。 2. BADデータの供養でExcelのテキスト置換や関数、前処理ツール等を使う時。誤変換で二次災害を起こさないように細心の注意を払いましょう。 3. 好きでデータ供養やってるわけじゃないんです。その先がやりたいんです。 4. データは組み合わせて使うことで価値が増します。そのため、組み合わせやすく作られたデータがGOODデータです。 5. データを作る時は、「同上」「〃」等を使ってはいけません。 6. データは世の中の事象の一面を切り取ったものにすぎません。そのデータに現れていない事象は何であるか、常に考えましょう。 7. BADデータを作ってしまうとその除霊や供養にはその何倍ものコストがかかります。お金は大切に。 8. もう「終わりの始まり」にしましょう。 9. 取り消し線は人しかわかりません。 10. データを作る時、レイアウトを整える目的で全角・半角スペースを使ってはいけません。