--- title: JMRX技術勉強会 #10 tags: JMRX description: IMIコンポーネントツール --- ### 「経産省発!オープンソースによるデータ標準化ツールのMR応用とそのインパクト」 JMRX技術勉強会 #10 <!-- Put the link to this slide here so people can follow --> link: https://hackmd.io/p/c1QwjBZwTfWLKE3jFmVwoQ?both --- ### 第10回は「経産省発!オープンソースによるデータ標準化ツールのMR応用とそのインパクト」 --- - 2020年5月27日に経済産業省が発表 - 「gBizINFO」(「世界最先端IT国家創造宣言」(閣議決定)に基づき運用している情報提供サイト)- - IMIコンポーネントツールとは、 - 住所や法人種別名、電話番号といった文字列の表記ゆれを修正したり、正規化してくれるツール - すでに様々な活用がされています。 --- ## [IMIとは | IMI 情報共有基盤](https://imi.go.jp/imi/) - 名前はかっこいい ---- ![](https://imi.go.jp/contents/2018/10/infrastructure.png) - 共通語彙基盤 - 文字情報基盤 のふたつから構成される --- ### 文字情報基盤 - 人名に用いられる漢字を整備するプロジェクト ---- - [文字情報基盤整備事業 | IPA 文字情報基盤整備事業に関するWebサイトです](https://mojikiban.ipa.go.jp/) ---- [![Image from Gyazo](https://i.gyazo.com/817a06dd937fa805cce87615afe4026d.png)](https://gyazo.com/817a06dd937fa805cce87615afe4026d) ---- - 見るからに<del>めんどくさい</del>大変そうな行政外字の問題 --- ## 本日は共通語彙基盤 ---- - [共通語彙基盤 | IMI 情報共有基盤](https://imi.go.jp/goi/) ---- - よくまとまってる資料 - [IMI事例共有・勉強会 IMI共通語彙基盤の(最低限おさえておきたい)技術仕様/記法の解説](https://imi.go.jp/contents/2019/04/20181221_01.pdf) ---- - 要するにデータの相互連関性を高める社会的活動 --- ## データの相互連関性を高める活動 ---- ### いつか来た道? * [東芝レビュー2001年11月](https://www.toshiba.co.jp/tech/review/2001/11/56_11pdf/a02.pdf) [![Image from Gyazo](https://i.gyazo.com/f4c7437a7fd36268411305c037027fde.png)](https://gyazo.com/f4c7437a7fd36268411305c037027fde) ---- ### データ標準化の取り組み #### XML,RDF,Wikidata ---- ### オープンデータ - 二次利用可能、機械可読可能な形での流通性の高いデータを公開する動き - [オープンデータ | 政府CIOポータル](https://cio.go.jp/policy-opendata) ---- ### 関連プロジェクト - [ウィキデータ:はじめに - Wikidata](https://www.wikidata.org/wiki/Wikidata:Introduction/ja) - [小池百合子 - Wikipedia](https://ja.wikipedia.org/wiki/%E5%B0%8F%E6%B1%A0%E7%99%BE%E5%90%88%E5%AD%90) ---- [![Image from Gyazo](https://i.gyazo.com/b39667d41c4980e45edf8a81bdd37219.png)](https://gyazo.com/b39667d41c4980e45edf8a81bdd37219) ---- - 社会的意義は高いが普及するかどうか課題感がある --- ### とはいえ、目の前に名寄せしたい住所データは存在しており、取り扱いに困る現実 ---- そこで、 ### 共通のデータ使って相互運用性を目指す * [IMI共通語彙基盤 コア語彙 バージョン2.4.2 | IMI 情報共有基盤](https://imi.go.jp/core/core242/) ---- 例えば連絡先型 * [IMI情報共有基盤 共通語彙基盤 コア語彙2.4.2](https://imi.go.jp/ns/core/Core242.html#ic:%E9%80%A3%E7%B5%A1%E5%85%88%E5%9E%8B) ---- 今回公開されたコンポーネントツールはこれらのデータ標準に基づいたデータに整形するプログラム * [IMI 情報共有基盤 コンポーネントツール](https://info.gbiz.go.jp/tools/imi_tools/) --- 今回のコンポーネントツールの実例 ---- ### imi-enrichment-address > 入力となる JSON-LD に含まれる 住所>表記 をもつ 場所型 または 表記をもつ住所型 に対して各種のプロパティを補完して返します。 > 入力が 住所>表記 をもつ 場所型 の場合には地理座標と住所型の各プロパティが補完されます。 ----- ### imi-enrichment-contact > 入力となる JSON-LD に含まれる 電話番号 をもつ 連絡先型 に対して正規化を行います。 > input.json ```input.json { "@type": "連絡先型", "電話番号": "03-5253-2111(内線31427)" }``` > output.json ```output.json { "@type": "連絡先型", "電話番号": "(03)5253-2111", "内線番号": "内線31427" }``` > ルート直下の 連絡先型 に限らず、JSON-LD に含まれるすべての 連絡先型 に対して作用します > 電話番号 プロパティの値が 0-9 の数字及び + - ( ) , になるような文字種正規化を行い、値を更新します > 電話番号 プロパティの電話番号部分が後述のパターンに合致する場合には、番号がカッコ/ハイフンを用いてフォーマットされます > 電話番号 プロパティの電話番号部分の後にカッコつきの追加情報がある場合には 内線番号 プロパティの付与を行います > 電話番号 プロパティの正規化ができなかった場合には メタデータ プロパティにメッセージが記述されます ---- ### imi-enrichment-hojin >入力となる JSON-LD に含まれる ID>識別値 をもつ 法人型 に対して各種のプロパティを補完して返します。 >input.json ```input.json { "@type": "法人型", "ID" : { "@type": "ID型", "識別値" : "4000012090001" } }``` ---- > output.json ```output.json { "@type": "法人型", "組織種別": { "@type": "コード型", "コード種別": { "@type": "コードリスト型", "表記": "法人種別" }, "識別値": "101", "表記": "国の機関" }, "ID": { "@type": "ID型", "体系": { "@type": "ID体系型", "表記": "法人番号" }, "識別値": "4000012090001" }, "表記": "経済産業省", "名称": { "@type": "名称型", "表記": "経済産業省", "ローマ字表記": "Ministry of Economy, Trade and Industry", "カナ表記": "ケイザイサンギョウショウ" }, "住所": [ { "@type": "住所型", "種別": "国内所在地", "表記": "東京都 千代田区 霞が関1丁目3-1", "郵便番号": "1000013", "都道府県": "東京都", "都道府県コード": "http://data.e-stat.go.jp/lod/sac/C13000", "市区町村": "千代田区", "市区町村コード": "http://data.e-stat.go.jp/lod/sac/C13101" }, { "@type": "住所型", "種別": "国内所在地(英語表記)", "表記": "1-3-1, Kasumigaseki, Chiyoda ku, Tokyo", "都道府県": "Tokyo" } ] }``` > 補完される情報は 国税庁法人番号公表サイト で公開されている情報を 法人型 にマッピングしたものとなります > データソースは 国税庁法人番号公表サイト・基本3情報 をダウンロードしたものです > 本パッケージに添付されているデータは 令和元年12月27日更新 のものになります > 所与の法人番号に問題がある場合には メタデータ プロパティにメッセージが記述されます`> --- ### 色々展開応用されている * [経産省がソースコードを公開したソフトを配布、進む市民との連携:日経ビジネス電子版](https://business.nikkei.com/atcl/seminar/19/00058/060200054/) * [行政がオープンソースに投資すべき理由|Hal Seki|note](https://note.com/hal_sk/n/nc9df8b8fd765) * [IMIコンポーネントツール ESモジュール版](https://code4sabae.github.io/imi-tools/) --- ## ユースケース 住所などのデータクリーニングに使えるのでは? https://www.google.com/search?q=%E4%BD%8F%E6%89%80+%E3%83%87%E3%83%BC%E3%82%BF%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0 DMの重複を確認するユースケース https://www.6-bleu.com/whats-new/case/290/