BigLaw @ g0v

希望各位會喜歡,也歡迎來貢獻與討論!
http://biglaw.tw
https://github.com/biglawtw/biglaw





我們是誰?為什麼做這個?

  • 沒有人,之前是北科大的學生
  • 為了參加Open Data創新應用競賽,拿特優
  • 這個服務叫做 BigLaw - 開放法律判決智慧檢索與分析應用
  • 原本想商業化,但是人手不足乾脆開放 (?

法院的資料很難看又很難用!

  • 網站不友善
    • 阻擋來源 (沒辦法好好分享)
    • 鎖IP、半夜伺服器會休息 (爬蟲器哭哭)
    • 搜尋條件超複雜 (先選法院再選類別日期等逼哩八啦)
  • 裁判書不友善
    • 純文字 (沒有任何 metadata)
    • 硬斷行 (hard-wrap)
    • 格式凌亂 (段落、關鍵用詞可能不同)
    • 對齊用等寬字 (細明體只有 Windows 有)
    • 純文字圖表 (在不同螢幕寬度顯示會爆炸)
  • 市場壟斷
    • 目前市場上有名的服務有:法源、植根、元照、裁判家
    • 其實這些服務不是做的非常好 (每間各有優缺點),需要新的力量將這塊基礎建設做好

所以我們可以做什麼?

  • 做一個開放的服務
    • 免費使用
    • 方便分享與連結
    • 大家一起做筆記 (法律麻瓜也看得懂)
  • 做一個開放的格式
    • 很容易Parse
    • 開放API
    • 使加值更容易

BigLaw 做了什麼?

  • 一個搜尋框、一個搜尋框、一個搜尋框!
  • 簡易的排序與篩選
  • 兩個圖表
  • 回應式網站 (各種裝置都可以用)
  • 自動段落與目錄
  • 結合 g0v 法規亦毒氣
  • 司法院裁判書查詢系統 爬蟲器 (使用暴力的 Tor)
  • 裁判書分析器 (基於 python 的超強力 regex 分析)

BigLaw 目前資料範圍

  • 資料筆數:33萬筆左右 (raw data 消失了)
  • 資料年份:2013/1/1 ~ 2014/7/31
  • 裁判書類型:刑事、民事(應該只有一點點)

以下開放討論!

隨便說都可以啦!!!

tags: BigLaw