atokata
    • Create new note
    • Create a note from template
      • Sharing URL Link copied
      • /edit
      • View mode
        • Edit mode
        • View mode
        • Book mode
        • Slide mode
        Edit mode View mode Book mode Slide mode
      • Customize slides
      • Note Permission
      • Read
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Write
        • Only me
        • Signed-in users
        • Everyone
        Only me Signed-in users Everyone
      • Engagement control Commenting, Suggest edit, Emoji Reply
    • Invite by email
      Invitee

      This note has no invitees

    • Publish Note

      Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

      Your note will be visible on your profile and discoverable by anyone.
      Your note is now live.
      This note is visible on your profile and discoverable online.
      Everyone on the web can find and read all notes of this public team.
      See published notes
      Unpublish note
      Please check the box to agree to the Community Guidelines.
      View profile
    • Commenting
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
      • Everyone
    • Suggest edit
      Permission
      Disabled Forbidden Owners Signed-in users Everyone
    • Enable
    • Permission
      • Forbidden
      • Owners
      • Signed-in users
    • Emoji Reply
    • Enable
    • Versions and GitHub Sync
    • Note settings
    • Note Insights New
    • Engagement control
    • Make a copy
    • Transfer ownership
    • Delete this note
    • Save as template
    • Insert from template
    • Import from
      • Dropbox
      • Google Drive
      • Gist
      • Clipboard
    • Export to
      • Dropbox
      • Google Drive
      • Gist
    • Download
      • Markdown
      • HTML
      • Raw HTML
Menu Note settings Note Insights Versions and GitHub Sync Sharing URL Create Help
Create Create new note Create a note from template
Menu
Options
Engagement control Make a copy Transfer ownership Delete this note
Import from
Dropbox Google Drive Gist Clipboard
Export to
Dropbox Google Drive Gist
Download
Markdown HTML Raw HTML
Back
Sharing URL Link copied
/edit
View mode
  • Edit mode
  • View mode
  • Book mode
  • Slide mode
Edit mode View mode Book mode Slide mode
Customize slides
Note Permission
Read
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Write
Only me
  • Only me
  • Signed-in users
  • Everyone
Only me Signed-in users Everyone
Engagement control Commenting, Suggest edit, Emoji Reply
  • Invite by email
    Invitee

    This note has no invitees

  • Publish Note

    Share your work with the world Congratulations! 🎉 Your note is out in the world Publish Note

    Your note will be visible on your profile and discoverable by anyone.
    Your note is now live.
    This note is visible on your profile and discoverable online.
    Everyone on the web can find and read all notes of this public team.
    See published notes
    Unpublish note
    Please check the box to agree to the Community Guidelines.
    View profile
    Engagement control
    Commenting
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    • Everyone
    Suggest edit
    Permission
    Disabled Forbidden Owners Signed-in users Everyone
    Enable
    Permission
    • Forbidden
    • Owners
    • Signed-in users
    Emoji Reply
    Enable
    Import from Dropbox Google Drive Gist Clipboard
       Owned this note    Owned this note      
    Published Linked with GitHub
    • Any changes
      Be notified of any changes
    • Mention me
      Be notified of mention me
    • Unsubscribe
    # 修論 メモ ## イントロ ### 研究背景 司法判断やローン承認などの重要な意思決定タスクへの機械学習モデルの適用において,モデルの解釈可能性に関する懸念が高まっている[Guidotti:CSUR,Rudin:NMI2019]. モデルの予測に基づく意思決定が個人に大きな影響を与える可能性がある場合,意思決定者は意思決定の理由を提供し,ユーザーにその正しさを保証しなければならない[Rudin:NMI2019]。 そのため、決定木やルールセット、ルールリストなどの解釈可能なモデルの学習が近年注目されている[hastie2001eslbook,Guidotti:CSUR,angelino:rudin:kdd2017corels,hara:ishihata:aaai2018rulemodels]. これらのモデルは解釈可能な形(シンプルな"if-then"ルールの組み合わせ)で表現されているため、モデルがどのように予測を行うのかを、人が容易に理解し、検証することができます。 最近では、解釈可能なモデルについて、異なる特徴を用いることで、ほぼ同等の精度を持つ複数のモデルが存在するという状況についても懸念されている。[semenova:rudin:parr:arxiv2019rashomon,Marx:ICML2020,Hancox-Li:FAT2020] Breiman[breiman:statsci2001twocultures]は、このような現象を「羅生門効果」と名付け、モデルに対する解釈の多重性の問題を指摘している。 Fisher, Rudin, and Dominica[Fisher:JMLR2019]は,これらの観察結果に触発されて,最適に近い精度を達成するモデルの集合を特徴づける研究を開始しました(これを彼らは「羅生門セット」と呼びました). 大雑把に言うと、ある誤差許容度$\varepsilon \geq 0$を持つモデルクラスのRashomon setは以下のように定義されます。 $$ \mathcal{R}_{\varepsilon} := \{h \in \mathcal{H} | L(h) \leq L(h^*) + \varepsilon \} $$ ここで、$L$は経験的リスクであり、$h^* \in \mathcal{H}$は経験的リスクを最小化する最適モデルである。 このように$\mathcal{R}_\varepsilon$に含まれるモデルは、同じような精度を達成するものの、個々の入力に対する予測が著しく異なることが多く、異なる性質を持つ可能性がある[Rudin:NMI2019,Marx:ICML2020,Hancox-Li:FAT2020]。 このように、羅生門セット$\mathcal{R}_\varepsilon$を特徴づけることは、特定の予測問題に対するあるモデルクラス$\mathcal{H}$の信頼性を検証する上で重要な役割を果たします。 [Marx:ICML2020]. 羅生門セットには、多様な振る舞いを持つ、ほぼ同じ精度のモデルが含まれる可能性があるため、羅生門セットの特徴付けは、特定の予測問題に対するあるモデルクラス$\mathcal{H}$の信頼性を検証する上で重要な役割を果たします[Rudin:NMI2019,Rudin:arXiv2021]。 羅生門セットを特徴づける基準は、様々な観点からいくつか提案されています。 例えば,羅生門集合の特徴としては,解釈可能性[Fisher:JMLR2019]だけではなく,モデル空間に対する体積の比率[Semenova:rudin:parr:arxiv2019rashomon], だけでなく、予測多重性(Predictive multiplicity)[Marx:ICML2020]やFairness~Coston:ICML2021,Aivodji:NIPS2021}もあります。 羅生門集合$\mathcal{R}_\varepsilon$を既存の基準で特徴づけるためには、与えられたデータセット上で、あるモデルクラス$\mathcal{H}$に対する$\mathcal{R}_\varepsilon$を計算する必要がある場合が多い。 しかし,羅生門集合を計算するアルゴリズムは近似的なものを除いてほとんどなく,正確に計算することは困難である。 Semenovaは決定木の羅生門集合を近似的に計算するためのサンプリングベースのランダム生成法を発表しました。 一方でRuggieri[Ruggieri:ICML2017]は異なる決定木を体系的に列挙するアルゴリズムを提案していますが、原・石畠[hara and Ishihata~hara:ishihata:aaai2018rulemodels]はLawler法 framework~Lawler:MS1972}を用いてtop-$K$個の異なるルールリストとルールセットを列挙する効率的なアルゴリズムを提案しています。 既存の手法[semenova:rudin:parr:arxiv2019rashomon, hara:ishihata:aaai2018rulemodels]は、複数の異なるモデルの集合を提供することができますが、それらは対象となる羅生門集合$\mathcal{R}_\varepsilon$の中で最適に近いモデルのサブセットを生成することができるランダム化または近似的なアルゴリズムです。 したがって、現実のデータセット上で解釈可能なモデルのクラスのための羅生門セットを正確に計算し、羅生門セットを特徴づける既存の基準を測定した人はいません[Rudin:NMI2019]。 私たちの貢献は以下のようにまとめられます。 ルールリストクラスの羅生門集合を計算するための厳密なアルゴリズム**CorelsRS**を提案します。 本アルゴリズムは、単一の最適なルールリストを学習するための洗練された分岐結合アルゴリズムであるCORELSに基づき、ルールの長さなどの特定の制約の下で、与えられたデータセット上の羅生門セットのすべてのルールリストを効率的に列挙することができます。 COMPAS datasetを用いた実験により、我々の提案したアルゴリズムが羅生門集合の全てのルールリストを列挙することに成功したことを確認した。 さらに,本アルゴリズムで得られた羅生門集合を用いて,COMPASデータセット上のルールリストの特性を,predictive multiplicity[Marx:ICML2020],unfairness range[Coston:ICML2021, Aivodji:NIPS2021]の観点から分析した. ### 研究目的 ### 研究内容 ### アブスト 司法判断のような重要な意思決定タスクへの機械学習モデルの適用においては、異なる特徴に依存して同様の精度を達成するモデルが複数存在することが多く、これを "羅生門効果 "と呼んでいます。 このようなモデルの集合は「羅生門集合」と呼ばれ、多様な振る舞いをするほぼ同等の精度のモデルが含まれている可能性があるため、羅生門集合を特徴づけることは、特定の予測問題に対する特定のモデルクラスの信頼性を、その解釈可能性、予測の多義性、公平性の観点から検証する上で重要な役割を果たします。 しかし、既存の手法では 羅生門集合を近似的に計算するもので、あるモデルクラスの羅生門集合を正確に計算するには 羅生門集合を正確に計算することはまだ困難である。 本論文では、解釈可能なモデルとしてよく知られているルールリストのクラスに注目し、ルールリストの羅生門集合の厳密な計算方法を研究します。 羅生門集合を正確に計算するために、最適なルールリストを学習する最新のアルゴリズムであるCORELSを拡張し、効率的なルールリストを提案します。羅生門集合のすべてのルールリストを列挙する効率的なアルゴリズムを提案する。羅生門集合のすべてのルールリストを列挙する効率的なアルゴリズムを提案する. 提案したアルゴリズムを用いて 提案したアルゴリズムを用いて,COMPASデータセットで学習したルールリストの羅生門セットを分析した.COMPASデータセットで学習されたルールリストの羅生門セットを、その予測の多さと公平性の観点から分析した。公平性の観点から分析した。 ## 準備 ### \subsection{Notation} 正の整数$n, m \in \mathbb{N}, n \leq m$とし、$[n]:=\{1, ..., n\}, [n, m] :=\{n, n+1, ..., m\}$とする。命題$\psi$に対して、$\mathbb{I}[\psi]$は指示関数である。もし$\psi$が真ならば、$\mathbb{I}[\psi]=1$であり、もし$\psi$が偽ならば、$\mathbb{I}[\psi]=0$である。 この論文では、予測問題として二値分類問題(binary classification problem)を考える。ここで、$\mathcal{J} \in \mathbb{ N}$は特徴量数である。入力と出力をそれぞれ$\mathcal{X} \subseteq \mathbb{R}^{\mathcal{J}}, \mathcal{Y}=\{0, 1\}$とする。他のほとんどのルールリストを学習する研究のように[citation]、全ての特徴量は二値特徴量であると仮定する。すなわち、$\mathcal{X}=\{0, 1\}^{\mathcal{J}}$である。例(example)は入力ベクトル$\bold{x}=(x_1, ..., x_{\mathcal{J}}) \in \mathcal{X}$と出力ラベル$y \in \mathcal{Y}$のタプル$(\bold{x}, y)$である。また、サンプル(sample)は$N$個の例の集合$S=\{(\bold{x}_n, y_n)^{N}_{n=1}\}$である。関数$h:\mathcal{X} \rightarrow \mathcal{Y}$を\itaric{分類機}(classifier)と呼ぶ。 分類機$h$とサンプル$S$が与えられたとき、$h$の経験的リスク(empirical risk)を以下のように定義する。 $$L(h|S):=\frac{1}{N}\sum^{N}_{n=1}{l(y_n, h(\bold{x}_n)} \in [0, 1]$$ ここで、$l: \mathcal{Y} \times \mathcal{Y} \rightarrow \mathbb{R}_{\geq 0}$は損失関数であり、予測$h(\bold{x})$と真のラベル$y$の違いを測る関数である。この論文では、0-1損失$l(y, \hat{y})=\mathbb{I}[y \neq \hat{y}]$を仮定する。$S$上の$h$の誤分類数(number of misclassifications)を$ \#Err(h|S)):= \sum^{N}_{n=1}{l(y, h(\bold{x}_n)) \in [0, ..., N]}。ここで、$L(h|S)= \frac{1}{N} \#Err(h|S)$である。 \subsection{Rule List} この研究では、分類機のクラスとして、以下で定義する\bold{ルールリスト}(Rule List)と呼ばれる予測モデルに着目する。$J$個の特徴量の集合$[J]$を仮定すると、$\mathcal{X}=\{0, 1\}^{J}$上の連言(term)$t$はブーリアン特徴量の論理積$t=(x_{i_1} \wedge \cdots \wedge x_{i_l})$であり、これは$t$が真なら〜のような、Boolean assertion $t_1 : \mathcal{X} \rightarrow \{0, 1\}$を表している。 語彙(vocabulary)と呼ばれる、タームの有限集合$\mathcal{T}=\{t_i\}^{M}_{i=1} \subseteq 2^{[J]}$を仮定する。例えば、$"(age=18-20) \wedge (sex=Male)"$は実験で使用したタームである。既存研究通り、$\mathcal{T}$は頻出アイテムマイニングアルゴリズムを用いて、事前に列挙してあると仮定する。 $\mathcal{T}$上の長さ$K \geq 0$のルールリストは$K$個の異なるassociation rulesであり、$k=1, ..., K$に対して、$r_k = (t_k \rightarrow q_k) \in \mathcal{T} \times \mathcal{Y}$で構成されている$(K+1)$-タプル $d=(r_1, ..., r_K, r_{K+1})$である。(要確認) ########## T上の長さK ≥ 0のルールリストは、k = 1, ... ... , Kについて、K個の明確な連想ルールrk = (tk → qk) ∈ T × Yからなる(K + 1)タプルd = (r1,...,rK,rK+1)である。, Kである。これは、条件文「if t, then q」に続くデフォルトルールrK+1 = (1 → q0) ∈ {1} × Yに対応する。× ここで,1は真を表す。 前置詞tk : X → {0, 1}は入力ベクトルxに対する前提条件であり、後置詞q∈Yは入力ベクトルxに対する条件を示す。 sequent q∈Yは予測値yを示す。図1はルールリストの一例である。 すべてのk ≤ Kに対して,π = (r1,...,rk)は,長さlen(π)=kのdの前置詞である. また ◦でルールの連結を表す。 HとH⩽Kで表すと、すべてのルールリストとすべてのルールリストのクラスTT のクラスをHとH⩽Kとします.それぞれ,T上のすべてのルールリストと最大K≧0の長さのすべてのルールリストのクラスです. ############### サンプル$S$、トレードオフパラメータ$\lambda \geq 0$、候補タームの集合$\mathcal{T}$が与えられたとき、ルールリストの学習問題は以下のように定式化される: $$ h_{d^*} = \arg \min_{h_{d} \in \mathcal{H}_{\mathcal{T}}} R_{\lambda}(h_d | S) := L(h_d | S) + \lambda \cdot |d|. $$ 上の問題の最適解を見つけるのは困難な組合せ最適問題であるが、この問題はCORELSのような最近の分枝限定法による最適化アルゴリズムを用いることで、効率的に解くことができる。 ルールリストは"if then else"で表されるような予測モデルである。 \section{Problem Statement} この章では、ルールリストに対する羅生門集合を厳密に計算する問題を正式に定義する。また、羅生門集合を解析する指標について紹介する。 \subsection{Computation of Rashomon Sets} 良いモデルを特徴づけるため、準最適な精度を達成するモデルの集合として、羅生門集合が紹介されている。予測問題$(\mathcal{X}, \mathcal{Y})$に対して、$\mathcal{H}$を分類機$h : \mathcal{X} \rightarrow \mathcal{Y}$の集合とする。$\mathcal{H}$を\iter{モデルクラス}と呼ぶ。既存研究に従って、羅生門集合をある損失関数$l$と与えられた誤差許容度$\varepsilon \geq 0$に関して、与えられた\iter{基準モデル}(reference classifier)$h_0 \in \mathcal{H}$に近い精度を達成する分類機の部分集合として定義する \definition 1 モデルクラス$\mathcal{H}$、基準モデル$h_0 \in \mathcal{H}$、サンプル$S$と誤差許容度$\varepsilon \geq 0$が与えられたとき、羅生門集合$R_\varepsilon (h_0 | S)$は以下のように定義される: $$ R_\varepsilon (h_0 | S) := \{ h \in \mathcal{H} | L(h | S) \leq L(h_0 | S) + \varepsilon \}. $$ 既存研究と同様に、基準モデル$h_0$を学習問題に対して、CORELSを用いることで得られる最適なルールリスト$h_{d^*}$と仮定する。注意点として、本研究の結果と基準モデル$h_0$の選び方は無関係である。 モデルクラス$\mathcal{H}_{\mathcal{T}}^{\leqslant K}$を解析する最初の問題を以下のように正式化する。 \Problem 1 与えられたサンプル$S$、タームの集合$\mathcal{T}$、基準モデル$h_0$、誤差許容度$\varepsilon \leq 0$とルールリストの長さ$K \leq 0$に対して、羅生門集合$R_{\varepsilon}(h_0 | S) \subseteq \mathcal{H}_{\mathcal{T}}^{\leqslant K}$を計算する。 問題1を解くことによって、ルールリストの羅生門集合$R_{\varepsilon}(h_0 | S)$を得ることができる。また、与えられた予測問題$S$上のモデルクラス$\mathcal{H}_{\mathcal{T}}^{\leqslant K}$の性質を次のsubsectionで説明する様々な視点から解析することができる。 \subsection{Evaluation Criteria for Characterizing Rashomon Set} あるモデルクラスの性質を特徴づけるためのいくつかの有用な指標が提案されている。 \subsection{} \subsubsection{Predictive Multiplicity} \subsubsection{Unfairness Range} \section{Algorithm} \subsection{} \subsection{}

    Import from clipboard

    Paste your markdown or webpage here...

    Advanced permission required

    Your current role can only read. Ask the system administrator to acquire write and comment permission.

    This team is disabled

    Sorry, this team is disabled. You can't edit this note.

    This note is locked

    Sorry, only owner can edit this note.

    Reach the limit

    Sorry, you've reached the max length this note can be.
    Please reduce the content or divide it to more notes, thank you!

    Import from Gist

    Import from Snippet

    or

    Export to Snippet

    Are you sure?

    Do you really want to delete this note?
    All users will lose their connection.

    Create a note from template

    Create a note from template

    Oops...
    This template has been removed or transferred.
    Upgrade
    All
    • All
    • Team
    No template.

    Create a template

    Upgrade

    Delete template

    Do you really want to delete this template?
    Turn this template into a regular note and keep its content, versions, and comments.

    This page need refresh

    You have an incompatible client version.
    Refresh to update.
    New version available!
    See releases notes here
    Refresh to enjoy new features.
    Your user state has changed.
    Refresh to load new user state.

    Sign in

    Forgot password

    or

    By clicking below, you agree to our terms of service.

    Sign in via Facebook Sign in via Twitter Sign in via GitHub Sign in via Dropbox Sign in with Wallet
    Wallet ( )
    Connect another wallet

    New to HackMD? Sign up

    Help

    • English
    • 中文
    • Français
    • Deutsch
    • 日本語
    • Español
    • Català
    • Ελληνικά
    • Português
    • italiano
    • Türkçe
    • Русский
    • Nederlands
    • hrvatski jezik
    • język polski
    • Українська
    • हिन्दी
    • svenska
    • Esperanto
    • dansk

    Documents

    Help & Tutorial

    How to use Book mode

    Slide Example

    API Docs

    Edit in VSCode

    Install browser extension

    Contacts

    Feedback

    Discord

    Send us email

    Resources

    Releases

    Pricing

    Blog

    Policy

    Terms

    Privacy

    Cheatsheet

    Syntax Example Reference
    # Header Header 基本排版
    - Unordered List
    • Unordered List
    1. Ordered List
    1. Ordered List
    - [ ] Todo List
    • Todo List
    > Blockquote
    Blockquote
    **Bold font** Bold font
    *Italics font* Italics font
    ~~Strikethrough~~ Strikethrough
    19^th^ 19th
    H~2~O H2O
    ++Inserted text++ Inserted text
    ==Marked text== Marked text
    [link text](https:// "title") Link
    ![image alt](https:// "title") Image
    `Code` Code 在筆記中貼入程式碼
    ```javascript
    var i = 0;
    ```
    var i = 0;
    :smile: :smile: Emoji list
    {%youtube youtube_id %} Externals
    $L^aT_eX$ LaTeX
    :::info
    This is a alert area.
    :::

    This is a alert area.

    Versions and GitHub Sync
    Get Full History Access

    • Edit version name
    • Delete

    revision author avatar     named on  

    More Less

    Note content is identical to the latest version.
    Compare
      Choose a version
      No search result
      Version not found
    Sign in to link this note to GitHub
    Learn more
    This note is not linked with GitHub
     

    Feedback

    Submission failed, please try again

    Thanks for your support.

    On a scale of 0-10, how likely is it that you would recommend HackMD to your friends, family or business associates?

    Please give us some advice and help us improve HackMD.

     

    Thanks for your feedback

    Remove version name

    Do you want to remove this version name and description?

    Transfer ownership

    Transfer to
      Warning: is a public team. If you transfer note to this team, everyone on the web can find and read this note.

        Link with GitHub

        Please authorize HackMD on GitHub
        • Please sign in to GitHub and install the HackMD app on your GitHub repo.
        • HackMD links with GitHub through a GitHub App. You can choose which repo to install our App.
        Learn more  Sign in to GitHub

        Push the note to GitHub Push to GitHub Pull a file from GitHub

          Authorize again
         

        Choose which file to push to

        Select repo
        Refresh Authorize more repos
        Select branch
        Select file
        Select branch
        Choose version(s) to push
        • Save a new version and push
        • Choose from existing versions
        Include title and tags
        Available push count

        Pull from GitHub

         
        File from GitHub
        File from HackMD

        GitHub Link Settings

        File linked

        Linked by
        File path
        Last synced branch
        Available push count

        Danger Zone

        Unlink
        You will no longer receive notification when GitHub file changes after unlink.

        Syncing

        Push failed

        Push successfully