比較法模型 - HackMD

# 比較法模型 - 比較法與智金新方法簡介: - 建模方法說明: - 符號定義 - Approach I: 關係式為線性回歸 - Approach II: 線性回歸改為Neural Additive Model - Approach III: 線性回歸改為 - 符合法規之機制 ## 比較法與智金新方法簡介: ### 傳統人工的比較法步驟: 1. 人工挑選3個和目標案例相似的比較案例 2. 根據比較案例與目標之差異評估各案例的勘估價格 2.1: 調查比較案例與目標案例於四大因素的差異 2.2: 依據經驗判斷各種因素差異對價格之影響決定該差異所貢獻之調整額 2.3: 由各因子對應之總調整額計算各比較案例的勘估價格 3. 依據各比較案例與目標案例相似度與各比較案例的可信度評估其貢獻權重，再將各比較案例的勘估價格依權重進行加權而得 ### 比較法法規22條所提及之計量模型分析法步驟: [*計量模型分析法：蒐集相當數量具代表性之比較標的，透過計量模型分析，求出各主要影響價格因素與比較標的價格二者之關係式，以推算各主要影響價格因素之調整率及調整額之方法。*](https://law.moj.gov.tw/LawClass/LawAll.aspx?pcode=D0060077) 1. 人工或依業務經驗之相似計算規則自動挑選N個和目標案例相似的比較案例 (N的數量需為模型自變數5倍以上) 2. 求出各主要影響價格因素與比較標的價格二者之關係式 y = f(x1, x2, ..., xk) 3. 由此關係式計算各比較標的之勘估價格 y1, y2, ..., yN 4. 人工或自動判斷各比較案例之權重，將各勘估價格進行加權 5. 不符合法規規範之比較案例，人工排除 (NOTE: 第25條規定: 任一單獨項目之價格調整率大於百分之十五，或總調整率大於百分之三十時，判定該比較標的與勘估標的差異過大，應排除該比較標的之適用) 6. 若因挑選之案例可信度不高，以致於關係式不符合法規所規範之統計上要求，須人工重新挑選可信度或相似性更高之比較標的。 (NOTE: 第20條 - 1. 截距項以外其他各主要影響價格因素之係數估計值同時為零之顯著機率不得大於百分之五; 2. 計量模型分析採迴歸分析者，其調整後判定係數不得低於零點七) ### 現行自動估價服務之作法: (待與消金orPM確認與討論) ### 智金提出之比較法模型 1. 模型自動挑選案例並求取比較標的關係式 2. 各比較標的調整額、權重可由估價師人工調整。 3. 比較案例數量N可以彈性調整 (預設N為自變數五倍以上，但若經估價師判斷需人工調整，可將N調降) 4. 前端或報告中呈現之比較案例依據權重排序，使估價師可關注權重大之案件進行調整。 5. 若無人工調整必要，可符合比較法規對計量模型分析所需之規範: 5.1. 第22條 - N為自變數五倍以上 5.2. 第20條之一 - 計量模型分析採迴歸分析者，其判定係數不得低於零點七 5.3. 第 25 條 - 任一單獨項目之價格調整率大於百分之十五，或總調整率大於百分之三十時，判定該比較標的與勘估標的差異過大，應排除該比較標的之適用 ## 建模方法說明: ### **符號定義:** The ith feature of house j: $$x^i_{j} $$ Features of house j: $$X_j$$ The estimated price of house j: $$y_{j} $$ The estimated price generated from price of house j for target house t $$y^t_j$$ The real ground truth price of a target house t $$\hat{y}_t$$ The neighbors of house j $$N_j$$ A fully connected neural network outputing variable q $$f^q(*)$$ Price weighting of neighbors $$w^p_n$$ Generated Similarity between house n and t $$s_{n,t}$$ Delta price of house n and t on feature i $$\delta^{x^i}_{n,t}$$ ### Approach I 關係式為線性回歸: --- (1)定義影響因素與勘估價格的線性關係式為： $$y=f^y(x)=\alpha_t^Tx+\beta_t$$ (2)線性關係之係數由深度學習層學習自動求得： $$\alpha_t=f^\alpha(x_t;x_{n \in N_t};\hat{y}_{n \in N_t})$$ $$\beta_t=f^\beta(x_t;x_{n \in N_t};\hat{y}_{n \in N_t})$$ (3.1)相似性定義為各影響因素差異並加權後求得： Design it to be a differentiable similarity kernel for euclidean space: $$s_{n,t}=\frac{1}{1+||\delta_{n,t}||_2}$$ where $$\delta^{x^i}_{n,t}=\alpha_t^i(x^i_t-x^i_n)$$ and the euclidean space is denoted as $$v=[\alpha_t^1x^1,\alpha_t^2x^2,...,\alpha_t^kx^k]$$ (3.2)比較標的資料可信度定義為其residual $$||f^y(x_n) - \hat{y}_n||_2$$ (3.3)可以由比較標的的可信度與和目標標的的相似程度共同決定其權重 (融合3.1和3.2)： $$w^p_n=softmax(s_n;s_{n \in N_t})$$ where $$s_{n,t}=\frac{\tau}{1+\lambda_1||\delta_{n,t}||_2+\lambda_2||f^y(x_n) - \hat{y}_n||_2}$$ (4.1)將勘估價格進行加權平均計算出最終比較價格： $$y_{t}=\sum\limits_{n\in N_t}w^p_n y^t_n$$ where $$y^t_n-\hat{y}_n=f^y(x_t)-f^y(x_n)=\sum_{x_i \in X}{\delta^{x^i}_{n,t}}$$ $$\rightarrow y^t_n=\hat{y}_n+\sum_{x_i \in X}{\delta^{x^i}_{n,t}}$$ (4.2) 為確保各勘估標的調整額足夠小，需建立一個regularization term (*[第 25 條:任一單獨項目之價格調整率大於百分之十五，或總調整率大於百分之三十時，判定該比較標的與勘估標的差異過大，應排除該比較標的之適用](https://law.moj.gov.tw/LawClass/LawAll.aspx?pcode=D0060077)*) $$\sum\limits_{n \in N_t}{\frac{w^p_n}{\hat{y}^2_n}||\delta_{n,t}||^2_2}$$ (4.3)比較標的實際價格要與關係式估計值相符，也需建立一個regularization term $$\sum\limits_{n \in N_t}{\frac{w^p_n}{\hat{y}^2_n}}||f^y(x_n) - \hat{y}_n||^2_2 $$ (5) 彙整Objective Function 如下： $$min\sum\limits_{t \in T}(||\hat{y}_t -y_t||^2_2+\sum\limits_{n \in N_t}{\frac{w^p_n}{\hat{y}^2_n}(||\delta_{n,t}||^2_2}+||f^y(x_n)- \hat{y}_n||^2_2))$$ ### Approach II - 線性回歸改成Neural Additive Model *[規避法規第20條之二：計量模型分析採迴歸分析者，其判定係數不得低於零點七](https://law.moj.gov.tw/LawClass/LawParaDeatil.aspx?pcode=D0060077&bp=4)* --- (1)定義影響因素與勘估價格的關係式為NN： $$y=f^y(x)=\sum\limits_{x^i\in X_n}f^{x^i}_{\theta_{t}}(x^i_{ n})$$ (2)NN之參數由深度學習層學習自動求得： $$\theta_t=f^\theta(x_t;x_{n \in N_t};\hat{y}_{n \in N_t})$$ (3.1)相似性定義由各影響因素差異求得： Design it to be a differentiable similarity kernel for euclidean space: $$s_{n,t}=\frac{1}{1+||\delta_{n,t}||_2}$$ where $$\delta^{x^i}_{n,t}=f^{x^i}_{\theta_{t}}(x^i_{t})-f^{x^i}_{\theta_{t}}(x^i_{n})$$ and the euclidean space embedding is $$v=[f^{x^1}_{\theta_{t}}(x^1),f^{x^2}_{\theta_{t}}(x^2),...,f^{x^k}_{\theta_{t}}(x^k) ]$$ (3.2)(3.3)(4.1)(4.2)(4.3)(5) 同Approach I ### Approach III - Neural Network考慮同類因子間的互動關係因為[第20條之一](https://law.moj.gov.tw/LawClass/LawParaDeatil.aspx?pcode=D0060077&bp=4)規定使用之比較標的數量需為主要影響價格因素數量的5倍以上，可以透過採用四大因素使比較標的僅需挑選20個以上。定義主要影響價格因素為比較法之四大因素：情況因素(c1)、價格日期因素(c2)、區域因素(c3)、個別因素(c4)，分別求取其調整額 Denote features in feature group ci of house j as: $$x^{c_i}_j$$ --- (1)定義影響因素與勘估價格的關係式為NN： $$y=f^y(x)=\sum\limits_{c\in (c_1, c_2,c_3,c_4)}f^{c}_{\theta_{t}}(x^c)$$ (2)NN之參數由深度學習層學習自動求得： $$\theta_t=f^\theta(x_t;x_{n \in N_t};\hat{y}_{n \in N_t})$$ (3.1)相似性定義由各影響因素差異求得： Design it to be a differentiable similarity kernel for euclidean space: $$s_{n,t}=\frac{1}{1+||\delta_{n,t}||_2}$$ where $$\delta_{n,t}=[\delta^{c_1}_{n,t},\delta^{c_2}_{n,t},\delta^{c_3}_{n,t},\delta^{c_4}_{n,t}]^T$$ $$\delta^{c_i}_{n,t}=f^{c_i}_{\theta_{t}}(x^{c_i}_{t})-f^{x_i}_{\theta_{t}}(x^{c_i}_{n})$$ and the euclidean space is denoted as $$v=[f^{x^{c_1}}_{\theta_{t}}(x^{c_1}),f^{x^{c_2}}_{\theta_{t}}(x^{c_2}),f^{x^{c_3}}_{\theta_{t}}(x^{c_3}),f^{x^{c_4}}_{\theta_{t}}(x^{c_4})]$$ (3.2)(3.3)(4.1)(4.2)(4.3)(5) 同Approach I ### 符合法規之機制: #### 第20條: ##### 一、須蒐集應用計量模型分析關係式自變數個數五倍以上之比較標的。 1st stage 先挑選足夠數量的neighbors訓練模型， $$N_t=\bigcup_{q_i \in Q}KNN^{q_i,[lat, lon,d]}_{k=5\times||X||}(x^{[lat,lon,d]}_{t})$$ 其中 1. d為交易日期; k為KNN挑選之案件數量 2. lat, lon, d 要先normalize，使得lat, lon, d的變異性相近 3. 會依造價錢排序將建物分成Q組，分別建立一個KNN，使各種價錢的建物都能被平均的選入為比較標的。 2nd stage再用訓練得到的embedding space v去挑，避免太多雖相近但不相似的比較標的被選到。 $$\rightarrow N_t=KNN^v_{k=5\times||X||}(v_{t})$$ ##### 二、計量模型分析採迴歸分析者，其調整後判定係數不得低於零點七。 REF: 1. https://zh.wikipedia.org/zh-tw/决定系数 2. https://www.educba.com/adjusted-r-squared-formula/ 3. https://statisticsbyjim.com/regression/r-squared-invalid-nonlinear-regression/ Approach 2, 3，非迴歸分析，不適用; Approach 1，可由 Eq.(1) & Ref (1,2)計算: $$R_{adj,t}^2$$ (Note: 需確認2nd stage也跑完) ##### 三、截距項以外其他各主要影響價格因素之係數估計值同時為零之顯著機率不得大於百分之五。 p-value可以透過bootstraping，把30個和t最相近的n帶入比較模型，求取各自的theta,x,y。 Then, we can get p-value from ANOVA test: $$P_t(h_0=0)=anova([\theta_n;\hat{y}_n;x_n]_{n \in KNN^v_{k=5\times||X||}(v_{t})})<0.05$$ (Note: 需確認2nd stage也跑完) #### 第25條: 任一單獨項目之價格調整率大於百分之十五，或總調整率大於百分之三十時，判定該比較標的與勘估標的差異過大，應排除該比較標的之適用排除掉wp太小(aka. delta太大)的案件，然後重新做一次計算。 $$y_{t}=\sum\limits_{ n\in\tilde{N_t}}w^p_n y^t_n$$ where $$\tilde{N_t}=[(\frac{|\delta_{n,t}|}{\hat{y}_n}<0.3)\&(\frac{|\delta^{x^i}_{n,t}|}{\hat{y}_n}<0.15),\forall n\in N_t,\forall x^i\in X]$$ $$w^p_n=softmax(s_n;s_{n \in N_t})$$ make sure $$|\tilde{N_t}|>5|X|$$ (Note: 需確認2nd stage也跑完) 若篩選數量太少，可以 1. 提升regularization權重重新訓練模型 2. 使用原始加權公式 (不排除調整額過大的比較標的)，並依照法規規範，於估價報告書中敘明 --- 「勘估標的性質特殊或區位特殊缺乏市場交易資料」。 3. 改用人工估價 (只需3個以上標的)。