# Deadline Failure Detection ###### tags: `Deadline` `Rules` [TOC] ## 壹.當前Failure Detection設定 ### Job單位檢視: - 一個job不管包含幾個tasks ,<font color="#f00">task Failed總次數超過**100次**,此job呈現failed狀態並**立即停止算圖**</font>,讓出算圖電腦給其他job算圖。 ![](https://i.imgur.com/b2Mp21R.png) ![](https://i.imgur.com/nnjbK7C.png) ### Machine單位檢視: - 某一台<span style="background-color:#AC92ED">A電腦</span>在<span style="background-color:#97BD9C">甲job</span>的<font color="#f00">task Failed次數超過10次</font>,<span style="background-color:#AC92ED">A電腦</span>立即被<span style="background-color:#97BD9C">甲job</span><font color="#f00">設定成黑名單</font>,<span style="background-color:#97BD9C">甲job</span>仍正常被其他B.C.D電腦接去算圖,<span style="background-color:#AC92ED">A電腦</span>仍去支援其他乙.丙.丁job做算圖。避免此job因為一顆老鼠屎電腦壞了一個job。 ### 綜合檢視: - 依以上規則一個job要Failed,要被不同10台電腦個算錯10次,達到Failed總次數100。 ## 貳.job或machine Failure怎讓他們恢復算圖 - job Failed resume,大家應該都會,不多說了。 - Q: 當某台電腦達到10次Failed,job一直接不到此電腦算圖,job要如何把這黑名單移除? A: 對job右鍵job property,選failure detection選項,去解除job對該電腦的黑名單囉! ![](https://i.imgur.com/FNX4MsZ.png)