Powered by GitBook

Cleaning up incorrectly labeled data

前言

如何處理標誌錯誤的資料呢 ?

內容

Incorrectly labeled examples

如果標注錯誤是隨機的，且數量不大，可以先不用管。

如果標注是有系統性的錯誤，例如，把白色的狗都標註成貓了，這樣就會影響model的學習了。

Error analysis

當dev set出現系統性的標誌錯誤時，如何判斷是否要處理這樣的錯誤呢 ?

先用上節的error analysis來評估這樣的錯誤的cp值如何，是否要優先改善。

如果cp太低(0.6%)，那先改善，對模型的效能提升比不大。

Correcting incorrect dev/test set examples

當要修正標指錯誤時，務必要同時修改dev/test set。

不僅要看那些因為標誌錯誤而產生預測錯誤的例子。

還要注意那些因為標誌錯誤而產生預測正確的例子。

如果training ser也有出現錯誤，但如果數量不多，不改也沒關係。

親自紀錄分析錯誤，可以幫助我們更清楚了解目前模型的能力。

該學到的

標誌錯誤的例子，是否要改善，要如何改善?

results matching ""

No results matching ""