Cleaning up incorrectly labeled data
前言
如何處理標誌錯誤的資料呢 ?
內容
Incorrectly labeled examples
- 如果標注錯誤是隨機的,且數量不大,可以先不用管。
- 如果標注是有系統性的錯誤,例如,把白色的狗都標註成貓了,這樣就會影響model的學習了。
Error analysis
- 當dev set出現系統性的標誌錯誤時,如何判斷是否要處理這樣的錯誤呢 ?
- 先用上節的error analysis來評估這樣的錯誤的cp值如何,是否要優先改善。
- 如果cp太低(0.6%),那先改善,對模型的效能提升比不大。
Correcting incorrect dev/test set examples
- 當要修正標指錯誤時,務必要同時修改dev/test set。
- 不僅要看那些因為標誌錯誤而產生預測錯誤的例子。
- 還要注意那些因為標誌錯誤而產生預測正確的例子。
- 如果training ser也有出現錯誤,但如果數量不多,不改也沒關係。
- 親自紀錄分析錯誤,可以幫助我們更清楚了解目前模型的能力。
該學到的
- 標誌錯誤的例子,是否要改善,要如何改善?