Cleaning up incorrectly labeled data

前言

如何處理標誌錯誤的資料呢 ?

內容

  • Incorrectly labeled examples

  • 如果標注錯誤是隨機的,且數量不大,可以先不用管。
  • 如果標注是有系統性的錯誤,例如,把白色的狗都標註成貓了,這樣就會影響model的學習了。
  • Error analysis

  • 當dev set出現系統性的標誌錯誤時,如何判斷是否要處理這樣的錯誤呢 ?
    • 先用上節的error analysis來評估這樣的錯誤的cp值如何,是否要優先改善。
    • 如果cp太低(0.6%),那先改善,對模型的效能提升比不大。
  • Correcting incorrect dev/test set examples

  • 當要修正標指錯誤時,務必要同時修改dev/test set。
  • 不僅要看那些因為標誌錯誤而產生預測錯誤的例子
  • 還要注意那些因為標誌錯誤而產生預測正確的例子
  • 如果training ser也有出現錯誤,但如果數量不多,不改也沒關係。
  • 親自紀錄分析錯誤,可以幫助我們更清楚了解目前模型的能力。

該學到的

  • 標誌錯誤的例子,是否要改善,要如何改善?

results matching ""

    No results matching ""