When to change dev/test sets and metrics

前言

什麼時候需要修改dev/test sets和metrics。

內容

  • Cat dataset examples

  • A: 錯誤率低,但會找到色情圖片。
  • B: 錯誤率高,但不會找到色情圖片。
  • 這時單純只針對貓的錯誤率來比較模型好壞並不夠,需要修改metrics。
  • 在cost function加上色情圖片的變因操控。
  • Another example

  • 在dev/test時,發現A都比B表現好。但在真實使用時,卻發現B比A好。
  • 有可能是因為dev/test set跟真實世界的數據分布不同,需要修改dev/test sets。
  • Orthogonalization for cat pictures: anti-porn

該學到的

  • 修改metrics的情況。
  • 修改dev/test sets的情況。

results matching ""

    No results matching ""