When to change dev/test sets and metrics
前言
什麼時候需要修改dev/test sets和metrics。
內容
Cat dataset examples
- A: 錯誤率低,但會找到色情圖片。
- B: 錯誤率高,但不會找到色情圖片。
- 這時單純只針對貓的錯誤率來比較模型好壞並不夠,需要修改metrics。
- 在cost function加上色情圖片的變因操控。
Another example
- 在dev/test時,發現A都比B表現好。但在真實使用時,卻發現B比A好。
- 有可能是因為dev/test set跟真實世界的數據分布不同,需要修改dev/test sets。
Orthogonalization for cat pictures: anti-porn
該學到的
- 修改metrics的情況。
- 修改dev/test sets的情況。