Addressing data mismatch
前言
train/dev set的分布不同要如何使用bias/variance分析。
內容
Cat classifier example
- 當training error為1%,但dev error為10%,中間的9%的差異是如何產生的?
- 如果當training/dev set的分布是不同的,我們就無法判斷出這差異的產生。
- 如果當training/dev set的分布是相同的,那就是high variance的問題。
- 解決方式: training-dev set。從training set中分割出一小塊,當作training-dev set,與training set分不相同,但與dev的分布不同。
- 如果當training和training-dev set的結果差異很大,那就是high variance的問題。
- 如果當dev和training-dev set的結果差異很大,那就是分配的問題。
Bias/variance on mismatched training and dev/test sets
- 根據不同set之間的錯誤差異,來診斷model可能出現的問題。
- avoidable bias。
- variance,新數據的差異。
- data mismatch,數據分布的差異。
More general formulation
- human level和training set的差距是看avoidable bias。
- training set和training/dev set的差距是看variance。
- 水平方向是看資料分布問題。
該學到的
- train/dev set的分布不同要如何使用bias/variance分析。