Powered by GitBook

Addressing data mismatch

前言

train/dev set的分布不同要如何使用bias/variance分析。

內容

Cat classifier example

當training error為1%，但dev error為10%，中間的9%的差異是如何產生的？

如果當training/dev set的分布是不同的，我們就無法判斷出這差異的產生。

如果當training/dev set的分布是相同的，那就是high variance的問題。

解決方式: training-dev set。從training set中分割出一小塊，當作training-dev set，與training set分不相同，但與dev的分布不同。

如果當training和training-dev set的結果差異很大，那就是high variance的問題。

如果當dev和training-dev set的結果差異很大，那就是分配的問題。

Bias/variance on mismatched training and dev/test sets

根據不同set之間的錯誤差異，來診斷model可能出現的問題。

avoidable bias。

variance，新數據的差異。

data mismatch，數據分布的差異。

More general formulation

human level和training set的差距是看avoidable bias。

training set和training/dev set的差距是看variance。

水平方向是看資料分布問題。

該學到的

train/dev set的分布不同要如何使用bias/variance分析。

results matching ""

No results matching ""