Addressing data mismatch

前言

train/dev set的分布不同要如何使用bias/variance分析。

內容

  • Cat classifier example

  • 當training error為1%,但dev error為10%,中間的9%的差異是如何產生的?
    • 如果當training/dev set的分布是不同的,我們就無法判斷出這差異的產生。
    • 如果當training/dev set的分布是相同的,那就是high variance的問題。
  • 解決方式: training-dev set。從training set中分割出一小塊,當作training-dev set,與training set分不相同,但與dev的分布不同。
    • 如果當training和training-dev set的結果差異很大,那就是high variance的問題。
    • 如果當dev和training-dev set的結果差異很大,那就是分配的問題。
  • Bias/variance on mismatched training and dev/test sets

  • 根據不同set之間的錯誤差異,來診斷model可能出現的問題。
    • avoidable bias。
    • variance,新數據的差異。
    • data mismatch,數據分布的差異。
  • More general formulation

  • human level和training set的差距是看avoidable bias。
  • training set和training/dev set的差距是看variance。
  • 水平方向是看資料分布問題。

該學到的

  • train/dev set的分布不同要如何使用bias/variance分析。

results matching ""

    No results matching ""