Bias and Variance with mismatched data distributions

前言

如何處理train和dev分布不同的問題。

內容

  • Addressing data mismatch

  • 透過人為的分析方式(error 分析),去觀察錯誤的分佈。 ex. dev包含車內噪音但train中沒有這些。
  • 方法1: 改變原本train的data,讓他跟dev變得相似。
    • 應用synthesis方式,ex. 將噪音資料合成到原本的train資料中。
  • 方法2: 增加跟dev相似的新樣本。
  • Artificial data synthesis

  • 10000小時原本train data + 1000小時的噪音data = 合成10000小時帶有噪音的train data。
    • 缺點: 容易對這個1000的噪音data,overfit。
  • 10000小時原本train data + 10000小時的噪音data = 合成10000小時帶有噪音的train data。
    • 缺點: 10000小時的噪音data很難收集。

該學到的

  • 如何利用Artificial data synthesis來處理data mismatch。

results matching ""

    No results matching ""