Bias and Variance with mismatched data distributions
前言
如何處理train和dev分布不同的問題。
內容
Addressing data mismatch
- 透過人為的分析方式(error 分析),去觀察錯誤的分佈。 ex. dev包含車內噪音但train中沒有這些。
- 方法1: 改變原本train的data,讓他跟dev變得相似。
- 應用synthesis方式,ex. 將噪音資料合成到原本的train資料中。
- 方法2: 增加跟dev相似的新樣本。
Artificial data synthesis
- 10000小時原本train data + 1000小時的噪音data = 合成10000小時帶有噪音的train data。
- 缺點: 容易對這個1000的噪音data,overfit。
- 10000小時原本train data + 10000小時的噪音data = 合成10000小時帶有噪音的train data。
- 缺點: 10000小時的噪音data很難收集。
該學到的
- 如何利用Artificial data synthesis來處理data mismatch。