Train / Dev / Test sets
前言
如何進行Train / Dev / Test sets的分配。
內容
Applied ML is a highly iterative process
- ML是一個做實驗的流程。
- 先有假設,攥寫程式碼,進行實驗測試假設,再根據結果調整假設。
- 在某個領域表現優良模型的高階參數,通常無法直接應用在不同領域中。
Train/dev/test sets
- 訓練集,驗證集,測試集。
- 按照樣本數的多寡分配
- 樣本少 (60/20/20)
- 樣本多 (98/1/1)
Mismatched train/test distribution
- train和dev的分佈如果差異大,自然再進行驗證流程的結果會比較糟。
- 盡量擴大train樣本的數量,讓train的分佈可以跟dev更一致。
- dev和test分佈如果差異大,表示訓練好的模型,並未抓到正確的feature。
- test不是必定需要的。
該學到的
- ML的本質是什麼。
- 數據分割的依據,如何分配。