Size of the dev and test sets
前言
dev and test sets的size分配。
內容
Old way of splitting data
- 小數據(100~10000): 7/3 or 6/2/2
- 大數據時代(>10000): 98/1/1
Size of dev set
- training set:
- 目標: 訓練模型,越大越好。
- dev set:
- 目標: 比較模型,不用很大,100萬樣本也許只要1萬就可以。
Size of test set
- test set:
- 目標: 評估模型對真實世界的數據效果,100萬樣本也許只要1萬就可以。
該學到的
- 如何去分配dev and test sets的數量。