Powered by GitBook

Train / Dev / Test sets

前言

如何進行Train / Dev / Test sets的分配。

內容

Applied ML is a highly iterative process

ML是一個做實驗的流程。

先有假設，攥寫程式碼，進行實驗測試假設，再根據結果調整假設。

在某個領域表現優良模型的高階參數，通常無法直接應用在不同領域中。

Train/dev/test sets

訓練集，驗證集，測試集。

按照樣本數的多寡分配

樣本少 (60/20/20)

樣本多 (98/1/1)

Mismatched train/test distribution

train和dev的分佈如果差異大，自然再進行驗證流程的結果會比較糟。

盡量擴大train樣本的數量，讓train的分佈可以跟dev更一致。

dev和test分佈如果差異大，表示訓練好的模型，並未抓到正確的feature。

test不是必定需要的。

該學到的

ML的本質是什麼。
數據分割的依據，如何分配。

results matching ""

No results matching ""