Train / Dev / Test sets

前言

如何進行Train / Dev / Test sets的分配。

內容

  • Applied ML is a highly iterative process

  • ML是一個做實驗的流程。
  • 先有假設,攥寫程式碼,進行實驗測試假設,再根據結果調整假設。
  • 在某個領域表現優良模型的高階參數,通常無法直接應用在不同領域中。
  • Train/dev/test sets

  • 訓練集,驗證集,測試集。
  • 按照樣本數的多寡分配
    • 樣本少 (60/20/20)
    • 樣本多 (98/1/1)
  • Mismatched train/test distribution

  • train和dev的分佈如果差異大,自然再進行驗證流程的結果會比較糟。
    • 盡量擴大train樣本的數量,讓train的分佈可以跟dev更一致。
  • dev和test分佈如果差異大,表示訓練好的模型,並未抓到正確的feature。
  • test不是必定需要的。

該學到的

  • ML的本質是什麼。
  • 數據分割的依據,如何分配。

results matching ""

    No results matching ""