Train/dev/test distributions

前言

如何來準備train/dev/test set。

內容

  • Cat classification dev/test sets

  • 錯誤方式: 按照不同區域來分配dev/test。
    • 每個區域間的資料分布可能差異很大,會導致模型對test set無效。
  • 正確方式: 全部區域的資料混合,然後隨機抽取分配dev/test。
  • True story (details changed)

  • 信用評估案例(探索收入與還款之間的關係)
    • 如果模型是針對中等收入當作dev set進行訓練。
    • 測試時,卻用低等收入的數據來測試。
    • 如此,模型的表現結果一定會很糟。
  • Guideline

  • dev/test的數據分佈要相同。
  • dev/test的數據要能真的反映出真實世界的數據。

該學到的

  • 瞭解train/dev/test set的錯誤案例。
  • 瞭解train/dev/test 設置的大方向。

results matching ""

    No results matching ""