PR

機械学習で使う学習データと検証データの違いは?

機械学習
GDJ / Pixabay
記事内に広告が含まれています。

対象読者

  • 機械学習について学びたい方
  • 機械学習に興味のある方

機械学習の学習データと検証データの違いは?

機械学習に必須となる学習データと検証データ違いについて簡単に説明します。

検証データは人によっては評価データと呼ぶこともあります。

簡単に説明するため、機械学習を人で例えて説明します。

学習データの例

A君は小学1年生で算数の授業でこれから足し算を学習するとします。

学校の先生は以下のような足し算の方法を教えてくれます。

1+1=2

2+1=3

4+3=7

 

そうするとA君は上記の足し算のやり方を学ぶことができます。

上記のような足し算のパターンを学習データと言います。

機械学習はやり方よりもパターンを学ぶと言った方が正しいかもしれません。

ただ初学者は上記のような認識でいいと思います。

 

検証データの例

授業の最後に今日学んだ足し算についてテストが行われることになりました。

テストでは次のような問題が出題されました。

2+2=

3+4=

3+2=

10+1=

A君は今日学んだことから上記のテスト問題を解きます。

やり方がわかっているので、すらすらと解くことができました。

しかし、先生が意地悪で2桁の足し算が含まれていました。

2+2=4 正解

3+4=7 正解

3+2=5 正解

10+1=? 不正解

上記のように学んだことに対して知らないパターンでも正解することができるかということを確かめるためのデータを検証データ(評価データ)と呼びます。

学習した問題にないテスト問題のパターンは人で言う知らないや難しいに該当し、機械学習も出題されたら解くことが難しくなってきます。

コメント