[機械学習のはじめ方] Part2: 教師あり学習と教師なし学習の違い

機械学習の世界へようこそ!🎉 このステップでは、機械学習の基本的な考え方を学んでいきます。 機械学習には様々なアプローチがありますが、今回はその中でも特に重要な「教師あり学習」「教師なし学習」という2つの大きな分類について、その違いを詳しく見ていきましょう。 この2つの違いを理解することは、機械学習の学習を進める上で非常に重要です。

教師あり学習 (Supervised Learning) とは? 🤔 〜先生がいる学習〜

教師あり学習は、例えるなら「答え(ラベル)付きの問題集」を使って学習する方法です。 手元にあるデータには、入力データ(問題)とその正解(答え・ラベル)がペアになっています。 機械学習モデルは、この問題と答えのペアをたくさん学習することで、入力データから正解を予測するためのパターンやルールを学びます。

ポイント: 正解データ(ラベル)を使って学習する! 🏷️

目的:

  • 新しい、未知の入力データに対して、正解を予測すること。

代表的なタスク:

  • 回帰 (Regression): 連続する数値を予測します。
    • 例:家の広さや立地から、その価格を予測する。
    • 例:過去の気温データから、明日の気温を予測する。
  • 分類 (Classification): データがどのカテゴリに属するかを予測します。
    • 例:メールの内容から、迷惑メールか否かを分類する。
    • 例:画像に写っている動物が、犬か猫かを分類する。

教師あり学習では、「正解」という明確な目標があるため、モデルの性能を評価しやすいという特徴があります。

教師なし学習 (Unsupervised Learning) とは? 🧐 〜先生がいない学習〜

一方、教師なし学習は、「答え(ラベル)がない問題集」を使って学習する方法です。 手元にあるデータは入力データのみで、それに対する正解はありません。 機械学習モデルは、データそのものの中に隠れているパターン、構造、関係性などを自ら見つけ出そうとします。

ポイント: 正解データ(ラベル)なしで、データの特徴を捉える! 📊

目的:

  • データセット内の隠れた構造やパターンを発見すること。
  • データの要約やグループ分けを行うこと。

代表的なタスク:

  • クラスタリング (Clustering): 似た特徴を持つデータをグループ分けします。
    • 例:顧客の購買履歴から、似たような嗜好を持つ顧客グループを見つける(顧客セグメンテーション)。
    • 例:SNSの投稿内容から、似たようなトピックを自動で分類する。
  • 次元削減 (Dimensionality Reduction): データの持つ情報をなるべく保ちながら、特徴量の数を減らします。
    • 例:多くの特徴を持つデータを、可視化しやすいように2次元や3次元に圧縮する。
    • 例:ノイズを除去したり、計算量を削減したりする。
  • 異常検知 (Anomaly Detection): 他のデータとは明らかに異なるパターンを持つデータ(異常値)を検出します。
    • 例:クレジットカードの利用履歴から、不正利用の可能性が高い取引を見つける。
    • 例:工場のセンサーデータから、機械の故障につながる可能性のある異常な挙動を検知する。

教師なし学習は、人間がまだ気づいていないようなデータの特徴を発見するのに役立ちます。

これまでの内容を比較表にまとめてみましょう。

特徴 教師あり学習 教師なし学習
入力データ 正解ラベル付きのデータ 🏷️ ラベルあり 正解ラベルなしのデータ 📊 ラベルなし
主な目的 新しいデータに対する予測 (Prediction) データ内のパターン発見 (Pattern Discovery)
学習方法 正解との誤差を最小化するように学習 データ自体の構造や類似性に基づいて学習
代表的なタスク 回帰、分類 クラスタリング、次元削減、異常検知
例え 答え付きの問題集で勉強する生徒 資料の中から自分で法則を見つけ出す研究者
評価 正解データと比較して精度を評価しやすい 明確な「正解」がないため評価が難しい場合がある

まとめ

今回は、機械学習の基本的な分類である「教師あり学習」と「教師なし学習」の違いについて解説しました。

  • 教師あり学習: 正解(ラベル)付きデータで学習し、未来を予測する。
  • 教師なし学習: ラベルなしデータから、データの構造やパターンを発見する。

どちらの手法を使うかは、手元にあるデータの種類と、解決したい課題によって決まります。 この基本的な違いを理解しておけば、これから学ぶ様々な機械学習アルゴリズムがどちらに分類され、どのような目的で使われるのかを理解しやすくなるはずです。

次のステップでは、さらに深掘りして「強化学習」というもう一つの重要な学習方法について学んでいきましょう!💪