教師あり・教師なし・強化学習とは？仕組みと要点をわかりやすく解説

3分類の全体像

機械学習は「何を手がかりに学ぶか」で大きく3つに分けられます。教師あり学習は正解（ラベル）が付いたデータを使い、教師なし学習はラベルのないデータから構造を見つけ、強化学習は環境からの報酬を頼りに行動を改善します。

実務ではまず「正解データが手元にあるか」を考えると、どの枠組みが向くか見当がつきます。ラベル付けにはコストがかかるため、ここが選定の分かれ目になります。

横にスクロール

3方式は、学習に使う手がかりと評価方法が異なります。正解ラベルがあれば教師あり、構造を探索するなら教師なし、連続した行動の結果として報酬が返るなら強化学習が候補です。

入力（特徴量）と正解（ラベル）の組をたくさん与え、入力から出力を予測する関数を学びます。出力が数値なら回帰、カテゴリなら分類です。

精度を測りやすく、ビジネス応用が最も広い枠組みです。一方で、質の高いラベル付きデータを集める手間が課題になります。

正解ラベルを使わず、データそのものの構造やパターンを浮かび上がらせます。似たもの同士をまとめるクラスタリングや、データを少ない軸で表す次元削減が代表例です。

「正解が分からない探索的な分析」に向きますが、結果の良し悪しを評価しにくい点に注意が必要です。

エージェントが環境の中で行動し、得られる報酬を最大化するように方針（ポリシー）を学びます。正解は直接与えられず、行動の結果として遅れて返ってくる報酬から学ぶのが特徴です。

ゲームのプレイ、ロボット制御、推薦の最適化などに使われます。近年は大規模言語モデルを人間の好みに合わせる RLHF（人間のフィードバックによる強化学習）でも注目されています。

まず手元のデータを見る

正解ラベルがあるなら教師あり、なければ教師なしから検討します。逐次の意思決定で結果が後から分かる問題は強化学習が候補です。

実際のプロジェクトでは、これらを組み合わせる場面も多くあります。たとえば教師なしでデータを整理してから教師ありで予測モデルを作る、といった流れは定番です。まずは問題設定とデータの形を見極めることが、適切な手法選びの第一歩になります。