機械学習とは(学習の種類)
ルールを人が書く代わりに、大量のデータから“パターン”を自動で見つけ出す手法。教師あり・教師なし・強化学習の3つが柱。
- 1.機械学習は、人がルールを書く代わりに データからパターンを学ばせる アプローチ。
- 2.大きく 教師あり(分類・回帰)/教師なし(クラスタリング等)/強化学習 の3種類。
- 3.「学習(訓練)」でモデルを作り、「推論」でそれを新しいデータに当てる。入力は特徴量に変換する。
従来のプログラミングと何が逆?
ふつうのプログラムは「ルール+データ → 答え」です。人が if 文などでルールを書き、そこにデータを通して結果を得ます。
機械学習は向きが違います。「データ+答え → ルール(モデル)」。たくさんの「入力と正解の例」を見せて、その間にある規則を自動で作らせます。
従来のプログラミング:
ルール(人が記述) + データ ──▶ 答え
機械学習:
データ + 答え(例) ──▶ ルール=モデル(自動で獲得)
そのモデルに新しいデータ ──▶ 予測
たとえば「迷惑メール判定」。手書きルール("無料" を含む→迷惑、など)はキリがなく、抜け穴もすぐ増えます。機械学習なら「迷惑/正常」とラベル付けした大量のメールを学習させ、人が言語化しきれない判断の境界をデータから引かせます。
学習と推論、特徴量
機械学習には大きく2つのフェーズがあります。
- 学習(訓練 / training): データを使ってモデルの内部の値(パラメータ)を調整し、パターンを覚えさせる工程。計算が重く、時間がかかる側。
- 推論(inference): できあがったモデルに新しいデータを入れて予測を出す工程。実運用で何度も動く、軽い側。
そしてモデルにデータを渡す前に、**特徴量(feature)**へ変換します。特徴量とは「予測の手がかりになる、数値化した入力情報」のこと。たとえば家賃予測なら「広さ・駅からの距離・築年数」が特徴量です。
モデルの性能は、凝ったアルゴリズムよりどんな特徴量を与えるかで大きく変わることが多いです。手がかりになる情報をうまく数値で表す設計(特徴量エンジニアリング)は、実務での腕の見せどころ。
3つの学習スタイル
学習は「正解(ラベル)が与えられているか」で大きく分かれます。
| 種類 | 正解ラベル | やること | 代表的なタスク |
|---|---|---|---|
| 教師あり学習 | あり | 入力→正解 の対応を学ぶ | 分類・回帰(迷惑メール判定、家賃予測) |
| 教師なし学習 | なし | データ自体の構造・かたまりを見つける | クラスタリング、次元削減、異常検知 |
| 強化学習 | なし(報酬で代替) | 試行錯誤し、報酬が増える行動を学ぶ | ゲーム、ロボット制御、最適化 |
教師あり学習(分類 と 回帰)
「入力」と「正解」がペアになったデータで学ぶ、最もよく使う形です。出したい答えの種類で、さらに2つに分かれます。
| 分類 (classification) | 回帰 (regression) | |
|---|---|---|
| 出す答え | カテゴリ(とびとびの種類) | 連続した数値 |
| 問いの形 | 「どれ?」 | 「いくつ?」 |
| 例 | 猫/犬、迷惑/正常、合格/不合格 | 家賃・気温・売上の予測 |
「猫か犬か」を当てるのが分類、「明日の気温は何度か」を当てるのが回帰、と覚えると区別しやすいです。
教師なし学習(クラスタリング など)
正解ラベルがないデータから、似たものどうしのかたまりや、隠れた構造を見つけます。代表がクラスタリングで、たとえば購買履歴から「似た買い方をする顧客グループ」を自動でまとめる、といった使い方です。
ポイントは、「正解」が外から与えられないこと。だから「このグループ分けが正しいか」は一意に決まらず、結果の解釈は人間側に委ねられます。
強化学習
正解を直接は教えず、行動の結果に対する**報酬(スコア)**だけを手がかりに、試行錯誤を通じて「報酬が最大になる行動の方針」を学ぶやり方です。ゲームで高得点を取る、ロボットを歩かせる、といった「連続した意思決定」に向きます。
強化学習は「1問ごとに正解を与える」のではなく、遅れてくる報酬から良い手を逆算します。たとえば将棋は、勝敗(報酬)が分かるのは最後だけ。どの一手が良かったかは直接は教えられません。ここが、各データに正解ラベルが付く教師ありとの決定的な違いです。
つまずきポイント
- 「学習=賢くなり続ける」ではない。 多くのモデルは訓練が終わった時点で固定されます。運用中に勝手に新しい知識を覚えるわけではなく、更新したければ**作り直す(再学習する)**のが基本です。
- 「AI=機械学習」ではない。 機械学習はAIの一分野。さらにその中の一手法がニューラルネットワークで、それを多層にしたのがディープラーニングです(AI ⊃ 機械学習 ⊃ ディープラーニング、という包含関係)。
- 訓練データを丸暗記しても意味がない。 手元のデータには合うのに、未知のデータで外す状態が過学習(オーバーフィッティング)。本当に大事なのは「見たことのないデータでどれだけ当たるか(汎化性能)」です。
機械学習の出力は、多くの場合「これは猫である確率90%」のような確率的な予測です。常に正しいわけではなく、学習データに偏りがあれば、その偏りをそのまま再現します。生成AIが事実でないことをもっともらしく述べるハルシネーションも、根は同じ「それらしさを学んでいる」性質に由来します。出力は鵜呑みにせず、検証する前提で使うのが安全です。
例え:レシピを“渡す”か“味見で覚えさせる”か
従来のプログラミングは、料理人にレシピ(手順書)を全部渡すやり方です。書いていない料理は作れません。
機械学習は、完成品の料理を大量に味見させて、作り方の勘どころを自分でつかませるやり方です。レシピは明示されませんが、たくさんの例から「だいたいこうすればこの味になる」という対応を獲得します。だからこそ、「うまく言葉にできないけれど、例ならいくらでも出せる」問題に強いのです。
逆に、ルールが単純で明快な処理(消費税の計算など)を機械学習でやるのは過剰。「ルールを書けるなら書く、書けないからデータに学ばせる」——この線引きが、機械学習を使うかどうかの第一の判断軸になります。
AI/機械学習 Article
機械学習とは(学習の種類)を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
機械学習
比較で見る軸
難易度: basic / カテゴリ: AI/機械学習 / タグ数: 4
導入後に効く点
大きく 教師あり(分類・回帰)/教師なし(クラスタリング等)/強化学習 の3種類。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- basic
- カテゴリ
- AI/機械学習
- タグ数
- 4
判断チェックリスト
- 自社の用途が「機械学習 / AI」に近いか確認する。
- 強みである「機械学習は、人がルールを書く代わりに データからパターンを学ばせる アプローチ。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。