ディープラーニングとは？仕組みと要点をわかりやすく解説

機械学習のなかでの位置づけ

よく混同されますが、関係は入れ子（包含）です。

AI（人間の知的なふるまいを機械で実現する広い目標）
  └─ 機械学習（データからルールを自動で学ぶアプローチ）
       └─ ディープラーニング（深い層のニューラルネットを使う一手法）

つまりディープラーニングは「機械学習の一種」であり、機械学習のすべてではありません。データが少ない・表形式（数値や区分の列）といった問題では、決定木やその発展（勾配ブースティング）など深層でない手法のほうが速くて強いことも珍しくありません。基礎は /ai/machine-learning/ と /ai/neural-network/ もあわせてどうぞ。

「深い」とは何が深いのか

ニューラルネットは、入力に重みを掛けて足し合わせ、非線形の関数（活性化関数）に通す——という小さな計算の層を連ねたものです。この中間層（隠れ層）を何層も重ねたものがディープラーニングです。

なぜ重ねると強いのか。層を経るごとに、単純な特徴を組み合わせて、より抽象的な特徴を作れるからです。画像認識ならイメージは次のような階層になります。

入力(画素)
  → 浅い層 : 線・エッジ・色のかたまり
  → 中間層 : 目・鼻・タイヤ・窓 などの部品
  → 深い層 : 顔・猫・自動車 といった概念
  → 出力   : 「猫」(確率0.93)

ここが従来手法との最大の違いです。昔は「どんな特徴に注目するか（特徴量設計＝feature engineering）」を人間が職人芸で決めていました。ディープラーニングは、この特徴量づくりそのものを学習に含めるので、 end-to-end（生データから答えまで一気通貫）で学習できます。

“非線形を重ねる”のが効く

活性化関数（ReLU など）を挟まず層を重ねても、結局は1枚の線形変換に潰れてしまい意味がありません。非線形を挟んで重ねるから、曲がった複雑な境界を表現でき、層の深さが効いてきます。

代表的な3つの型

「ディープラーニング」と一口に言っても、扱うデータの形に合わせて得意な構造（アーキテクチャ）が違います。

種類	得意なデータ	核となる考え方	主な用途
CNN（畳み込み）	画像・空間	小さなフィルタを画像上で滑らせ、位置がずれても同じ特徴を拾う	画像分類・物体検出・医療画像
RNN / LSTM	系列（順番が意味を持つ）	前の状態を次へ持ち越し、時間方向の文脈を覚える	古くは翻訳・音声・時系列予測
Transformer	系列・特に言語	Attention で系列全体を一度に見て、関係の強い箇所に重みづけ	翻訳・大規模言語モデル(LLM)・画像生成

ざっくりの住み分けは「画像なら CNN、順番のあるデータなら Transformer（昔は RNN）」。とくに Transformer は系列を1語ずつ順番に処理する RNN と違い、系列全体を並列に見られるため学習を大規模化しやすく、現在の /ai/llm-transformer/ の主役になっています。

“新しいほど常に上”ではない

Transformer が話題でも、すべてを置き換えたわけではありません。スマホ上での画像処理など、軽さ・速さ・データ量の制約しだいで CNN や、深層ですらない手法が最適なこともあります。「流行のモデルを使うこと」自体は目的ではありません。

なぜ GPU が要るのか

ディープラーニングの計算の中身は、巨大な行列のかけ算と足し算の繰り返しです。1つ1つは単純でも、層が深く重みが多いほど膨大な回数になります。

ここで効くのが GPU です。CPU は複雑な処理を少数のコアで順番にこなすのが得意。対して GPU は単純な計算を数千コアで一斉にこなせます。行列演算は「同じ計算を大量のデータに並行して適用する」ので、GPU の並列性とぴったり噛み合います。

計算量の感覚

重みが数億〜数千億個あるモデルを、何百万件ものデータで何度も繰り返し更新します。CPU で数か月かかる学習が、GPU の並列化で現実的な時間に収まる——これが「ディープラーニングに GPU（や TPU など専用チップ）が要る」理由です。

横にスクロール

ディープラーニングでは、入力バッチと重み行列の計算を層ごとに繰り返します。同じ演算を大量に並べられるため、GPUの多数の小さなコアが効きます。

どう学習するのか（直感）

学習は、ざっくり「予測 → 答え合わせ → 重みを少し直す」の繰り返しです。

1. 順伝播 : 入力を層に通して予測を出す
2. 損失   : 予測と正解のズレを数値化する（損失関数）
3. 逆伝播 : ズレを減らす方向を各重みについて求める（誤差逆伝播）
4. 更新   : 重みを少しだけその方向へ動かす（勾配降下）
   → 1〜4を大量のデータで何度も回す

ポイントは、正解を大量に見せて、ズレが小さくなるよう重みを少しずつ調整するだけだということ。人がルールを書くのではなく、データが教師役になります。だからこそデータの量と質がそのまま性能に直結します。

つまずきポイント

データを“丸暗記”してしまう（過学習）

層が深く表現力が高い反面、訓練データに合わせ込みすぎて、未知のデータで外す過学習（オーバーフィッティング）が起きやすい。学習に使っていないデータで評価する、データを増やす・水増しする（データ拡張）などで対策します。詳しくは /ai/overfitting/ を。

もう一つの注意は「学習データに無いことは身につかない」こと。たとえば言語モデルが事実と異なる内容を、もっともらしく出力するハルシネーションは、文の自然さを学んでいても真偽を保証する仕組みではないことから起きます。ディープラーニングは「与えたデータの傾向を写し取る」ものであって、推論や事実確認を保証する魔法ではありません——ここを取り違えないことが大切です。

一言の例えで

写真の判別を、ベテラン揃いの巨大な工場のラインにたとえてみます。最初の工程は線や色だけを見る単純作業、次の工程はそれを束ねて「目」「タイヤ」を見つけ、最後の工程が「猫」「車」と判定する。各工程の担当者（重み）は最初は素人ですが、完成品と正解のズレをライン全体に伝え返して少しずつ腕を上げます。

層が深い ＝工程が多く、単純作業から高度な判断まで段階的に積み上げられる
特徴量の自動学習 ＝「何を見るべきか」を各工程が自分で覚える
GPU ＝各工程の単純作業を、大人数で同時並行にさばく
大量データ ＝練習用のサンプルが多いほど、ライン全体が賢くなる

この4つが揃ったとき、ディープラーニングは従来手法を大きく超えます。逆にデータが乏しい・説明責任が重い・計算資源が限られる場面では、素直な機械学習を選ぶ判断も同じくらい大切です。

ディープラーニング

機械学習のなかでの位置づけ

「深い」とは何が深いのか

代表的な3つの型

なぜ GPU が要るのか

どう学習するのか（直感）

つまずきポイント

一言の例えで

ディープラーニングを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点