ニューラルネットワークとは？仕組みと要点をわかりやすく解説

1個のニューロン：重み付き和 → 活性化

まず最小単位を押さえます。1個のニューロン（ユニット）がやるのは2ステップだけです。

重み付き和：入力 x₁, x₂, … に、それぞれの重み w を掛けて足し、バイアス b を加える。z = w₁x₁ + w₂x₂ + … + b
活性化：その z を活性化関数に通して、出力 a = f(z) を得る。

重みは「その入力をどれだけ重視するか」、バイアスは「どれくらい反応しやすいか（しきい値の下駄）」を表す数値です。学習とは、この w と b を良い値に調整することに尽きます。

入力        重み          和             活性化
x1 ──w1──┐
x2 ──w2──┤→ z = Σ(w·x) + b ──> a = f(z) ──> 次の層へ
x3 ──w3──┘

層を積む：入力 → 隠れ → 出力

ユニットを横に並べて「層」を作り、層を縦に重ねます。

入力層：データをそのまま受け取る入り口（例：画像なら各ピクセルの明るさ）。計算はしません。
隠れ層：重み付き和＋活性化を行う中間の層。ここが「特徴を組み立てる」本体で、層を増やすほどより抽象的な特徴（線→形→物体…）を扱えるようになります。隠れ層が深いものを特にディープラーニングと呼びます。
出力層：最終的な答えを出す（例：分類なら各クラスの確率、回帰なら数値）。

入力を入れて、層から層へ計算を前へ流して答えを出すこの流れを 順伝播（forward propagation） と呼びます。各層は本質的に行列の掛け算＋活性化なので、GPU での並列計算と相性が良いのも特徴です。

なぜ「非線形（活性化関数）」が要るのか

ここが一番のキモであり、誤解されやすい点です。活性化関数（非線形）が無いと、何層重ねてもネットワークは1枚の直線（線形変換）に潰れます。

線形変換を何回繰り返しても、合成すれば結局また1回の線形変換にしかなりません（A(Bx) = (AB)x）。つまり活性化が無ければ、100層あっても表現力は1層と同じで、まっすぐな境界線しか引けません。間に曲げる関数を挟むことで初めて、入り組んだ（非線形な）パターンを学べます。

横にスクロール

線形層だけなら重み行列を掛け合わせて一層へまとめられます。ReLUを挟むと各層が入力空間に新しい折り目を作るため、複雑な境界を段階的に組み立てられます。

“曲げる”役は ReLU が定番

よく使う活性化関数に ReLU（負を0に、正はそのまま max(0, z)）、シグモイド（0〜1に押し込む）、tanh（−1〜1）があります。今の主流は計算が軽く学習が進みやすい ReLU。シグモイド／tanh は層を深くすると勾配が消えやすい（後述）ため、隠れ層では出番が減りました。

関数	出力の範囲	役割・使いどころ	弱点
ReLU	0 〜 ∞	隠れ層の定番。軽くて学習が速い	負側が0で固まる(死んだReLU)
シグモイド	0 〜 1	2値分類の出力（確率っぽく）	深いと勾配消失しやすい
tanh	−1 〜 1	0中心で扱いやすい中間層	深いと勾配消失しやすい
ソフトマックス	合計1の確率	多クラス分類の出力層	（出力層専用）

どう学習する？：損失 → 勾配降下 → 誤差逆伝播

順伝播は「今の重みで答えを出す」だけ。学習は“答え合わせをして重みを直す”ループで進みます。

損失（loss）を測る：出した予測と正解のズレを1つの数値にする。回帰なら二乗誤差、分類なら交差エントロピーが定番。損失が小さいほど良いモデル。
勾配を求める（誤差逆伝播）：「各重みを少し動かすと損失がどっちにどれだけ変わるか」（＝勾配＝損失の傾き）を計算する。出力側の誤差を入力側へ逆向きに伝えながら、合成関数の微分（連鎖律）で各重みの担当分を一気に割り出すのが 誤差逆伝播（backpropagation） です。
重みを更新する（勾配降下）：勾配が示す「損失が増える向き」の逆向きへ、重みを少しだけ動かす。この“少し”の歩幅が 学習率（learning rate）。

これを大量のデータで何度も繰り返すと、損失が下る方向へ重みが少しずつ動き、予測が正解に近づきます。「霧の中で、足元の傾きを頼りに谷底（損失最小）へ一歩ずつ下りる」イメージです。

“逆伝播でネットが考えている”ではない

誤差逆伝播は思考でも推論でもなく、ただの微分の計算手順です。連鎖律を使って各重みの勾配を効率よく求めているだけ。「ネットワークが理由を考えて重みを直している」のではなく、傾きの方向へ機械的にずらしているにすぎません。ここを擬人化すると、後で挙動を見誤ります。

例え：たくさんのつまみがあるミキサー

音響ミキサーに無数のフェーダー（つまみ）が並んでいると思ってください。各つまみが重み、出てくる音が予測、流したい理想の音が正解です。

音を流して聴く＝順伝播
理想とのズレを聞き取る＝損失
「どのつまみをどっちに回せばズレが減るか」を見極める＝勾配（誤差逆伝播）
そのつまみを少しだけ回す＝勾配降下（更新）

人間が一本ずつ手で合わせる代わりに、ズレを頼りに全つまみを同時に少しずつ自動調整するのがニューラルネットの学習です。

“脳と同じ”ではない

ニューロンの比喩はあくまで着想の出発点。実際の脳の神経はもっと複雑で、誤差逆伝播のような仕組みで学んでいる証拠もありません。ニューラルネットは生物の再現ではなく、微分で最適化する数式モデルだと割り切るのが正確です。

つまずきポイント

症状	起きていること	対処の方向
学習が進まない／発散する	学習率が大きすぎ/小さすぎ	学習率を調整、データを正規化
訓練は良いが本番でダメ	過学習（暗記してしまう）	データ追加・正則化・早期終了
深くすると精度が落ちる	勾配消失/爆発で奥まで届かない	ReLU・残差接続・正規化層
毎回結果が違う	重みの初期値や順序がランダム	乱数シード固定で再現性確保

学習率の調整がいちばん効く：大きすぎると谷を飛び越えて発散、小さすぎると一向に進みません。
勾配消失/爆発：層を深くすると、逆伝播で勾配がどんどん小さく（または大きく）なり、入力側の層がほぼ学習されない問題。ReLU や正規化、残差接続（スキップ接続）で緩和します。
過学習に注意：訓練データを“暗記”して未知データに弱くなる現象。これ自体が大きなテーマなので過学習で詳しく扱います。

まとめ：結局どういう道具か

ニューラルネットワークは、重み付き和＋活性化を層で積んだ巨大な関数であり、損失を勾配降下＋誤差逆伝播で最小化して重みを決める仕組みです。手で規則を書けない複雑なパターン（画像・音声・言語）でも、データさえあれば近似できるのが強みで、この基本構造をテキスト向けに発展させたのが LLM とトランスフォーマーです。魔法でも脳の再現でもなく、微分で最適化する数式モデル――この一点を押さえておけば、応用の話も迷わず読めます。

ニューラルネットワーク

1個のニューロン：重み付き和 → 活性化

層を積む：入力 → 隠れ → 出力

なぜ「非線形（活性化関数）」が要るのか

どう学習する？：損失 → 勾配降下 → 誤差逆伝播

例え：たくさんのつまみがあるミキサー

つまずきポイント

まとめ：結局どういう道具か

ニューラルネットワークを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点