TL

LiDAR・カメラのセンサ融合

点群と画像を単純に足しても精度は上がらない。座標変換・時刻同期・早期/後期融合の設計原理を押さえれば、認識精度と頑健性を同時に底上げできる。

応用ロボット工学センサフュージョンLiDARキャリブレーション自己位置推定自動運転最終更新: 2026-06-21
TL;DR要点だけ先に
  • 1.LiDARの点群とカメラの画像は座標系も更新周期も異なるため、外部キャリブレーション(外部パラメータ)で座標変換し、内部パラメータで投影してから初めて対応づけられる。
  • 2.早期融合(センサ生データ段階で統合)は情報量が多いが同期・較正誤差に弱く、後期融合(各センサの認識結果を統合)は頑健だが片方の弱点を他方が補えない。中間の特徴レベル融合が実用上の折衷点。
  • 3.時刻同期のずれは静止物体でも動的物体との相対関係を歪め、速度が速いほど誤差が拡大する。冗長性はセンサ故障や苦手環境を補い合う設計であり、単なる精度向上策ではない。

なぜ点群と画像は単純に重ねられないか

LiDARは対象までの距離を光の飛行時間(ToF)で測り、3次元の点群として世界を表現します。カメラは光の強度・色を2次元の画素配列として捉えます。両者は物理量も次元も表現形式もまったく異なるため、「LiDARの点」と「画像の画素」を対応づけるには、両者を同じ座標系に載せる幾何変換が不可欠です。この変換を怠ってセンサ出力をそのまま並べても、意味のある融合にはなりません。

対応づけに必要なのは大きく2種類のパラメータです。

外部パラメータ(Extrinsic):
  LiDAR座標系 → カメラ座標系への剛体変換
  回転行列 R(3x3)と並進ベクトル t(3x1)
  p_cam = R * p_lidar + t

内部パラメータ(Intrinsic, カメラ側):
  カメラ座標系の3次元点 → 画像平面の2次元画素への透視投影
  焦点距離 fx, fy、光学中心 cx, cy、レンズ歪み係数

  u = fx * (X_cam / Z_cam) + cx
  v = fy * (Y_cam / Z_cam) + cy

外部パラメータはLiDARとカメラの取り付け位置・姿勢の違いを表す剛体変換で、車体やロボットに固定した2つのセンサ間の「ずれ」そのものです。内部パラメータはカメラ固有の光学特性で、3次元点を2次元画素へ落とし込む透視投影とレンズ歪みの補正を担います。この2段階を経て初めて、LiDARの1点が画像上のどの画素に対応するかが定まります。

外部キャリブレーションはなぜ難しいか

外部パラメータの推定(外部キャリブレーション)が難しいのは、LiDARの点群には色や質感の情報がなく、カメラの画像には奥行きの情報がないため、共通の基準となる対応点を見つける手段が乏しいことにあります。実務ではチェッカーボードや特定形状のターゲットを複数の姿勢で撮影・スキャンし、点群側で検出した平面・エッジとカメラ側で検出した対応特徴の幾何拘束からR, tを最適化で求めます。一度取り付けた後も振動や熱膨張でわずかにずれるため、外部パラメータは走行中に自己校正で微修正する仕組み(オンラインキャリブレーション)を持つ実装も少なくありません。ロボット工学ではこの較正誤差が後述する融合精度の下限を事実上決めます。

早期融合と後期融合という設計軸

LiDARとカメラをどの処理段階で統合するかは、認識パイプラインの根本設計を左右します。代表的な立場を整理します。

観点早期融合(Early Fusion)後期融合(Late Fusion)
統合する対象生データ・生に近い特徴量(点群+画像画素値など)各センサが個別に出した認識結果(検出box・クラスなど)
情報の保持元データの詳細情報を保ったまま統合個々のセンサ内部の詳細情報は失われた後に統合
同期・較正への感度高い。ずれがそのまま統合結果の誤りに直結低い。多少のずれは結果レベルの補正で吸収しやすい
片方のセンサ不調時の挙動統合処理自体が崩れやすい不調側の結果を無視・重み低減しやすい
計算資源統合後に1つの大きな認識モデルを通す各センサ用の認識モデルを別々に持つため合計コストが増えがち

早期融合は、たとえばLiDAR点群を画像へ投影して各画素に距離情報を付与し(深度補完)、その拡張画像を1つの認識モデルに入力するような設計です。センサ同士が持つ生の情報量を最大限使えるため理論上の認識精度は高くなりえますが、外部・内部パラメータの較正誤差や後述の時刻同期のずれがそのまま入力の歪みとして統合処理に流れ込み、誤差が蓄積しやすいという弱点があります。

後期融合は、LiDAR側で物体検出・追跡を独立に行い、カメラ側でも物体検出を独立に行い、それぞれが出した「ここに車がいる」という結果同士を、位置の近さや信頼度で突き合わせて統合します。各センサの認識器が独立に完結しているため、片方が苦手な状況(LiDARなら小さく薄い物体、カメラなら夜間や逆光)でも他方の結果だけで代替判断がしやすく、システムとしての頑健性が高い設計です。ただし、各センサが個別に誤検出・見逃しをした場合、統合段階では失われた生データを参照して補正することができません。

中間の特徴レベル融合という折衷点

実務で広く採用されるのが、生データそのものでも最終結果でもない特徴量レベルでの融合です。LiDAR点群をニューラルネットワークで中間特徴に変換し、カメラ画像も別の中間特徴に変換した上で、両者の特徴マップを空間的に対応づけて結合し、その後の認識処理を共有します。早期融合ほど生データの歪みに敏感でなく、後期融合ほど情報を失わないため、多くの自動運転・ロボット認識システムがこの方式に落ち着いています。ただし特徴同士をどの座標系・どの粒度で対応づけるかという設計自由度が新たに生じ、外部キャリブレーションの精度要求は早期融合と同様に残ります。

時刻同期のずれが引き起こす歪み

センサ融合のもう一つの落とし穴が時刻同期です。LiDARは機械回転式なら1周(例えば10Hz)かけて周囲をスキャンし、カメラはシャッターのタイミングで瞬間的に画像を取得します。両者のサンプリング周期・タイミングが一致していないと、同じ「時刻」とラベル付けされたデータが実際には異なる瞬間の世界を表すことになります。

時刻同期ずれによる位置誤差の見積もり:
  誤差 ≈ 相対速度 × 時刻ずれ Δt

  例: 対向車の相対速度 20 m/s、Δt = 50ms のずれ
    → 位置誤差 ≈ 20 * 0.05 = 1.0 m

  自車が停止し対象も静止していれば Δt があっても誤差は出ないが、
  ロボット工学の実環境では自己運動・対象の運動の両方が常に存在する

この式が示すとおり、時刻同期のずれによる誤差は対象や自己の相対速度に比例します。低速で移動するロボットのアーム周辺監視ではさほど問題にならなくても、高速で移動する自動運転車や脚ロボットの走行では、数十ミリ秒のずれが数十センチ〜1メートル級の位置誤差に直結します。しかもLiDARは1周スキャンする間にも自己運動が生じるため、点群内部でも走査開始点と終了点で自己位置が異なるモーション歪みが生じ、これも同期の一種の問題として補正(走査中の自己運動をIMUやオドメトリで推定して点群を歪み補正)する必要があります。

ハードウェアトリガと事後補間の両輪が必要

時刻同期の対策は大きく2段階です。第一に、LiDARとカメラの取得タイミングをハードウェアトリガで物理的に揃える、または高精度な共通クロック(PTPなど)でタイムスタンプを打つことで、そもそものずれを小さくします。第二に、それでも残る微小なずれは、自己運動モデル(オドメトリやIMU)を使って点群・画像それぞれを共通の基準時刻へ補間・外挿することで補正します。ハードウェア対策だけでは配線・処理遅延由来のずれを消しきれず、ソフトウェア補正だけでは大きな初期ずれに対応しきれないため、両輪での対策が前提になります。

冗長性による頑健性:足し算ではなく保険

センサ融合の価値を「LiDARの精度+カメラの精度」という単純な足し算で捉えるのは誤りです。本質は、それぞれのセンサが原理的に異なる弱点を持つことを利用した冗長性の設計にあります。

状況LiDAR単独カメラ単独融合による頑健性
夜間・低照度光源不要でほぼ影響なし露出不足で認識精度が急落LiDAR側の結果を優先し検出を維持
濃霧・降雨レーザーの散乱・反射でノイズ増加視程低下でカメラも劣化するが質感は残る場合あり両者の劣化度をもとに信頼度を動的に配分
色・材質の識別(標識・信号)反射率のみで識別不可色・模様を高精度に識別カメラが担い、LiDARは位置・距離を担う
センサ1系統の物理故障検出不能検出不能残る1系統でシステムを縮退動作させられる

この表が示すのは、冗長性が「同じことを2回測って平均を取り精度を上げる」保険ではなく、互いの弱点を補う担当分担であるという点です。LiDARは能動的に光を発するため照明条件に依存しない距離測定を担い、カメラは受動的に反射光を捉えるため色・テクスチャなど質感の識別を担う。両者は測定原理が独立しているため、片方が苦手とする環境要因(照明・天候)がもう片方に同じようには影響しません。さらに、どちらか一方のセンサが物理的に故障・遮蔽された場合でも、残る系統でシステムを完全停止させず機能を縮退させて継続動作させられる点も、ロボット工学における安全設計上の重要な効能です。

試験・面接での頻出ポイント
  • 座標変換の2段階:外部パラメータ(LiDAR座標系→カメラ座標系の剛体変換 R, t)と内部パラメータ(カメラの透視投影・レンズ歪み補正)を経て初めて点群と画素が対応づく。
  • 早期融合 vs 後期融合:早期は生データ統合で情報量は多いが較正・同期誤差に弱い。後期は認識結果の統合で頑健だが片方の弱点を他方が生データレベルで補えない。特徴レベル融合は実務上の折衷点。
  • 時刻同期のずれ:誤差は相対速度×時刻ずれに比例。LiDARの走査中にも自己運動によるモーション歪みが生じ、オドメトリ・IMUによる補正が要る。
  • 冗長性の本質:精度の単純な足し算ではなく、照明・天候・材質など原理的に異なる弱点を持つセンサ同士の担当分担による頑健性向上。

まとめ

LiDARとカメラのセンサ融合は、原理も座標系も異なる2つのセンサを、外部・内部パラメータによる幾何変換で初めて対応づけられる仕組みの上に成り立ちます。設計上の要点は、(1) 点群と画素は外部キャリブレーションと透視投影を経なければ対応づかず、較正誤差が融合精度の下限を決めること、(2) 早期融合は情報量が多いが同期・較正誤差に敏感で、後期融合は頑健だが生データの補完ができず、実務では特徴レベル融合が折衷点として選ばれること、(3) 時刻同期のずれは相対速度に比例した位置誤差を生み、LiDARの走査中の自己運動によるモーション歪みも合わせて補正が必要なこと、(4) センサ融合の冗長性は精度の足し算ではなく、照明・天候・材質という原理的に異なる弱点を持つセンサ同士が互いの担当を分け合うことで頑健性を得る設計であること。この幾何・時刻・冗長性という3つの軸を押さえることが、自動運転やロボットの認識パイプラインを設計・評価する土台になります。

ロボティクス Article

LiDAR・カメラのセンサ融合を実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

ロボット工学

比較で見る軸

難易度: advanced / カテゴリ: ロボティクス / タグ数: 6

導入後に効く点

早期融合(センサ生データ段階で統合)は情報量が多いが同期・較正誤差に弱く、後期融合(各センサの認識結果を統合)は頑健だが片方の弱点を他方が補えない。中間の特徴レベル融合が実用上の折衷点。

先に潰すリスク

用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。

数字・仕様の読み方
難易度
advanced
カテゴリ
ロボティクス
タグ数
6

判断チェックリスト

  • 自社の用途が「ロボット工学 / センサフュージョン」に近いか確認する。
  • 強みである「LiDARの点群とカメラの画像は座標系も更新周期も異なるため、外部キャリブレーション(外部パラメータ)で座標変換し、内部パラメータで投影してから初めて対応づけられる。」が本当に評価軸になるか確認する。
  • 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

ロボット工学センサフュージョンLiDARキャリブレーション自己位置推定ロボット工学センサフュージョンLiDAR