視覚・言語・行動モデル（VLA）

VLAとは何を写像するモデルか

視覚・言語・行動モデル（Vision-Language-Action model, VLA）は、カメラ観測 o（画像列）と自然言語の指示 l（例「赤いブロックを箱に入れて」）を入力に取り、ロボットの行動 a（関節角やエンドエフェクタの並進・回転・グリッパ開閉）を出力する条件付き方策 π(a | o, l) です。核心は、視覚言語モデル（VLM）が獲得したWebスケールの意味知識——「赤い」「箱」「入れる」が何を指すか——を、実世界の制御指令へ橋渡しする点にあります。

従来のロボット制御は、知覚・状態推定・プランニング・制御を個別モジュールに分けて設計してきました。VLAはこれをひとつの微分可能なネットワークに畳み込み、画素と指示から動作までを端から端まで学習します。バックボーンは典型的に、ViT系のビジョンエンコーダと大規模言語モデルを結合した既存VLMを流用し、その上に行動を生成するヘッドを接ぎ木します。

なぜVLMを土台にするのか

ロボットの実機デモは高価で少量（数百〜数万エピソード）しか集まりません。ゼロから学ぶと未見の物体・言い回しにまるで汎化しません。Web画像・テキストで事前学習済みのVLMを土台にすれば、その意味的な汎化能力を制御へ転移でき、少ないデモでも「見たことのない色や名詞」に反応できるようになります。

行動トークン化：連続値を離散予測に落とす

VLAの設計上の分岐点は、連続量である行動をどう表現するかです。RT-2に代表される方式は、行動を離散トークンに量子化し、言語モデルの次トークン予測とまったく同じ枠組みで解きます。手順は明快です。

1. 各行動次元（x, y, z, roll, pitch, yaw, gripper 等）を
   値域で正規化し、256段階などにビン分割（量子化）する
2. 各ビン番号を1トークンとして扱い、
   1タイムステップの行動を数トークンの系列に変換する
3. VLMの語彙の一部（使用頻度の低いトークンID）を
   行動トークンに割り当て、通常のテキスト生成として自己回帰的に予測する

これにより、トークン化と自己回帰生成の機構をそのまま制御へ再利用でき、Web由来のVQAデータと実機デモを同一の損失（次トークンのクロスエントロピー）で共同学習できます。結果として、言語・視覚の推論能力が行動生成に染み出す「創発的汎化」が観測されます。代償は量子化誤差と、行動次元数×ステップ数だけ推論トークンが伸びることによる制御周波数の低下です。

もうひとつの系統が拡散／フローによる連続生成です。Diffusion Policyは、観測を条件に短い行動チャンク（数〜十数ステップ分の未来行動）を拡散モデルの逆過程で一挙に生成します。近年のπ0系はフローマッチングで同様の連続出力を高速化します。量子化を挟まないため精密な運動を表しやすく、後述するマルチモーダル性の扱いにも本質的な利点があります。

観点	離散トークン化型（RT-2系）	連続生成型（Diffusion Policy／フロー系）
行動表現	各次元をビン量子化しトークン列に	連続ベクトルを直接生成（チャンク単位）
生成機構	自己回帰の次トークン予測	拡散/フローの反復デノイズ
VLM資産の流用	語彙・生成機構をそのまま再利用しやすい	行動ヘッドを別設計する必要がある
マルチモーダル分布	1トークンの多峰分布で一応表せる	多峰性を自然かつ滑らかに表現できる
精度と周波数	量子化誤差あり・系列が伸び低速化しやすい	高精度・チャンク生成で実効周波数を稼ぎやすい

模倣学習との統合と、その脆さ

VLAの学習主軸は、人間のテレオペ（遠隔操作）で集めた (o, l, a) のデモを教師とする行動クローニング（Behavioral Cloning, BC）です。これは強化学習ではなく、観測・指示から専門家行動への教師あり写像の当てはめに他なりません。報酬設計や実機での試行錯誤を要さないため大規模化しやすい反面、模倣学習に固有の弱点を抱えます。

第一の難所が共変量シフトです。BCは専門家が訪れた状態分布上でしか教師信号を持ちません。実行時にモデルがわずかに誤ると、デモに無い状態へ迷い込み、そこでの正しい行動を学んでいないためさらに逸脱する——誤差が時間方向に累積する構造的問題です（DAgger等のデータ再収集はこの緩和策）。これは世界モデルの複合誤差と根が同じで、1ステップ誤差の累積が軌道後半を破綻させます。

第二が行動分布のマルチモーダル性です。「障害物を左右どちらから回り込んでも正解」という状況で、平均二乗誤差で単一の行動を回帰すると、モデルは複数の正解の平均——どちらでもない、壁に突っ込む中間値——を出しがちです。拡散/フロー型やトークン化型が支持されるのは、こうした多峰な条件付き分布 p(a | o, l) を表現でき、平均への潰れを避けられるからです。

平均への崩壊（mode averaging）

連続行動を単純なL2回帰で学ぶと、複数の有効な軌道が併存する分岐点で行動が平均化され、どの正解でもない危険な出力になります。多峰分布を扱える生成的ヘッド（拡散・フロー・離散トークン）の採用は、この崩壊を避けるための本質的な設計判断です。

行動を1ステップずつ出さず、アクションチャンク（未来数ステップをまとめて予測し、しばらくそれを実行）する設計も広く使われます。これは高頻度な再計画に伴う予測のブレを抑え、時間的に一貫した滑らかな運動を生む狙いです。

汎化の壁：どの軸に外挿できるか

VLAの汎化は一枚岩ではなく、外挿する軸ごとに難度が違います。整理すると次の階層になります。

意味的汎化（比較的容易）：VLMの事前知識により、未見の色名・物体名・言い換えた指示にはある程度対応できます。行動そのものより「何を対象にするか」の同定は転移が効きやすい領域です。
視覚的汎化（中程度）：背景・照明・気を散らす物体（distractor）の変化への頑健性。データ拡張とデモ多様性でかなり改善しますが、大きな見た目変化には脆さが残ります。
身体的・力学的汎化（最難関）：異なるロボット本体（エンボディメント）、新しい動作スキル、接触の多い精密操作への外挿。ここは事前学習の意味知識では埋まらず、実機データそのものの量と多様性が効きます。

この最難関を崩す本命が、多数の研究機関・ロボットのデータを束ねたクロスエンボディメント学習です。Open X-Embodimentのような統合データセットで異種ロボットのデモを混ぜて学ぶと、単一ロボット学習を上回る正の転移が生じ、少量データの新規本体への適応も速くなります。これはロボティクスにおける「基盤モデル化」の駆動力そのものです。

押さえどころ

VLAの本質は「VLMの意味的汎化を制御へ転移する条件付き方策 π(a|o,l)」。行動表現は離散トークン化（自己回帰）か連続生成（拡散/フロー）の二系統、学習主軸は模倣（BC）で弱点は共変量シフトとマルチモーダル性、汎化は意味＜視覚＜身体の順に難しくクロスエンボディメントが鍵、と対応づけて整理すると全体像が締まります。

まとめ

VLAは、画素と言語指示から運動指令までを一本のネットワークで写像し、視覚言語モデルが蓄えたWebスケールの意味知識を実世界の制御へ流し込むアプローチです。連続行動をどう表すか——トークン量子化による自己回帰か、拡散/フローによる連続生成か——が設計の分水嶺であり、後者はマルチモーダルな行動分布を素直に扱える強みを持ちます。学習は人手デモの模倣が中心で、共変量シフトと平均への崩壊という模倣学習の宿痾を、データ再収集・アクションチャンク・生成的ヘッドで御します。そして最後に立ちはだかるのが身体・力学レベルの汎化であり、異種ロボットのデータを束ねるクロスエンボディメント学習こそ、ロボット基盤モデルへ向けた現時点での最有力路線です。

視覚・言語・行動モデル（VLA）

VLAとは何を写像するモデルか

行動トークン化：連続値を離散予測に落とす

模倣学習との統合と、その脆さ

汎化の壁：どの軸に外挿できるか

まとめ

視覚・言語・行動モデル（VLA）を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点