以下の論文を読んだので簡単にまとめます。

論文情報

タイトル：CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions
著者：Lizhi Yang, Blake Werner, Massimiliano de Sa, Aaron D. Ames
所属：Caltech MCE（全著者が Caltech 機械・土木工学部）(arXiv)
Technology Innovation Institute (TII)、BP p.l.c.、Dow（project 227027AW）支援(arXiv)
公開日：2025/10/16（arXiv 初出）
会議：プレプリント（arXiv）
arXiv：2510.14959v2

要点

強化学習に Control Barrier Function（CBF）を統合し，「安全フィルタ」と「バリア由来の報酬 shaping」を両方とも学習中だけ適用する CBF-RL（Dual アプローチ）を提案している。
連続時間 CBF に基づく安全フィルタが，オイラー離散化された RL 環境（サンプルドデータ系）上でも前進不変性を保つことを示し，単一次元積分器に対しては CBF-QP の閉形式解を導出して軽量に実装している。
学習時にはポリシー出力を CBF で射影して常に安全な軌道だけを実行しつつ，フィルタの介入量や CBF 条件違反量に基づく安全報酬を加えることで，ポリシーが安全制約を内部化するように誘導する。
2 次元ナビゲーション（単一次元積分器）でのアブレーションでは，「フィルタのみ」「報酬のみ」「CBF なし」と比較して，Dual が学習中の安全違反を避けつつ高い成功率とロバスト性（動力学ノイズに対する性能劣化の小ささ）を示す。
Unitree G1 ヒューマノイドの障害物回避歩行と階段昇降に適用し，IsaacLab で学習したポリシーをゼロショット sim-to-real で実機展開しても，ランタイムの安全フィルタなしで障害物回避・階段昇降を安全に行えることをデモしている。

背景・位置づけ

強化学習の課題
- 高性能な方策を学べる一方で，「安全性よりも報酬を優先」しがちであり，学習中・実運用ともに安全違反（衝突・転倒など）が問題になる。
CBFによる安全制御
- CBFは「安全集合を定義し，その集合の前進不変性を保証する」ための制御理論ツール。
- 従来は，連続時間の制御系に対してオンラインのQP（CBF-QP）を解き，「望ましい入力を最小限だけ修正する安全フィルタ」として使われてきた。
従来の「CBF＋RL」の限界感
- CBFをオンラインフィルタとして「上に載せるだけ」の構成だと
  - 方策はCBFの存在を知らないため，常に危険な行動を提案し続け，フィルタが頑張って修正する構図になりやすい。
  - フィルタを外すと急に危険になり，実行時にフィルタ無しで使えない。
  - 毎ステップQPを解く計算コストが高く，大規模並列RL環境とは相性が悪い。
著者チームの文脈
- AmesらはCBF理論と安全クリティカル制御の中心的グループで，多数のCBF＋脚ロボット・ヒューマノイドの研究を出している。
- Yang/Wernerは，同じチーム内で「RLベースのヒューマノイドロコモーション＋安全フィルタ（SHIELDなど）」を継続しており，本論文は「安全レイヤを後付け」から「学習段階で方策に焼き込む」方向への拡張と位置づけられる。

論文の狙い・メインのアイデア

狙い
- RLにCBF安全制約を統合し
  - 学習中の探索を安全フィルタで守りながら
  - 同時に方策が安全制約を内部化するように学習させ
  - 最終的にはランタイムの安全フィルタ無しでも安全に動作する方策を得ること。
CBF-RL（Dualアプローチ）の二本柱
- 学習時の安全フィルタリング
  - 方策が提案した行動をCBF-QPで安全な入力に射影し，環境に与える。
  - これにより，学習中も軌道は常に安全集合内に保たれる。
- 安全報酬（CBFベースの報酬 shaping）
  - CBF条件違反量やフィルタの介入量に応じて，追加の安全報酬（主にペナルティ）を与える。
  - フィルタに頼るほど報酬が悪くなるように設計し，「最初から安全な行動を提案する」方策を強化する。
メッセージ
- 「CBFを報酬に入れるだけ」でも，「CBFフィルタをかけるだけ」でも不十分であり，
- 両者を組み合わせたDual構成が
  - 安全な探索
  - ランタイムフィルタ無しでも安全なポリシー
  - ロバスト性
    を同時に達成できるという主張。

理論パート：連続時間CBFと離散時間RLの橋渡し

対象とするモデル
- 「単一次元積分器（single integrator）」：
  - 連続時間： $\overset{z}{˙} = u$
  - 離散時間（オイラー）： $z_{k + 1} = z_{k} + Δ t, u_{k}$
- ここで $z \in R^{n}$ は状態（例：2次元位置）， $u$ は入力（速度）。
Lemma 1（連続→差分の不等式）
- 連続時間CBF条件
  - $\dot{h} (z) \geq - α (h (z))$ を満たす安全制御則が存在するとき，
- オイラー離散化された軌道に沿って
  - $h (z_{k + 1}) - h (z_{k})$ の減少量は
    - $- Δ t$ と $h (z_{k})$ のある関数の積で下から抑えられる，という差分不等式を導く。
- 直感
  - 連続時間での微分不等式を小区間で積分し，
  - hの変動が小さいことを使って「1ステップでどれだけ下がるか」を評価している。
Theorem 1（Continuous to Discrete Safety）
- Lemma 1の差分不等式と，あるコンパクト集合が前進不変である仮定のもとで
  - 離散時間のCBF値 $h (z_{k})$ が幾何級数的な下界を持つ（DTCBFの標準的なboundに一致）ことを示す。
- 結論
  - $Δ t$ が十分小さければ，連続時間CBFで設計した安全フィルタを，
    離散時間のRLシミュレータにそのまま適用しても，
    離散時間の前進不変性が保証される。
意味合い
- RL環境（IsaacLabなど）は小さなサンプリングタイムで動くため，
- 「連続時間CBFツール＋閉形式CBF-QP解」を，離散時間RLの1ステップ安全フィルタとして安心して使える，という理論的裏付け。

Dual CBF-RL のアルゴリズム構造

学習ループの構造（Algorithm 1）
- 各ステップで
  - 観測から方策が nomial 行動 $u_{nom}$ を出力
  - 現在の状態に対するCBF条件を計算
  - 条件を破る場合のみ，CBF-QPの閉形式解で安全行動 $u_{safe}$ に射影
  - CBF条件違反量・射影量から安全報酬を計算し，タスク報酬に加算
  - 環境には $u_{safe}$ を入力して次状態と報酬を得る
- 一定ステップごとに，集めたデータでPPO等のRLアルゴリズムにより方策パラメータを更新。
CBF-QPの閉形式解（単一次元積分器の場合）
- 最適化問題
  - 目的： $\frac{1}{2} ∣ u - u_{nom} ∣^{2}$
  - 制約： $\nabla h (z)^{⊤} u + α (h (z)) \geq 0$
- これは「半空間への直交射影」になり，解析的に
  - 制約を満たしていれば $u_{safe} = u_{nom}$
  - 破っていれば，境界面に向けて最小限だけ補正した $u_{safe}$
    を計算できる。
- 一般の多制約CBF-QPではQPソルバが必要になるが，ここでは「単一次元積分器＋1本のCBF制約」という設計に落とすことで，4096並列環境でも回せる軽い安全フィルタを実現している。
安全報酬設計
- 典型的には
  - CBF条件違反量（どれだけ安全境界を破ろうとしたか）
  - フィルタ介入量 $∣ u_{safe} - u_{nom} ∣$
    に比例する負の報酬を与え，
- 「フィルタが頻繁に・大きく介入する行動」を嫌うように方策を誘導する。
- 全体の報酬は
  - タスク報酬＋正則化＋安全報酬
    という構成。

単一次元積分器ナビゲーション実験

環境設定
- 2次元平面上の点ロボット
- 力学： $z_{k + 1} = z_{k} + Δ t, u_{k}$
  - $z$ ：ロボット位置（2次元）
  - $u$ ：ロボット速度（2次元）
- 円形障害物とゴールが存在
  - 障害物位置・開始位置・ゴール位置はエピソードごとにランダムサンプル
  - エージェント半径，障害物半径，ワールドサイズ $L$ を使って安全関数 $h (z)$ を定義
- 初期状態は必ず安全集合内からサンプリングし，学習中もCBFフィルタで安全を保証。
CBFと安全フィルタ
- $h (z)$ ：各障害物円とエージェント円の距離に基づく関数
- 最も危険な（最も近い）障害物に対応する1本のCBF制約だけを用いて
  - 連続時間CBF条件
  - 閉形式CBF-QP解
    を構成。
報酬設計（Table II）
- 正の報酬
  - 生存（エピソードが続く）
  - ゴールへの距離が縮む
- 負の報酬
  - 障害物・壁への衝突
  - タスク時間超過
  - CBF条件の違反，もしくは安全行動から大きく外れた提案
アブレーション（Table III）
- 軸
  - Training：
    - Nominal（CBFなし）
    - Reward（CBF報酬のみ）
    - Filter（CBFフィルタのみ）
    - Reward+Filter（Dual）
  - Deployment：
    - Runtime Filter（テスト時も安全フィルタON）
    - No Runtime Filter（テスト時はフィルタOFF）
  - DR（Domain Randomization）：
    - 動力学ノイズの有無
- 主な設定
  - Nominal：タスク報酬のみ，学習時・実行時ともCBF無し。
  - Reward Only：タスク報酬＋CBF報酬，フィルタ無し。
  - Filter Only：タスク報酬のみ，学習時からCBFフィルタON。
  - Dual：タスク報酬＋CBF報酬＋学習時フィルタON。
  - それぞれに「テスト時だけフィルタOFF」「DRあり」のバリエーションを付けて12通り。
Domain Randomization（DR）の内容
- 動力学にノイズを追加：
  - $x_{k + 1} = x_{k} + Δ t, (u_{k} + η_{k})$
  - $η_{k}$ ：最大速度の20%をスケールとする標準正規分布。
- Dualを中心に，DRあり／なしでロバスト性を評価。
結果のポイント（訓練曲線・成功率）
- Dual
  - 学習中の安全違反がほぼゼロ（フィルタで守られる）。
  - 報酬の収束も速い
  - テスト時にフィルタを外しても性能がほとんど落ちない。
- Reward Only
  - フィルタが無いため，学習中に衝突などの安全違反が多い。
  - 最終性能もDualより低い。
- Filter Only
  - フィルタONなら安全かつ高性能だが，フィルタを外すと性能が大きく落ちる（方策が安全性を内部化していない）。
- Nominal
  - 安全性・最終性能ともに他手法より劣る。
- DRあり環境でも，Dualは最も性能劣化が小さく，ロバスト性が高い。

ヒューマノイドロコモーション実験（Unitree G1）

共通設定
- プラットフォーム：Unitree G1 ヒューマノイド（下半身12自由度）
- ポリシー：3層MLP，出力は12関節の位置目標（joint position setpoints）
- 観測：先行研究［37］に従うプロプリオセプション＋履歴（長さ5）
- 学習環境：IsaacLab上で4096並列環境，最大2万ステップのエピソード
- Zero-shot実機転移で評価。
タスク1：平面障害物回避（Planar Obstacle Avoidance）
- 問題設定
  - ヒューマノイドが歩行中，外部から与えられる平面速度コマンドが障害物に向かっていても，自律的に軌道を調整して衝突を避ける。
- CBF設計
  - ロボットの平面速度を単一次元積分器とみなし，
  - ロボットと最も近い円柱障害物（ロボット座標系内）との距離に基づく安全関数を定義。
  - ポリシーはこの平面速度を調整する役割。
- 結果学習後のDualポリシーは，コマンド速度が障害物に向かっていても，自分で速度を変調して衝突を回避。
  - 実機では，ZED2 RGB-Dカメラで障害物を円柱近似し，CBF-RLポリシーが速度を調整することで障害物コースをクリア。
タスク2：階段登り（Stair Climbing）
- 問題設定
  - 視覚なし（プロプリオセプションのみ）で階段を上り下りし，蹴上げに爪先を引っ掛けずに登る。
- CBF設計
  - スイング脚の足先位置を低次元状態とみなし，
  - 次の段の蹴上げに接するハイパープレーンまでの距離を安全関数とする。
  - 足先がこのハイパープレーンの手前に留まるようにCBF報酬を付加。
  - さらに，階段の高さに応じた足のクリアランス報酬・スイング脚の接触力ペナルティも変更。
- 結果
  - 室内実験
    - Dualポリシー：高さ0.3mの高い階段でも上り下り可能。
    - Nominalポリシー：蹴上げに爪先が当たり，赤色でCBF違反が可視化されるようなつまずきが発生。
  - 屋外実験
    - 粗い階段（riser 0.14m / tread 0.33m）と滑らかな階段（riser 0.15m / tread 0.4m）の両方で成功。
    - ロボットはプロプリオセプションから階段の高さ・奥行きを推定し，足の上げ高さと胴体ピッチを調整して登る。

ポイント

CBFの使い方の再設計
- 従来：オンライン安全フィルタとして「方策の外側」に置き，常にQPを解いて安全を保証。
- 本論文：
  - 学習中のみフィルタを有効にし，安全な軌跡しか経験させない。
  - 同時にCBF由来の安全報酬を加え，方策自体が安全制約を学ぶように誘導。
  - 学習が終わったらフィルタを外しても安全に振る舞える方策を得ることを目指す。
二重構成（Dual）の効果
- フィルタだけ
  - 学習中・実行時の安全性は高いが，方策が安全性を理解しておらず，フィルタを外すと性能が崩れる。
- 報酬だけ
  - 学習中の探索は危険で，安全違反を多く起こし得る。
- フィルタ＋報酬（Dual）
  - 探索は常に安全（フィルタの存在）。
  - フィルタ介入に対するペナルティにより，方策が「最初から安全な行動」を提案するように学習。
  - 結果として，フィルタ無しでも安全かつ高性能なポリシーが得られる。
実装上の工夫
- 単一次元積分器＋1制約に落とし込むことで，CBF-QPの閉形式解を利用し，大規模並列RLでも実用的な計算コストに抑えている。
- Domain Randomizationで動力学ノイズを導入し，ロバスト性を評価。Dualはノイズ下でも性能劣化が小さい。
限界・仮定
- 理論解析（Lemma 1, Theorem 1）は単一次元積分器に対するもので，ヒューマノイドへの適用は低次元モデル（平面速度，足先運動）に投影した上での経験的検証。
- CBF（安全関数）自体はユーザが設計する必要があり，タスク・障害物形状に依存する。

一言メモ

2次元平面で同じような実験をやってて，参考になりそう
- 障害物との距離が半径より大きいという安全関数を設計している

リーディングメモ

🐜の自習室

Explorer

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

要点