以下の論文を読んだので簡単にまとめます。

論文情報

タイトル：Towards Safe Imitation Learning via Potential Field-Guided Flow Matching（PF2MP）
著者：Haoran Ding, Anqing Duan, Zezhou Sun, Leonel Rozo, Noémie Jaquier, Dezhen Song, Yoshihiko Nakamura
所属：MBZUAI（Robotics Dept.）、Bosch Center for AI、KTH RPL
IIT Delhi と MBZUAI の Multi-Institutional Faculty Interdisciplinary Research Project（MFIRP）支援
公開日：2025/8/12
会議：IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025)
arXiv：2508.08707v1

要点

Flow MatchingやDiffusion Modelを用いた模倣学習は、複雑なタスクを効率的に学習できる一方、安全性の保証が弱い。
本研究では、Flow Matchingに安全性を組み込むための新手法 Potential Field-Guided Flow Matching Policy (PF2MP) を提案している。

PF2MPは、行動模倣（タスク遂行） と障害物回避（安全性） を同時に学習するアプローチ。
デモデータからタスクと安全領域を同時に抽出し、推論時にはポテンシャル場がエージェントを安全方向へ誘導する。

実験結果

2D迷路・ロボット操作・手書き・実機タスクで検証。
衝突率を最大で25% → 0.67%まで低減。
タスク成功率は維持しつつ、動作軌跡がより滑らかかつ安全に。
λ（安全性の重み）による調整で安全性と達成率を両立可能。

背景

拡散モデルを用いた模倣学習では、安全性を考慮する研究がいくつか進んでいる
例えば、

Motion Planning Diffusion (MPD)：複数の目的関数の勾配で安全かつ滑らかな軌道を生成
Ensemble-of-costs-guided Diffusion (EDMP)：衝突コストの勾配を利用して安全性を高める
Cold Diffusion with Replay Buffers (CDRP)：安全な中間状態を記録して推論を安定化

一方、Flow Matching Policy (FMP)ベースの模倣学習は高速・高効率であるものの、安全性を考慮した研究はすくない
PF2MPはこの課題に対してポテンシャル場をポリシーに組み込むことでで拡張を行っている。

手法

PF2MPは、デモデータからタスク模倣のポリシーと安全領域のポテンシャル場を同時に学習し、２つを統合することで、安全性を考慮している

Flow Matching Policy (FMP)

FMPは専門家デモの行動を再現するようにベクトル場を学習する。
しかし、通常のFMPは行動再現に特化しており、障害物や危険領域の情報は無視される。

Potential Field（ポテンシャル場）の学習

まず、デモデータから Kernel Density Estimation (KDE) により行動分布を推定する。
高密度領域は「安全」、低密度領域は「危険」として扱う。

デモ分布の推定	密度マップ
	$Density\$

この密度をもとにポテンシャル関数を定義する：

ϕ (a) = lo g (\overset{p}{^} (a)) + α d (a, H)

定義：

$ϕ (a)$ ：ポテンシャル関数（行動 $a$ の安全度）

$\overset{p}{^} (a)$ ：行動 $a$ の確率密度（KDE推定）

$α$ ：安全性重み係数

$d (a, H)$ ：行動 $a$ と高密度領域 $H$ との距離

ポテンシャル関数の勾配をとることで、安全方向に動くベクトル場 $Φ (a)$ を得る。

安全性を組み込んだ生成過程

FMPの生成ベクトル場にポテンシャル勾配 $Φ$ を加えることで、安全性を付与する。

A_{t + Δ t} = A_{t} + [, v_{θ} (A_{t}, t; o) + λ Φ (A_{t}),] Δ t

定義：

$A_{t}$ ：時刻 $t$ の行動ベクトル

$v_{θ} (A_{t}, t; o)$ ：FMPによる行動更新項

$Φ (A_{t})$ ：ポテンシャル場の勾配ベクトル

$λ$ ：安全性とタスク達成率のバランス係数

$Δ t$ ：積分ステップ幅

実験

2D迷路

PF2MPは壁との衝突率を約9% → 3% に低減。
成功率は96%を維持。

FMP（衝突あり）	PF2MP（安全な軌道）
$FMP\$	$PF2MP\$

λを大きくしすぎると過剰回避が起こるため、適切な調整が必要。

ロボット操作（Fetch Reach / Push）

Reachタスクでは衝突率が34% → 18%に半減
Pushタスクでは衝突率を約5%低減

手書きタスク（Franka Panda）

関節空間での安全な軌道生成
FMPの衝突率25%に対し、PF2MPは0.67%

実験環境	デモ例
$環境\$	$デモ\$ \|

実機実験（Unitree Z1）

壁に書く「S」字軌道のタスクにおいて、
FMPは4/10回衝突、PF2MPは0/10回

まとめと考察

PF2MPは、ポテンシャル場を導入することでFlow Matchingに安全性を自然に組み込み、
模倣精度を維持しながら衝突を削減した。
Diffusionモデルと比べて軽量であり、リアルタイム制御にも適用可能性がある。

課題として：

静的環境前提のため、動的障害物には未対応。
ハイパーパラメータ（特にλ）に依存。

一言メモ

教示データからPotential FieldとFlow Matchingの両方を同時に学習し組み合わせて安全性を高める研究
KDEの勾配をPotential Fieldに使うのは面白い
FMP特化しているのは、Diffusion Modelの安全性が先行している状況での新規性を出すためっぽい

一方、発展できそうなところ

動的な環境では対応できなさそう
人のデモの中に障害物を避けるためのヒントが入っていることが前提となっている
ハイパーパラメータ依存が大きいので自動化できないか
ポテンシャル場を明示的に構築する必要があり、本当はDNNが暗黙的に学習してほしい

🐜の自習室

Explorer

Towards Safe Imitation Learning via Potential Field-Guided Flow Matching Policy

要点

背景

手法

Flow Matching Policy (FMP)

Potential Field（ポテンシャル場）の学習

安全性を組み込んだ生成過程

実験

2D迷路

ロボット操作（Fetch Reach / Push）

手書きタスク（Franka Panda）

実機実験（Unitree Z1）

まとめと考察

Table of Contents