https://arxiv.org/pdf/2403.11552
논문리뷰
Abstract
기존 Task and Motion Planning (TAMP) 접근법
- symbolic task planning(기호적 작업 계획)과 continuous motion generation(연속적인 동작 생성)를 수동적으로 연결
- 이러한 도메인 특화적(domain-specific)이고 노동 집약적인 모듈 새롭게 등장하는 작업을 처리하는 데 한계
이러한 문제를 해결하기 위해 LLM³을 제안
- Large Language Model (LLM)을 기반으로 한 새로운 TAMP 프레임워크
- 도메인 독립적인(domain-independent) 인터페이스가 특징
특히, 사전 학습된 LLM의 강력한 추론 및 계획 능력을 활용
- symbolic action sequences(기호적 행동 시퀀스)를 생성하고,
- motion planning(동작 계획)을 위한 연속적인 행동 매개변수를 선택
LLM³이 motion planning feedback(동작 계획 피드백)을 프롬프트(prompting)를 통해 통합
- LLM이 동작 실패(motion failure)에 대한 추론을 기반으로 반복적으로 제안 내용을 개선
결과: LLM³은 task planning(작업 계획)과 motion planning(동작 계획) 간의 인터페이스 역할을 수행하여, 두 계획 과정 사이에서 도메인별 메시지를 처리하는 복잡한 설계 과정을 줄여준다.
[실험 내용 요약]
box-packing(박스 포장) 도메인에서 일련의 시뮬레이션 진행
- LLM³이 TAMP 문제를 해결하는 효과성과 행동 매개변수 선택의 효율성을 정량적으로 입증
- Ablation studies를 통해 동작 실패 추론(motion failure reasoning)이 LLM³의 성공에 크게 기여하는 것 확인
- 나아가, 실제 physical manipulator를 활용한 질적 실험을 수행, 접근 방식이 현실 세계에서도 실용적으로 적용 가능함 확인
Introduction
연속적인 조작 계획(Sequential Manipulation Planning)
- 로봇이 복잡한 환경에서 다양한 작업을 자율적으로 수행하기 위한 필수적인 능력
로봇이 장기적인 작업 목표를 달성하기 위해
- 실행 가능한 동작을 효과적으로 생성
- 신속한 계획 알고리즘
- 환경 변화를 예측하는 추론 능력
Task and Motion Planning (TAMP)
- 계획을 두 단계로 계층적으로 분해하는 방법론
- 1. high-level symbolic task planning stage(고수준 기호적 작업 계획 단계)
- 장기적인 abstract action sequences(추상적 행동 시퀀스)에 대해 추론
- 2. low-level continuous motion planning stage(저수준 연속적 동작 계획 단계)
- 기하학적 제약을 고려하여 실행 가능한 경로를 계산
symbolic task goals(기호적 작업 목표)와 continuous motion constraints(연속적 동작 제약 조건)을 모두 충족하는 행동 시퀀스를 생성하는 것이 핵심 문제
기존의 TAMP 접근 방식
- symbolic과 continuous 도메인 간의 인터페이스를 구축하기 위해 수동으로 설계된 모듈 사용
- Action Parameter Sampler 역할
- 기호적 행동을 위한 실수값 매개변수(real-valued parameters)를 생성하여 motion planner에 수치적 목표를 제공한다.
- 예를 들어, object rearrangement task(객체 재배치 작업)에서 Place(object) 동작을 수행할 때, 적절한 2D target location (px, yq)을 선택하는 것이 중요하다.
- 기존 연구에서는 데이터 기반으로 heuristic parameter samplers(휴리스틱 매개변수 샘플러)를 학습하는 방법을 제안하였으나 [8, 9], 이는 특정 도메인에 맞춰져 있어 범용성이 부족하다.
- Motion Failure Handling Mechanism 역할
- Motion planner의 실패 정보를 반영하여 task planner를 개선하는 메커니즘을 구현한다.
- 예를 들어, 실패 정보를 반영하여 symbolic state(기호적 상태)를 업데이트하는 방식이 있다 [10].
- 그러나 이러한 메커니즘은 일반적으로 도메인별 맞춤 설계가 필요하며, 전문가의 개입이 필수적이다.
결과적으로, 기존 TAMP 모듈은 도메인 특화(domain-specific) 설계를 필요로 하며, 상당한 수작업이 요구되므로 새로운 환경으로의 일반화가 어렵다.
최근, 웹 스케일 텍스트 데이터로 사전 학습된 Large Language Models (LLMs)
- reasoning(추론)과 planning(계획)에서 뛰어난 능력
- 다음과 같은 기능 가능
- (i) task planning(작업 계획) 수행,
- (ii) continuous parameters(연속적 매개변수) 생성,
- (iii) environment feedback(환경 피드백)에 대한 추론
이러한 특성을 활용 -> LLMs을 이용하여 TAMP에서
- symbolic domain과 continuous domain을 연결하는 일반적이고 도메인 독립적인 접근법 제공
- 도메인별 모듈을 수동으로 설계할 필요가 없어짐
LLM³ (Large Language Model-based Task and Motion Planning with Motion Failure Reasoning)을 제안
- motion planning feedback(동작 계획 피드백)을 활용
- 효과적인 계획을 수행하는 LLM 기반 TAMP 프레임워크
LLM³의 주요 기능
- Symbolic action sequences(기호적 행동 시퀀스) 생성
- LLM을 활용하여 작업 목표를 향한 기호적 행동 시퀀스를 제안
- Continuous action parameters(연속적 행동 매개변수) 생성
- 실행 가능한 동작을 수행하기 위해 필요한 매개변수를 생성
- Motion planning feedback 기반 추론
- motion planning feedback을 반영하여 기호적 행동과 매개변수를 반복적으로 수정한다.
LLM³는 기존 TAMP 방식과 비교하여 여러 가지 이점을 제공한다.
- 첫째, 기호적 작업 계획을 위한 symbolic domain files(기호적 도메인 파일)을 수동으로 설계할 필요 없이, LLM의 내재된 지식을 활용하여 기호적 행동을 제안
- 둘째, LLM을 도메인 독립적인 informed parameter sampler(정보 기반 매개변수 샘플러)로 활용하여 연속적 행동 매개변수를 생성할 수 있으며, 이는 LLM의 내재된 휴리스틱을 활용하는 장점
- 셋째, motion planning feedback을 활용하는 추론 과정이 특정 planner에 종속되지 않는다.
특히, 우리는 motion planning feedback을 크게 두 가지 motion failure modes(동작 실패 유형)로 분류하고 정리하였다.
- Collision(충돌)
- Unreachability(접근 불가능성)
이러한 동작 계획 피드백을 활용하여 LLM³은 보다 정밀하게 행동 시퀀스를 수정하고, 보다 적은 계획 반복(iteration) 및 동작 계획 쿼리(query)를 통해 실행 가능한 TAMP 솔루션을 찾을 수 있다.