강화학습이나 LLM을 이용하면 의도한대로 동작하지 않거나 자율성이 너무 부여될 수 있고 위험함
prompt 설계자가 지정한 미리 결정된 output format에 의존하는 경우가 많음
motion planning과 같은 중요한 작업의 신뢰성을 저해할 수 있음
복잡성 증가는 직접적인 grounding 접근 방식에서 훈련 및 추론 모두에 어려움을 야기함
인간과 유사한 성능을 달성하기 위해서는 Diffusion Policy (생성형 모델)를 로봇 운영자의 사용 기록을 훈련 데이터셋으로 하여 학습시키자.
GPT 기반 data augmentation을 통합하여 언어적 일반화를 향상시켜 paraphrased 또는 불완전한 명령에 대한 robustness를 향상시킴
Behavior Cloning (BC) 알아야겠다.
Diffusion Policy를 자세히 깊게 알아야겠다.
전반적으로 자연어를 입력받고 특정 반복 테스크를 하는 메니퓰레이터에 대해서는 VLA가 많이 쓰이는 것 같고 모바일 로봇에는 Diffusion Model이 많이 쓰이는 것 같다.
Diffusion Policy와 VLA의 차이점, 각각의 장단점을 자세히 알아봐야겠다.
3줄 요약
🤖 이 논문은 사람의 언어 지시를 로봇의 실행 가능한 동작 궤적으로 직접 매핑하는 새로운 Speech-to-Trajectory 프레임워크인 DLM을 제안합니다.
✨ DLM은 사람 조작 시뮬레이션 데이터에 행동 복제(Behavior Cloning)를 사용하고, GPT 기반의 의미론적 증강을 통해 다양한 어구에 대한 일반화 성능을 향상시켰습니다.
✅ 기존 LLM 기반 방식과 달리, DLM은 일관되고 예측 가능한 동작을 보장하며, 시뮬레이션 및 실제 로봇 실험에서 우수한 성능과 인간과 유사한 움직임을 보여주었습니다.
Abstract
[Background / Motivation (배경 및 동기)]
로봇을 실제 응용 분야에 완전히 통합하려면 훈련되지 않은 사용자의 자연어 지시를 해석하고 실행할 수 있는 능력이 필요함
인간 언어에는 본질적인 가변성이 있으므로 동등한 지시 사항이 다르게 표현될 수 있지만 일관된 로봇 동작이 필요함
[Problem Statement (문제 정의)] Large Language Models (LLMs)는 언어 이해 능력을 향상시켰지만 사용자 표현의 가변성을 처리하는 데 어려움을 겪고 미리 정의된 명령에 의존하며 예측할 수 없는 결과를 나타냄
[Proposed Method (제안 방법)]
본 논문에서는 이러한 한계를 극복하기 위해, 음성 명령을 직접 실행 가능한 모션 궤적으로 매핑하는 새로운 speech-to-trajectory 프레임워크인 Directive Language Model (DLM)을 제안
DLM은 Behavior Cloning (BC)을 기반으로 학습되며, GPT 기반 의미론적 증강을 통해 다양한 의역 명령어를 생성
또한, diffusion policy를 기반으로 적응형 궤적 생성 및 확률적 샘플링을 수행
[Key Contribution (주요 기여점)]
미리 정의된 구문 없이 자유로운 자연어 명령 처리
광범위한 프롬프트 엔지니어링 없이도 일관된 결과 도출
다양한 로봇 플랫폼에 적용 가능
[Experimental Results (실험 결과)] 실험 결과는 DLM의 향상된 명령 일반화, 구조화된 표현에 대한 의존도 감소, 인간과 유사한 모션 달성을 보여줌
I. 서론(INTRODUCTION)
[문제 제기의 배경]
인간과 로봇 간의 자연스럽고 원활한 통신은 로봇 공학의 중요한 과제임
특히 모호한 고수준의 음성 명령을 로봇 동작으로 변환하는 것이 핵심 문제
로봇 공학의 응용 분야가 ‘통제된 산업 환경에서의 반복적인 작업’에서 → ‘다양하고 인간 중심적인 역할로 이동함’에 따라 자연어 인터페이스의 중요성이 커지고 있음
예를 들어, 가정 및 의료 환경에서 사용자는 기존 로봇 프로그래밍 방법이나 기술적 숙련도가 부족함
[저자가 집중한 문제]
Natural Language Processing (NLP) 및 Large Language Models (LLMs)의 발전은 보다 직관적인 Human-Robot Interaction (HRI) [1]을 가능하게 했지만 기존 모델은 여전히 언어적 지시를 실행 가능한 궤적으로 효과적으로 변환하는 데 어려움을 겪고 있다.
[본 논문의 목표]
자연어의 본질적인 모호성과 구문 변형 가능성은 인간의 지시를 로봇이 실행 가능한 제어 명령으로 변환하는 데 있어 핵심적인 도전 과제
이로 인해 로봇에게는 강력한 자연어 이해 능력이 필수적
이는 명령어의 언어 구조를 분석하고, 의도된 동작과 객체를 식별
내재된 모호성을 해소하는 것을 포함
이 분야의 연구는 의미론적 해석을 위한 정교한 기술 개발에 중점을 두며, 로봇이 인간 언어 속 의미와 의도를 파악할 수 있도록 하는 것을 목표로 한다.
여기에는 표현 방식의 다양성 처리, 암시적 지시 이해, 불완전하거나 문법적으로 부정확한 문장 처리 능력 등이 포함된다.
[최근 연구 동향과 그 문제점]
현재 연구는 자연어로 표현된 복잡한 목표를 이해하고 이러한 목표를 달성하는 데 필요한 일련의 행동을 자율적으로 생성할 수 있도록 로봇이 high-level task planning을 위해 LLM을 사용하는 것을 적극적으로 탐구하고 있음[12], [13].
일부 연구에서는 Reinforcement Learning (RL)과 LLM prompting을 결합
장점: 에이전트가 다양한 작업과 환경에서 더 잘 일반화할 수 있도록 함 [14].
단점:
광범위한 prompt engineering이 필요하고 stochastic output (확률적 출력)을 생성
prompt 설계자가 지정한 미리 결정된 output format에 의존
action selection에 가변성이 발생
로봇 motion planning과 같은 중요한 작업의 신뢰성을 저해
안전에 민감한 애플리케이션에서 반복 가능하고 예측 가능한 동작을 보장하기가 어려움
대규모 LLM의 computational demand는 로봇의 실시간 배포 어려움
로봇이 자연어에 따라 행동하도록 지시하는 핵심 연구 영역은 symbol grounding 문제
이는 자연어에 사용된 symbol과 로봇의 감각적 인식 및 물리적 세계와의 상호 작용 간의 연결을 설정[5], [20]–[22].
그러나 이러한 방법은 조작에 비해 더 큰 configuration space를 포함하므로 navigation 작업에는 적합하지 않을 수 있음 [23], [24].
이러한 복잡성 증가는 직접적인 grounding 접근 방식에서 훈련 및 추론 모두에 어려움을 야기함
이러한 문제를 해결하기 위해 NLP와 action generation model 사이를 연결하는 motion planning layer가 종종 추가됨 [25].
그러나 이러한 접근 방식은 감각적 인식에 의존하며 로봇이 수행해야 하는 low-level action을 다루지 않습니다.
이러한 접근 방식은 차선의 작업 성능과 예상치 못한 동작으로 이어져 사용자 불만을 초래할 수 있습니다.
또한 성능 기대치에 영향을 미치고 부자연스럽거나 잠재적으로 위협적인 동작으로 이어질 수 있습니
반면에, 본 연구에서는 감각적 인식(sensory perception)을 통합하기 전에 사용자 기대치에 부합하는 인간과 유사한 성능을 달성하는 것을 목표로 합니다. 감각적 입력(Sensory input)은 나중에 motion 자체를 지배하지 않고 motion constraint를 적용하는 데 사용될 수 있습니다.
[주요 기여]
우리는 자연스러운 음성 명령을 실행 가능한 low-level motion trajectory로 변환하여 원활하고 직관적인 인간-로봇 상호 작용을 가능하게 하는 새로운 speech-to-trajectory framework인 Directive Language Model (DLM)을 소개합니다.
이전 방법과 달리 DLM은 특정 사전 정의된 언어 구조에 의존하지 않고 다양한 언어적 표현에서 일반화할 수 있어 비전문가의 사용성을 향상시킵니다.
우리는 human participant가 시뮬레이션 환경에서 가상 로봇을 언어적으로 안내하거나 원격 조작하는 데이터 세트를 사용하여 인간의 기대에 부합하는 motion pattern을 학습하기 위해 Behavior Cloning (BC)을 활용합니다.
우리는 GPT 기반 data augmentation을 통합하여 언어적 일반화를 향상시켜 paraphrased 또는 불완전한 명령에 대한 robustness를 향상시킵니다.
DLM은 로봇 특정 제어 신호가 아닌 trajectory 데모에서 학습하므로 다양한 로봇 플랫폼에 적용할 수 있습니다.
광범위한 prompt engineering이 필요하고 stochastic output을 생성하는 LLM 기반 방법과 달리 DLM은 더 낮은 computational demand로 일관되고 예측 가능한 동작을 보장합니다.
실험 결과는 명시적 및 암시적 명령을 모두 정확하게 해석하고 해당 예상 trajectory를 생성하는 DLM의 능력을 보여줍니다.