새소식

Paper Review

Speech-to-Trajectory: Learning Human-Like Verbal Guidance for Robot Motion

  • -

https://arxiv.org/pdf/2504.05084

https://www.youtube.com/watch?v=19YtpWtUjN0

내가 읽고 요약 평가

  • 강화학습이나 LLM을 이용한 기존 방법들의 문제점
    • 강화학습이나 LLM을 이용하면 의도한대로 동작하지 않거나 자율성이 너무 부여될 수 있고 위험함
    • prompt 설계자가 지정한 미리 결정된 output format에 의존하는 경우가 많음
    • motion planning과 같은 중요한 작업의 신뢰성을 저해할 수 있음
  • 복잡성 증가는 직접적인 grounding 접근 방식에서 훈련 및 추론 모두에 어려움을 야기함
  • 인간과 유사한 성능을 달성하기 위해서는 Diffusion Policy (생성형 모델)를 로봇 운영자의 사용 기록을 훈련 데이터셋으로 하여 학습시키자.
  • GPT 기반 data augmentation을 통합하여 언어적 일반화를 향상시켜 paraphrased 또는 불완전한 명령에 대한 robustness를 향상시킴
  • Behavior Cloning (BC) 알아야겠다.
  • Diffusion Policy를 자세히 깊게 알아야겠다.
  • 전반적으로 자연어를 입력받고 특정 반복 테스크를 하는 메니퓰레이터에 대해서는 VLA가 많이 쓰이는 것 같고 모바일 로봇에는 Diffusion Model이 많이 쓰이는 것 같다.
  • Diffusion Policy와 VLA의 차이점, 각각의 장단점을 자세히 알아봐야겠다.

3줄 요약

  1. 🤖 이 논문은 사람의 언어 지시를 로봇의 실행 가능한 동작 궤적으로 직접 매핑하는 새로운 Speech-to-Trajectory 프레임워크인 DLM을 제안합니다.
  2. ✨ DLM은 사람 조작 시뮬레이션 데이터에 행동 복제(Behavior Cloning)를 사용하고, GPT 기반의 의미론적 증강을 통해 다양한 어구에 대한 일반화 성능을 향상시켰습니다.
  3. ✅ 기존 LLM 기반 방식과 달리, DLM은 일관되고 예측 가능한 동작을 보장하며, 시뮬레이션 및 실제 로봇 실험에서 우수한 성능과 인간과 유사한 움직임을 보여주었습니다.

Abstract

[Background / Motivation (배경 및 동기)]

로봇을 실제 응용 분야에 완전히 통합하려면 훈련되지 않은 사용자의 자연어 지시를 해석하고 실행할 수 있는 능력이 필요함

인간 언어에는 본질적인 가변성이 있으므로 동등한 지시 사항이 다르게 표현될 수 있지만 일관된 로봇 동작이 필요함

[Problem Statement (문제 정의)]
Large Language Models (LLMs)는 언어 이해 능력을 향상시켰지만 사용자 표현의 가변성을 처리하는 데 어려움을 겪고 미리 정의된 명령에 의존하며 예측할 수 없는 결과를 나타냄

[Proposed Method (제안 방법)]

본 논문에서는 이러한 한계를 극복하기 위해, 음성 명령을 직접 실행 가능한 모션 궤적으로 매핑하는 새로운 speech-to-trajectory 프레임워크인 Directive Language Model (DLM)을 제안

DLM은 Behavior Cloning (BC)을 기반으로 학습되며, GPT 기반 의미론적 증강을 통해 다양한 의역 명령어를 생성

또한, diffusion policy를 기반으로 적응형 궤적 생성 및 확률적 샘플링을 수행

[Key Contribution (주요 기여점)]

  • 미리 정의된 구문 없이 자유로운 자연어 명령 처리
  • 광범위한 프롬프트 엔지니어링 없이도 일관된 결과 도출
  • 다양한 로봇 플랫폼에 적용 가능

[Experimental Results (실험 결과)]
실험 결과는 DLM의 향상된 명령 일반화, 구조화된 표현에 대한 의존도 감소, 인간과 유사한 모션 달성을 보여줌

I. 서론(INTRODUCTION)

[문제 제기의 배경]

인간과 로봇 간의 자연스럽고 원활한 통신은 로봇 공학의 중요한 과제임

특히 모호한 고수준의 음성 명령을 로봇 동작으로 변환하는 것이 핵심 문제

로봇 공학의 응용 분야가 ‘통제된 산업 환경에서의 반복적인 작업’에서 → ‘다양하고 인간 중심적인 역할로 이동함’에 따라 자연어 인터페이스의 중요성이 커지고 있음

  • 예를 들어, 가정 및 의료 환경에서 사용자는 기존 로봇 프로그래밍 방법이나 기술적 숙련도가 부족함

[저자가 집중한 문제]

Natural Language Processing (NLP) 및 Large Language Models (LLMs)의 발전은 보다 직관적인 Human-Robot Interaction (HRI) [1]을 가능하게 했지만 기존 모델은 여전히 언어적 지시를 실행 가능한 궤적으로 효과적으로 변환하는 데 어려움을 겪고 있다.

 

[본 논문의 목표]

자연어의 본질적인 모호성과 구문 변형 가능성은 인간의 지시를 로봇이 실행 가능한 제어 명령으로 변환하는 데 있어 핵심적인 도전 과제

  • 이로 인해 로봇에게는 강력한 자연어 이해 능력이 필수적
  • 이는 명령어의 언어 구조를 분석하고, 의도된 동작과 객체를 식별
  • 내재된 모호성을 해소하는 것을 포함

이 분야의 연구는 의미론적 해석을 위한 정교한 기술 개발에 중점을 두며, 로봇이 인간 언어 속 의미와 의도를 파악할 수 있도록 하는 것을 목표로 한다.

여기에는 표현 방식의 다양성 처리, 암시적 지시 이해, 불완전하거나 문법적으로 부정확한 문장 처리 능력 등이 포함된다.

 

[최근 연구 동향과 그 문제점]

현재 연구는 자연어로 표현된 복잡한 목표를 이해하고 이러한 목표를 달성하는 데 필요한 일련의 행동을 자율적으로 생성할 수 있도록 로봇이 high-level task planning을 위해 LLM을 사용하는 것을 적극적으로 탐구하고 있음[12], [13].

일부 연구에서는 Reinforcement Learning (RL)과 LLM prompting을 결합

  • 장점: 에이전트가 다양한 작업과 환경에서 더 잘 일반화할 수 있도록 함 [14].
  • 단점:
    • 광범위한 prompt engineering이 필요하고 stochastic output (확률적 출력)을 생성
    • prompt 설계자가 지정한 미리 결정된 output format에 의존
    • action selection에 가변성이 발생
    • 로봇 motion planning과 같은 중요한 작업의 신뢰성을 저해
    • 안전에 민감한 애플리케이션에서 반복 가능하고 예측 가능한 동작을 보장하기가 어려움
    • 대규모 LLM의 computational demand는 로봇의 실시간 배포 어려움

로봇이 자연어에 따라 행동하도록 지시하는 핵심 연구 영역은 symbol grounding 문제

  • 이는 자연어에 사용된 symbol과 로봇의 감각적 인식 및 물리적 세계와의 상호 작용 간의 연결을 설정[5], [20]–[22].
  • 그러나 이러한 방법은 조작에 비해 더 큰 configuration space를 포함하므로 navigation 작업에는 적합하지 않을 수 있음 [23], [24].
  • 이러한 복잡성 증가는 직접적인 grounding 접근 방식에서 훈련 및 추론 모두에 어려움을 야기함

이러한 문제를 해결하기 위해 NLP와 action generation model 사이를 연결하는 motion planning layer가 종종 추가됨 [25].

  • 그러나 이러한 접근 방식은 감각적 인식에 의존하며 로봇이 수행해야 하는 low-level action을 다루지 않습니다.
  • 이러한 접근 방식은 차선의 작업 성능과 예상치 못한 동작으로 이어져 사용자 불만을 초래할 수 있습니다.
  • 또한 성능 기대치에 영향을 미치고 부자연스럽거나 잠재적으로 위협적인 동작으로 이어질 수 있습니

반면에, 본 연구에서는 감각적 인식(sensory perception)을 통합하기 전에 사용자 기대치에 부합하는 인간과 유사한 성능을 달성하는 것을 목표로 합니다.
감각적 입력(Sensory input)은 나중에 motion 자체를 지배하지 않고 motion constraint를 적용하는 데 사용될 수 있습니다.

 

[주요 기여]

  • 우리는 자연스러운 음성 명령을 실행 가능한 low-level motion trajectory로 변환하여 원활하고 직관적인 인간-로봇 상호 작용을 가능하게 하는 새로운 speech-to-trajectory framework인 Directive Language Model (DLM)을 소개합니다.
  • 이전 방법과 달리 DLM은 특정 사전 정의된 언어 구조에 의존하지 않고 다양한 언어적 표현에서 일반화할 수 있어 비전문가의 사용성을 향상시킵니다.
  • 우리는 human participant가 시뮬레이션 환경에서 가상 로봇을 언어적으로 안내하거나 원격 조작하는 데이터 세트를 사용하여 인간의 기대에 부합하는 motion pattern을 학습하기 위해 Behavior Cloning (BC)을 활용합니다.
  • 우리는 GPT 기반 data augmentation을 통합하여 언어적 일반화를 향상시켜 paraphrased 또는 불완전한 명령에 대한 robustness를 향상시킵니다.
  • DLM은 로봇 특정 제어 신호가 아닌 trajectory 데모에서 학습하므로 다양한 로봇 플랫폼에 적용할 수 있습니다.
  • 광범위한 prompt engineering이 필요하고 stochastic output을 생성하는 LLM 기반 방법과 달리 DLM은 더 낮은 computational demand로 일관되고 예측 가능한 동작을 보장합니다.
  • 실험 결과는 명시적 및 암시적 명령을 모두 정확하게 해석하고 해당 예상 trajectory를 생성하는 DLM의 능력을 보여줍니다.
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.