새소식

Machine Learning

강화학습 VS 모방학습

  • -

 

 

 

✅ 1. 기본 개념

🧠 강화학습 (Reinforcement Learning, RL)

  • **에이전트(Agent)**가 환경과 상호작용하면서 **보상(Reward)**을 최대화하도록 학습
  • 스스로 trial & error를 통해 최적의 정책(Policy)을 찾아감
  • 보상은 sparse하거나 delayed할 수 있음

예: 로봇이 처음에는 무작정 움직이다가, 시간이 지나면서 목표 도달 시 보상을 받으면서 점점 똑똑해짐


🧠 모방학습 (Imitation Learning, IL)

  • 전문가(Demonstrator)가 수행한 **행동 데이터(trajectories)**를 보고 따라 하는 방식
  • 주로 지도학습(Supervised Learning) 방식으로 동작 (예: 상태 → 행동을 예측)

예: 사람이 조종한 데이터를 로봇이 모방하면서 학습. 인간처럼 운전하기


✅ 2. 차이점 요약


 

  강화학습 (RL) 모방학습 (IL)
학습 방식 보상을 통해 학습 (trial & error) 전문가의 행동을 모방 (지도학습 기반)
필요 데이터 환경과의 상호작용 데이터 전문가의 Demonstration (상태-행동 쌍)
대표 알고리즘 Q-learning, PPO, DDPG 등 Behavior Cloning, DAgger 등
장점 자율적으로 최적화 가능 학습 속도가 빠름, 안전한 초기화
단점 탐험이 비효율적, 보상이 sparse할 수 있음 전문가 품질에 의존, generalization 한계
 

✅ 3. “모방학습은 강화학습의 하위 범주인가요?”

아니요. 모방학습은 강화학습과는 별개의 학습 패러다임입니다.
다만, 실무에서는 모방학습을 강화학습의 초기 정책 학습에 활용하는 경우가 많습니다.

예:

  1. 모방학습으로 초기 정책 학습
  2. 강화학습으로 fine-tuning (exploration 추가)

이를 Hybrid 방식 또는 Pretraining + RL이라 부릅니다.


✅ 4. 보충: Behavior Cloning은 Supervised Learning?

맞습니다!
Behavior Cloning (BC)은 가장 기본적인 모방학습 기법이며,
단순히 (상태 → 행동)을 예측하는 Supervised Learning입니다.


✅ 결론

  • 모방학습은 지도학습 기반이며, 강화학습과는 별개의 학습 방식입니다.
  • 다만 강화학습의 학습 효율을 높이기 위해 모방학습을 함께 사용하는 경우가 많습니다.
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.