[연구] [우홍욱 교수] CSI연구실, IJCAI 2024 논문 게재 승인
- 소프트웨어학과
- 조회수2492
- 2024-05-02
[우홍욱 교수] CSI연구실, IJCAI 2024 논문 게재 승인
CSI연구실 (지도교수: 우홍욱)의 논문 2편이 인공지능 분야 우수학회인 IJCAI 2024 (the 33rd International Joint Conference on Artificial Intelligence) 에 게재 승인(Accept) 되었습니다. 논문은 24년 8월 제주에서 발표될 예정이다.
논문 “Offline Policy Learning Via Skill-step Abstraction For Long-Horizon Goal-Conditioned Tasks” 은
김동훈 (인공지능학과 석사졸업), 유민종 (소프트웨어학과 석박사통합과정) 연구원이 저자로 참여했습니다.
논문 “Pareto Inverse Reinforcement Learning for Diverse Expert Policy Generation” 은
김우경 (소프트웨어학과 박사과정), 유민종 (소프트웨어학과 석박사통합과정) 연구원이 저자로 참여했습니다.
- 1. Offline Policy Learning Via Skill-step Abstraction For Long-Horizon Goal-Conditioned Tasks
본 연구는 로봇이나 자율주행과 같은 자동화/지능형 에이전트 개발에 활용되는 목적 조건 강화학습 정책 학습
(Goal-Conditioned Policy Learning) 기법의 기존 제한점인 Long-horizon 태스크 (장기 목적 구조에 따라 보상 시그널이 적어서 학습이 어려운 경우)를 해결하는 효율적인 스킬 기반 정책 학습 (Skill-based Goal-Conditioned Policy Learning) 프레임워크를 제안합니다. 로봇 스킬은 오프라인 데이터셋에서부터 학습되며, 이러한 오프라인 학습 과정에서 스킬 수준의 추상화된 환경 모델 (Skill-step Abstract)과 목적 조건 정책을 동시에 반복 학습하여 정책의 성능을 높입니다.
또한, 프레임워크는 정책 네트워크 구조를 모듈화하여, 오프라인에서 학습된 환경 모델과의 차이가 발생하는 실제 타켓 환경에 빠른 적응이 가능한 파라미터 효율적인 학습 구조를 지원합니다.
- 2. Pareto Inverse Reinforcement Learning for Diverse Expert Policy Generation
최근 데이터 기반의 오프라인 강화학습과 모방학습이 순차적 의사 결정 문제에 대응하는 데 인기를 얻은 반면, 이러한 접근 기술은 제한된 전문가 데이터셋이 주어질 때, 파레토 최적 정책 (Pareto-optimal Policy set : 다중 목적 함수에 대한 최적 정책들)을 학습하는 것을 고려하지는 않았습니다. 본 연구에서는 역강화학습 (IRL, Inverse Reinforcement Learning)을 적용하여 각 전문가가 다른 최적화 선호도를 가지는 다중 목적에 대한 정책 집합을 점진적으로 생성하는 ParIRL 프레임워크를 제안합니다. ParIRL은 CARLA 자율주행과 같은 다양한 다중 목적 제어 작업에서 SOTA IRL 알고리즘 보다 높은 성능을 내는 것을 실험을 통해 입증하였습니다.
CSI 연구실은 머신러닝, 강화학습, 자기지도학습을 활용하여 네트워크, 클라우드 시스템 최적화 연구와 로봇, 드론 자율주행 연구 등을 수행하고 있습니다. 이번 IJCAI 2024 논문의 연구는 사람중심인공지능 핵심원천기술사업 (IITP), 한국연구재단 개인기초사업 (NRF), 인공지능대학원, ICT명품인재양성사업, 삼성전자 삼성리서치의 지원으로 진행 중 입니다.
우홍욱 | hwoo@skku.edu | CSI Lab | https://sites.google.com/view/csi-agent-group