우홍욱 교수 연구실 (CSI연구실), ICLR 2025 논문 게재 승인
2025-02-10
[우홍욱 교수 연구실 (CSI연구실), ICLR 2025 논문 게재 승인] CSI연구실 (지도교수: 우홍욱)의 논문이 인공지능 분야 우수학회인 ICLR2025 (The 13th International Conference on Learning Representations)에 2편 논문이 게재 승인(Accept) 되었습니다. 논문은 25년 4월 싱가포르 싱가포르 엑스포에서 발표될 예정입니다. 1. 논문 “Model Risk-sensitive Offline Reinforcement Learning” 은 소프트웨어학과 유광표 (박사과정) 연구원이 저자로 참여했습니다. 본 연구에서는 로봇, 금융 등 실사간 의사결정이 중요한 미션 크리티컬 분야에 활용되는 위험 민감 강화학습(Model Risk-sensitive RL) 프레임워크를 제안하며, 특히 모델 위험에 민감한 오프라인 강화학습 기법(MR-IQN)을 기술합니다. MR-IQN은 모델이 학습한 데이터와 실제 환경과 달라 정확도가 떨어지더라도, 이에 대한 최악의 경우, 즉 “모델 위험”의 손실을 최소화하는 것을 목적합니다. 이를 위해, 데이터 포인트에 대한 모델의 신뢰도를 계산하고, 각 데이터 포인트당 모델 위험을 계산하는 비평가 앙상블 척도(Critic-Ensemble Criterion)와 오프라인 상황으로 인해 실제 정책의 가치함수와 추론된 정책 가치의 평균 및 분산의 괴리를 제한하는 푸리에 특성 네트워크(Fourier Feature Network) 을 결합합니다. MR-IQN은 MT-Sim(금융 거래 환경)와 AirSim(자율주행 시뮬레이터) 실험에서 다른 최신 위험 민감 강화학습 기법보다 낮은 위험과 높은 평균의 성능을 달성하였습니다. 2. 논문 “NeSyC: A Neuro-symbolic Continual Learner For Complex Embodied Tasks In Open Domains” 은 소프트웨어학과 최원제 (박사과정), 인공지능학과 박진우 (석사과정), 소프트웨어학과 안상현 (석사과정), 이대희 (석박통합과정) 연구원이 저자로 참여했습니다. 본 연구는 오픈도메인 물리환경과 상호작용 시 요구되는 지식 (Actionable Knowledge)을 체득된 경험을 통해 다양한 태스크에 적용할 수 있도록 지속적으로 일반화하는 뉴럴-심볼릭 지속 학습자, Neuro-symbolic Continual Learner (NeSyC) 프레임워크를 제안합니다. NeSyC는 인간의 사고 체계인 가설-연역 (hypothetico-deductive) 구조를 모방하여 오픈 도메인에서의 지속적으로 일반화 성능을 향상하는데, 이를 위해, (1) LLM과 심볼릭 도구를 활용해 체득된 경험에서 가설을 반복적으로 생성하고 검증하는 대조적 일반성 향상(Contrastive generality improvement) 기법을 수행합니다. 또한, (2) 메모리 기반 모니터링(Memory-based monitoring)으로 체화형 에이전트(Embodied agent)의 행동 오류를 실시간 감지하고, 지식 보완(Knowledge refinement)을 실행하여, 최종적인 에이전트의 오픈도메인에서의 다양한 태스크 수행 성능, 즉 일반화 성능을 향상합니다. NeSyC는 ALFWorld, VirtualHome, Minecraft, RLBench, 그리고 실세계 로봇 테이블탑 시나리오 등 다양한 벤치마크 환경에서 평가되었습니다. 그 결과, NeSyC는 동적 변화가 있는 오픈도메인 환경 전반에서 강건한 성능을 보였으며, AutoGen, ReAct, CLMASP 등 최신 SOTA를 능가하는 태스크 성공율을 확인하였습니다. CSI 연구실은 Embodied Agent, Reinforcement Learning, Self-Learning 기술을 활용하여 네트워크, 클라우드 시스템 최적화 연구와 로봇, 드론 자율주행 연구 등을 수행하고 있습니다. 우홍욱 | hwoo@skku.edu | CSI Lab | https://sites.google.com/view/csi-agent-group