-
- [연구] SecAI 연구실 (지도교수 구형준) FSE '26에 논문 게재 승인
- SecAI 연구실 (지도교수 구형준, https://secai.skku.edu/)의 엄지용 학생 (박사과정)과 김민석 학생 (석사과정), 그리고 스토니 브룩 대학교 Michalis Polychronakis가 공동 연구한 "Fool Me If You Can: On the Robustness of Binary Code Similarity Detection Models against Semantics-preserving Transformations" 논문이 소프트웨어 SE 분야 최우수 학회인 Foundations of Software Engineering 2026 (FSE '26)에 게재 승인되어 2026년 7월에 발표할 예정입니다. 소프트웨어 역공학은 취약점 분석 및 악성코드 탐지 등 보안 분야의 핵심적인 과정이지만, 고도의 전문성을 요구합니다. 하지만 이러한 접근 방식만으로는 기하급수적으로 증가하는 최신 위협에 효과적으로 대응하는 데 한계가 있습니다. 이를 해결하기 위해 최근 인공지능을 활용하여 다양한 측면에서 역공학을 보조할 수 있는 기법을 활발히 제안하고 있으며, 특히 기계어 (assembly language)에서 문맥 정보를 추출하는 모델이 많습니다. 하지만 자연어에서 유사한 문맥으로 변형해서 의미를 전달할 수 있듯이 어셈블리어도 동일한 문맥을 유지하면서 다양한 형태로 변형하는 기법 (semantics-preserving code transformations)이 존재하는데, 이런 기법에 대해 인공지능 모델이 얼마나 강건한지에 대한 심도 있는 분석은 미흡합니다. 본 연구는 대표적인 6개의 인공지능 기반 바이너리 유사도 탐지 모델을 대상으로 8가지 변형 기법이 모델 성능에 미치는 영향을 체계적으로 분석합니다. 또한 모델이 오탐(false positive)과 미탐(false negative)과 같이 잘못된 판단을 유도하는 방식도 소개합니다. 이를 위해 620개의 원본 바이너리로부터 총 9,565개의 변형된 바이너리로 구성된 데이터셋을 구축하여 실험을 수행했습니다. 실험 결과 모델의 아키텍쳐 설계 및 전처리 방식에 따라 변형에 대한 강건성이 상이함을 확인하였으며, 특히 공격자가 변형을 정밀하게 설계할 경우 미세한 변형만으로도 모델 성능이 심각하게 저하될 수 있음을 보였습니다. 본 연구는 향후 리버싱 작업 보조용 인공지능 모델 설계 시, 단순한 성능지표를 넘어 바이너리 변형에 대한 강건성 역시 중요하게 고려해야 함을 강조합니다. Abstract: Binary code analysis plays an essential role in cybersecurity, facilitating reverse engineering to reveal the inner workings of programs in the absence of source code. Traditional approaches, such as static and dynamic analysis, extract valuable insights from stripped binaries, but often demand substantial expertise and manual effort. Recent advances in deep learning have opened promising opportunities to enhance binary analysis by capturing latent features and disclosing underlying code semantics. Despite the growing number of binary analysis models based on machine learning, their robustness to adversarial code transformations at the binary level remains underexplored to date. In this work, we evaluate the robustness of deep learning models for the task of binary code similarity detection (BCSD) under semantics-preserving transformations. The unique nature of machine instructions presents distinct challenges compared to the typical input perturbations found in other domains. To achieve our goal, we introduce asmFooler, a system that evaluates the resilience of BCSD models using a diverse set of adversarial code transformations that preserve functional semantics. We construct a dataset of 9,565 binary variants from 620 baseline samples by applying eight semantics-preserving transformations across six representative BCSD models. Our major findings highlight several key insights: i) model robustness highly relies on the design of the processing pipeline, including code pre-processing, model architecture, and internal feature selection, which collectively determine how code semantics are captured; ii) the effectiveness of adversarial transformations is bounded by a transformation budget, shaped by model-specific constraints such as input size limits and the expressive capacity of semantically equivalent instructions; iii) well-crafted adversarial transformations can be highly effective, even when introducing minimal perturbations; and iv) such transformations efficiently disrupt the model's decision (e.g., misleading to false positives or false negatives) by focusing on semantically significant instructions.
-
- 작성일 2026-01-12
- 조회수 482
-
- [교수동정] 국제 인터넷 표준화 선도하는 과학기술정보통신부장관 표창 수상자(정재훈 교수)
- 국제 인터넷 표준화 선도하는 과학기술정보통신부장관 표창 수상자 소프트웨어융합대학 소프트웨어학과 정재훈 교수는 지난 11월 3일에 서울 엘타워에서 개최된 글로벌 ICT 표준 컨퍼런스(Global ICT Standards Conference: GISC) 2025(https://gisc.or.kr/)에서 ‘과학기술정보통신부장관 표창’을 수상하였다. GISC는 차세대 ICT 기술과 표준의 미래를 논의하기 위해 2017년부터 개최되어 온, 국내 최대 규모의 표준·특허 관련 국제 행사이다. 이번 GISC 2025는 “AI for All”을 주제로, 전 세계 ICT 표준화 전문가와 산업계·학계·연구기관 관계자들이 한자리에 모여 최신 지식과 인사이트를 공유하였다. 본 콘퍼런스에서는 AI, 6G, 양자, 디지털 전환 등 핵심·신흥 기술 분야의 표준화 이슈를 집중적으로 다루었고, 글로벌 기업·국제표준화기구·정책기관이 함께 참여해 상호운용성과 신뢰성, 그리고 표준과 지식재산의 조화를 논의하였고, 미래 디지털 사회의 비전을 제시하였다. GISC는 국제 표준 기술 개발 및 표준화에 지대한 기여를 한 연구자를 매년 선정하여 ‘과학기술정보통신부장관 표창’을 수여하는데, 정재훈 교수는 이번 GISC2025 콘퍼런스에서 ‘클라우드 기반 보안 서비스 기술’과 ‘자율주행차를 위한 차량 네트워킹 기술’을 개발하고, 이러한 기술들을 국제인터넷표준화기구인 IETF(Internet Engineering Task Force)에서 다수의 국제표준들이 제정 및 승인을 받게 하고, 이러한 국제표준들을 POC(Proof of Concept)하기 위한 오픈소스 프로젝트를 통해 기술 공유를 한 ICT표준화업무유공 공적으로 2025년 과학기술정보통신부장관 표창(그림 1)을 수여하게 되었다. 그림 1. ICT 표준 대상 과학기술정보통신부장관 표창 수상 그림 2. ICT 표준 대상 과학기술정보통신부장관 표창 정재훈 교수는 국제인터넷표준화기구인 IETF에서 2002년부터 2025년까지 23년간 인터넷 기술 표준화 활동을 했고, TTA(한국정보통신기술협회)의 ICT 국제표준화 전문가로 IETF 표준화 활동을 활발히 하고 있다. 정재훈 교수는 그림 3과 같이 클라우드 기반 보안 시스템을 위한 I2NSF(Interface to Network Security Functions) 워킹그룹(Working Group: WG)에서 I2NSF 문제기술 및 유스케이스를 위한 RFC8192를 공저자로 제정했다. 정재훈 교수는 I2NSF WG에서 6건의 WG 문서들을 에디터로 RFC 승인을 받았다. 2026년 상반기에 이들 6건 문서들이 RFC로 제정될 예정이다. 정재훈 교수가 이끄는 SKKU 사물인터넷연구실(http://iotlab.skku.edu/) 팀은 IETF 해커톤에서 I2NSF Framework Project로 참가해서 4번의 수상(IETF-97, IETF-99, IETF-100, IETF-103)을 하여 I2NSF 분야에서 한국의 인터넷 기술을 세계에 알리는 기여를 했다. 정재훈 교수는 IPv6 기반 차량 네트워킹을 위한 IPWAVE(IP Wireless Access in Vehicular Environments) WG에서 문제기술 및 유스케이스 문서를 에디터로 RFC9365로 제정했다. 정재훈 교수는 I2NSF WG과 IPWAVE WG의 표준화 문서를 POC하기 위해 오픈 소스 기반의 GitHub 프로젝트를 리딩하고 있다. 또한 지난 23년(2002년~2025년) 동안 IETF 표준화 참여하며 2건의 RFC인 RFC4339과 RFC5006(개정본 RFC6106, RFC8106)을 주저자로 제정했다. 정재훈 교수는 IETF NMRG(Network Management Research Group)에서 인텐트 기반 네트워킹 유스케이스 문서를 에디터로 표준화에 적극 참여하고 있다. 이와 같이 정재훈 교수는 인터넷전문가로서 세계 인터넷 기술 발전을 위해 많은 기여를 해왔다. 그림 3. I2NSF 프레임워크 기반 클라우드 보안 시스템 이와 같이 정재훈 교수의 SKKU팀은 IETF에서 I2NSF 클라우드 보안 시스템과 IPWAVE 차량 네트워킹의 인터넷 표준화 활동을 통해 한국과 성균관대학교를 인터넷 기술 개발 및 표준화의 선도 대학으로 세계적인 주목을 받도록 기여를 하였다. 다음은 정재훈 교수가 I2NSF 워킹그룹과 IPWAVE 워킹그룹에서 기여한 인터넷 표준문서들을 보여준다. I2NSF 워킹그룹: https://datatracker.ietf.org/wg/i2nsf/documents/ IPWAVE 워킹그룹: https://datatracker.ietf.org/wg/ipwave/documents/ 정재훈 교수 연구팀은 IETF에서 5G 이동 네트워크에 연결된 이동 객체(예, 소프트웨어 정의자동차, 로봇카, 로봇, 드론)를 제어하고 관리하기 위한 표준문서 제정을 위해 I2ICF(Interface to In-Network Computing Functions) 그룹(https://mailman3.ietf.org/mailman3/lists/i2icf.ietf.org/)을 결성하였고, 2025년 11월 캐나다 몬트리얼에서 개최된 IETF 124차 정기회의 해커톤에서 I2ICF 기술을 POC하면서 IETF내에서 새로운 워킹그룹을 결성하기 위해 노력을 하고 있다. 그림 4는 정재훈 교수 해커톤 팀을 보여주고 있고, 그림 5는 I2ICF 해커톤 프로젝트 구현 및 테스트 구성을 보여주는 포스터이다. 본 표준화는 정재훈 교수가 IITP(정보통신기획평가원)의 표준화 과제인 ‘지능형 융합서비스를 위한 SDV 소프트웨어 프레임워크 표준 개발’의 표준화 아이템으로 수행을 하고 있다. 그림 4. IETF 124차 정기회의 I2ICF 해커톤 팀 그림 5. IETF-124 I2ICF 해커톤 프로젝트 포스터 다음은 정재훈 교수 연구팀이 표준화를 진행하고 있는 I2ICF 기고서를 보여준다. I2ICF 문제 기술: https://datatracker.ietf.org/doc/draft-jeong-opsawg-i2icf-problem-statement/ I2ICF 프레임워크: https://datatracker.ietf.org/doc/draft-jeong-opsawg-i2icf-framework/ 이와 같이 정재훈 교수 연구팀은 인터넷을 위한 네트워킹 및 보안 기술을 개발하고 있고, IETF라는 국제인터넷표준화기구에서 한국의 대표 표준전문가로서 인터넷표준화에 적극적으로 참여하고 있고, 학계에서도 관련 연구 결과물을 매년 탑저널을 게재하고 있다. 또한 정재훈 교수는 국제학술대회 NetSoft 2025 홍보의장 및 ICMU 2025 프로그램위원장을 수행하면서 한국과 성균관대학교의 위상을 높이는데 활약을 하고 있다. 정재훈 교수는 현재 성균관대학교 융합보안대학원 사업단장으로 융합보안 인재 양성을 담당하고 있다.
-
- 작성일 2025-12-29
- 조회수 411
-
- [학생실적] 보안공학연구실(지도교수 김형식) Nivedita Singh 박사과정, 한국정보처리학회 운당 학생 논문상 수상
- 보안공학 연구실 (지도교수: 김형식, https://seclab.skku.edu)의 Nivedita Singh(박사과정) 학생이 쿠키 배너에서의 개인정보 보호 실태를 분석한 논문 " Behind the Screen: How Cookies Become Your Identity’s Price Tag"을 통해 한국 정보처리학회에서 운당 학생 논문상을 수상했습니다. 해당 연구는 18개국 360개 이커머스 웹사이트를 대상으로 쿠키 및 트래킹 행태를 분석하여, GDPR·CCPA 등 개인정보보호 규제가 실제로는 제대로 준수되지 않고 있음을 실증적으로 보여주었습니다. 특히 동의 이전 사용자 추적, 쿠키 수명 위반, XSS·CSRF 등 심각한 보안 취약점이 광범위하게 존재함을 밝혀 규제 집행과 쿠키 관리 개선의 필요성을 강조했습니다.
-
- 작성일 2025-12-16
- 조회수 622
-
- [연구] SecAI Lab(지도교수 구형준) & SoftSec Lab(지도교수 황성재), NDSS '26에 논문 게재 승인
- SecAI 연구실 (지도교수 구형준, https://secai.skku.edu/)의 엄지용 학생 (박사과정)과 SoftSec 연구실 (지도교수 황성재, https://softsec.skku.edu/)의 Omar Abusabha 학생 (박사과정)이 연구한 "A Deep Dive into Function Inlining and its Security Implications for ML-based Binary Analysis" 논문이 보안분야 최우수학회인 The Network and Distributed System Security Symposium 2026 (NDSS '26)에 게재 승인되어 2026년 2월에 발표할 예정입니다. 함수 인라이닝(Function Inlining) 최적화는 컴파일러가 프로그램 성능을 향상시키기 위해 사용하는 대표적인 기법으로, 함수 호출 대신 해당 함수의 코드를 호출 지점에 직접 삽입함으로써 함수 호출에 따른 오버헤드를 줄입니다. 함수 인라이닝은 컴파일 과정 전반에 걸쳐 광범위하게 적용되며, 최적화 옵션을 비활성화한 경우(-O0)에도 일부 수행됩니다. 최근 바이너리 리버싱 작업을 지원하는 인공지능 모델들은 함수의 다양한 정적 특성에 크게 의존하고 있으나, 이러한 정상적인 인라이닝 최적화가 모델 성능에 미치는 영향에 대한 심도 있는 분석은 지금까지 충분히 이루어지지 않았습니다. 본 연구는 함수 인라이닝이 인공지능 모델이 활용하는 정적 특성을 크게 왜곡하여 성능 저하를 초래할 수 있으며, 난독화와 같은 복잡한 기법을 사용하지 않더라도 컴파일러의 기본 플래그만으로 공격자가 이를 의도적으로 악용할 수 있음을 보입니다. 이를 위해 먼저 LLVM 컴파일러 툴체인의 인라이닝 최적화 메커니즘을 분석하여 인라이닝에 영향을 미치는 컴파일러 옵션을 체계적으로 정리하고, 일반적인 최적화 수준보다 더 높은 인라이닝을 유도할 수 있는 옵션 조합을 도출하였습니다. 이후 바이너리 역공학, 악성코드 탐지 등 다섯 가지 인공지능 기반 작업을 대상으로, 총 20개의 인공지능 모델에 대해 실험을 수행하였습니다. 실험 결과, 함수 인라이닝은 일반적인 성능 최적화 기법임에도 불구하고 다양한 인공지능 모델의 성능에 직·간접적으로 상당한 영향을 미칠 수 있음을 확인하였습니다(예: 악성코드 탐지 우회). 특히 정적 특징에 크게 의존하는 모델일수록 인라이닝 최적화에 매우 민감하게 반응하였으며, 컴파일러 옵션을 미세하게 조정하는 것만으로도 모델의 탐지를 회피하는 바이너리 변종을 생성할 수 있었습니다. 또한 인라이닝 비율은 소프트웨어의 종류와 빌드 환경에 따라 크게 달라지며, 이는 인공지능 모델의 학습 및 평가 과정에서 암묵적으로 가정되는 데이터의 일관성을 훼손할 수 있습니다. 이에 본 연구는 이러한 요인을 반드시 고려해야 함을 강조합니다. Abstract: A function inlining optimization is a widely used transformation in modern compilers, which replaces a call site with the callee's body in need. While this transformation improves performance, it significantly impacts static features such as machine instructions and control flow graphs, which are crucial to binary analysis. Yet, despite its broad impact, the security impact of function inlining remains underexplored to date. In this paper, we present the first comprehensive study of function inlining through the lens of machine learning-based binary analysis. To this end, we dissect the inlining decision pipeline within the LLVM's cost model and explore the combinations of the compiler options that aggressively promote the function inlining ratio beyond standard optimization levels, which we term extreme inlining. We focus on five ML-assisted binary analysis tasks for security, using 20 unique models to systematically evaluate their robustness under extreme inlining scenarios. Our extensive experiments reveal several significant findings: i) function inlining, though a benign transformation in intent, can (in)directly affect ML model behaviors, being potentially exploited by evading discriminative or generative ML models; ii) ML models relying on static features can be highly sensitive to inlining; iii) subtle compiler settings can be leveraged to deliberately craft evasive binary variants; and iv) inlining ratios vary substantially across applications and build configurations, undermining assumptions of consistency in training and evaluation of ML models.
-
- 작성일 2025-12-15
- 조회수 827
-
- [교수동정] 2025년 인공지능(AI) 챔피언 대회 이선재 교수 'AutoPhone팀' 최종 우승
- 과학기술정보통신부(부총리 겸 과기정통부 장관 배경훈. 이하, 과기정통부)는 ‘2025년 인공지능(AI) 챔피언 대회(이하 AI 챔피언 대회)’의 결선 대회심사를 5일, 서울 용산 드래곤시티 호텔에서 진행하고 최종 5개 연구팀을 수상자로 선정하고 시상식을 개최했다. 2025년도 AI 챔피언 대회에서 이선재 교수가 포함된 ‘오토폰(AutoPhone)' 팀이 최종 우승하여, 최대 30억 원 규모의 국가 R&D 과제로 선정되었다. 기술 소개 : "우승의 주인공인 ‘FluidGPT’는 이선재 조교수가 박사과정 시절 연구한 MobileGPT 기술을 기반으로한 모바일 AI 에이전트 기술로, 사용자의 음성 명령을 인식해 스마트폰이 스스로 앱을 실행하고 클릭·입력·결제까지 완성하는 자율형 AI 에이전트다. 예를 들어 사용자가 “서울역에서 부산 가는 SRT 예매해줘” 또는 “택시 불러줘”라고 말하면, AI가 실제 앱을 열고 단계별로 필요한 조작을 수행한다. 이는 단순 음성비서 수준을 넘어 ‘행동형 인공지능(Agentic AI)’의 개념을 실현한 것으로, AI가 화면을 직접 인식하고 스스로 판단해 행동하는 완전 자율형 시스템이다. FluidGPT의 핵심은 ‘비침습형(API-Free)’ 구조다. 기존 AI 서비스는 앱 내부의 API(응용프로그램 인터페이스)에 접근해야 기능을 실행할 수 있었으나, 이 기술은 앱 코드를 수정하거나 연결하지 않고도 화면(UI)을 직접 인식·조작해 마치 사람이 스마트폰을 다루는 것처럼 행동한다. 이 방식은 AI가 ‘손을 대신 움직이는 지능’을 갖춘 것과 같아, 기존 스마트폰 사용방식의 패러다임을 바꿀 기술로 평가된다." 참고 자료 : https://www.aitimes.kr/news/articleView.html?idxno=37080
-
- 작성일 2025-11-10
- 조회수 1251
-
- [학생실적] 2025 Samsung AI Challenge 대회 3개 부문 中 2개 부문 소프트웨어학과 소속 최우수상 수상
- SAMSUNG DS AI Center 주관의 2025 Samsung AI Challenge 대회 3개 부문 중 2개 부문(AI Co-Scientist / 거대모델 경량화) 에서성균관대학교 소프트웨어학과 소속 학생 2명이 각 부문 최우수상(1등)을 수상하였습니다. 박제현(소프트웨어학과/20) 학생은 거대 모델의 성능 저하 없이 크기를 줄이는 방법 부문에 개인으로 참가하여 최우수상을 수상하였고, 변지환(소프트웨어학과/21) 학생은 AI Co-Scientist 부문에 이선재 교수 랩실의 지원과 지도를 받아 최우수상을 수상하였습니다. 거대 모델의 성능 저하 없이 크기를 줄이는 방법 부문에서는 SMoE 모델의 메모리 및 자원 문제를 해결하고 성능을 유지하며 전문가 수를 효율적으로 축소하는 방법론을 개발하였고, AI Co-Scientist 부문은 다중 AI 에이전트를 설계하고 협력시켜 3D Metrology 문제 해결을 위한 모델 개발 전 과정(코드 생성, 실험 등)을 최소한의 인간 개입으로 자동화하는 알고리즘을 개발하였습니다. 수상자 인터뷰(박제현) :https://dacon.io/forum/415288?page=1&dtype=tag&fType=&category=forum 수상자 인터뷰(변지환) : https://dacon.io/forum/415286?page=1&dtype=tag&fType=&category=forum
-
- 작성일 2025-11-06
- 조회수 1808
-
-
- [연구] 보안공학연구실(지도교수: 김형식), ACM Conference on Computer and Communications Security (CCS’25), Best Poster Award 수상
- 보안공학 연구실 (지도교수: 김형식, https://seclab.skku.edu)의 조예나(학부과정) 학생과 김형식 교수가 진행한 "Poster: Scalable Privacy-Preserving Linear Regression Training via Homomorphic Encryption" 논문이 보안 분야 최우수 컨퍼런스 중 하나인 ACM Conference on Computer and Communications Security (CCS’25)에서 Best Poster Awards를 수상했습니다. (41편 중 2편 (~4.9%)에 수여함.) 해당 연구는 암호화된 데이터 환경에서도 효율적으로 선형회귀 모델을 학습할 수 있는 새로운 프로토콜을 제안합니다. CKKS 기반의 PP-LR(Privacy-Preserving Linear Regression) 프로토콜을 개발하여, 기존 동형암호를 활용한 학습 방식의 높은 계산 비용 문제를 해결했습니다. PP-LR은 특징 단위 병렬화와 조건부 부트스트래핑 기법을 사용해 암호화된 상태에서의 경사하강법을 효율적으로 수행할 수 있습니다. 그 결과, 기존 동형암호 구현 대비 최대 15.7배 빠른 학습 속도를 달성하면서도, 평문 학습 모델 대비 정확도 오차 0.2% 이내를 유지했습니다.
-
- 작성일 2025-11-03
- 조회수 1787
-
- [연구] 자연어처리연구실(NLP lab, 지도교수: 고영중), EMNLP 2025의 Main Track(long paper)에 논문 2편 게재
- 자연어처리연구실(NLP lab, 지도교수: 고영중)의 논문 2편이 인공지능 및 자연어처리 분야의 Top-tier 국제학술대회인 EMNLP 2025(The 2025 Conference on Empirical Methods in Natural Language Processing)의 Main Track(long paper)에 게재되었습니다. 논문: ECO Decoding: Entropy-Based Control for Controllability and Fluency in Controllable Dialogue Generation, Main Track (long paper) (인공지능학과 석사과정 신승민, 인공지능학과 박사과정 김두영) 논문 요약: 본 연구에서는 기존의 속성 제어 연구 방법론 중 하나인 가중치 기반 생성(Weighted Decoding)에서 엔트로피 기반의 동적인 가중치를 활용하는 방법을 제안합니다. 가중치 기반 생성 방법은 생성 AI의 확률 분포에 각 토큰이 생성될 경우 제어하고자 하는 속성으로 분류될 확률 분포를 결합하여 최종 확률 분포를 계산합니다. 따라서 생성 AI의 추가적인 학습 없이 속성 분류기만을 학습하여 최소한의 학습으로 속성을 제어할 수 있으며, plug-and-play 방식으로 효율적인 활용이 가능합니다. 기존의 가중치 기반 생성 방법은 두 확률 분포의 가중치를 실험적으로 선택하지만, 이러한 방식은 경우에 따라 생성 품질을 저하하거나 속성 제어가 잘 이뤄지지 않을 수 있습니다. 이러한 문제를 해결하기 위해서는 응답에 생성되는 과정에 따라 동적으로 가중치를 할당할 수 있어야 합니다. 본 연구에서는 이러한 동적인 가중치를 할당하기 위해 각 확률 분포의 엔트로피를 활용하였습니다. 엔트로피는 확률 분포의 불확실성을 정량화하는 값입니다. 엔트로피가 높은 경우 선택 가능한 합리적인 토큰 후보가 많고, 엔트로피가 낮은 경우 선택 가능한 토큰이 제한적이라는 점에서 착안하여 엔트로피에 반비례하는 동적인 가중치를 설계하였습니다. 2가지 대화 데이터셋에서 다양한 베이스라인 가중치 기반 생성 기법에 동적인 가중치를 적용한 결과, 추가적인 학습 과정 없이도 높은 생성 품질을 유지하면서 속성 제어가 가능함을 실험적으로 증명하였습니다. 또한 다양한 모델 사이즈에서도 모두 성공적인 제어 결과를 확인할 수 있었습니다. 또한 기존의 가중치 기반 생성 기법에서 다루기 어려웠던 다중 속성 제어 환경에서도 성공적인 성능 향상을 달성할 수 있었습니다. Abstract: Controllable Dialogue Generation (CDG) enables chatbots to generate responses with desired attributes, and weighted decoding methods have achieved significant success in the CDG task. However, using a fixed constant value to manage the bias of attribute probabilities makes it challenging to find an ideal control strength that satisfies both controllability and fluency. To address this issue, we propose ECO decoding (Entropy-based COntrol), which dynamically adjusts the control strength at each generation step according to the model’s entropy in both the language model and attribute classifier probability distributions. Experiments on the DailyDialog and MultiWOZ datasets demonstrate that ECO decoding consistently improves controllability while maintaining fluency and grammaticality, outperforming prior decoding methods across various models and settings. Furthermore, ECO decoding alleviates probability interpolation issues in multiattribute generation and consequently demonstrates strong performance in both single- and multi-attribute scenarios. 논문: Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense Retrieval, Main Track (long paper) (인공지능학과 석사과정 박성완, 인공지능학과 석사과정 김택림) 논문 요약: 밀집 문서 검색(Dense Passage Retrieval, DPR)은 우수한 성능을 보이지만, dense embedding의 불투명성으로 인해 검색 결과에 대한 설명 가능성과 신뢰성에 한계가 있습니다. 본 연구는 희소 오토인코더(Sparse Autoencoder, SAE)를 활용하여 DPR의 dense embedding을 해석 가능한 latent concept로 분해하고, 각 concept에 대해 대규모 언어 모델(LLM)을 이용해 자연어 설명을 생성하는 새로운 해석 프레임워크를 제안하고, 다양한 정성적·정량적 실험을 통해 DPR 모델에 대한 SAE 기반 해석의 타당성과 효과성을 검증하였습니다. 더불어, 기존 단어 기반 sparse retrieval 대신, latent concept를 정보 검색 단위로 활용하는 Concept-Level Sparse Retrieval (CL-SR) 구조를 제안하였습니다. 이는 sparse retrieval의 효율성과 해석 가능성을 유지하면서도 dense retrieval 수준의 표현력과 의미적 강건성을 동시에 활용할 수 있는 구조로, 기존 sparse 모델에 비해 높은 검색 효율성과 정확도를 보였으며, 의미 불일치 상황에서도 우수한 성능을 유지하였습니다. Abstract: Despite their strong performance, Dense Passage Retrieval (DPR) models suffer from a lack of interpretability. In this work, we propose a novel interpretability framework that leverages Sparse Autoencoders (SAEs) to decompose previously uninterpretable dense embeddings from DPR models into distinct, interpretable latent concepts. We generate natural language descriptions for each latent concept, enabling human interpretations of both the dense embeddings and the query-document similarity scores of DPR models. We further introduce Concept-Level Sparse Retrieval (CL-SR), a retrieval framework that directly utilizes the extracted latent concepts as indexing units. CL-SR effectively combines the semantic expressiveness of dense embeddings with the transparency and efficiency of sparse representations. We show that CL-SR achieves high computational and storage efficiency while maintaining robust performance across vocabulary and semantic mismatches. 고영중 교수: yjko@skku.edu, nlp.skku.edu, 자연어처리연구실: nlplab.skku.edu
-
- 작성일 2025-10-30
- 조회수 1178
-
- [연구] [차수영 교수] 소프트웨어분석 연구실(SAL), ICSE 2026 논문 게재 승인
- 소프트웨어 분석 연구실 (지도교수: 차수영)의 김민종 학생 (박사과정)의 논문이 소프트웨어공학 분야 최우수 학회인 ICSE 2026 (IEEE/ACM International Conference on Software Engineering)에 게재 승인(Accept) 되었습니다. 해당 논문은 2026년 4월에 브라질 Rio에서 발표될 예정입니다. 본 논문 "Enhancing Symbolic Execution with Self-Configuring Parameters"은 강력한 소프트웨어 테스팅 방법론인 “기호 실행(Symbolic Execution)”의 성능을 높이기 위해, 완전히 자동화된 외부 파라미터 값 조정(external parameter tuning) 기술을 제안한다. 학계나 산업계에서 널리 사용되는 실용적인 기호 실행 도구들은 일반적으로 그 성능에 영향을 끼치는 다양한 외부 파라미터들을 적게는 수십 개에서 많게는 수백 개까지 포함하고 있다. 그러나, 기호 실행을 기존의 파라미터 조정 기술들은 테스트 대상 소프트웨어마다 수작업으로 값을 조정하거나 사용자의 개입을 요구하는 반자동화(Semi-Automatic) 방식만 존재했다. 본 논문에서는 학계에 잘 알려진 두 가지 기호 실행 도구들(KLEE, CREST)에 사용자의 개입이 없이도 적절한 외부 파라미터 값을 자동으로 선정할 수 있는 방법인 ParaSuit를 제안한다. 실험적으로, ParaSuit는 다수의 오픈소스-C 프로그램을 대상으로 기존의 최신 파라미터 조정 기술과 비교해서 분기 커버리지(Branch Coverage)와 오류 검출 능력을 크게 향상시키는데 성공하였다. [논문 정보] - 제목: Enhancing Symbolic Execution with Self-Configuring Parameters - 저자: 김민종, 차수영 - 학회: IEEE/ACM International Conference on Software Engineering (ICSE 2026) Abstract: We present ParaSuit, a self-configuring technique that enhances symbolic execution by autonomously adjusting its parameters tailored to each program under test. Modern symbolic execution tools are typically equipped with various external parameters to effectively test real-world programs. However, the need for users to fine-tune a multitude of parameters for optimal testing outcomes makes these tools harder to use and limits their potential benefits. Despite recent efforts to improve this tuning process, existing techniques are not self-configuring; they cannot dynamically identify which parameters to tune for each target program, and for each manually selected parameter, they sample a value from a fixed, user-defined set of candidate values that is specific to that parameter and remains unchanged across programs. The goal of this paper is to automatically configure symbolic execution parameters from scratch for each program. To this end, ParaSuit begins by automatically identifying all available parameters in the symbolic execution tool and evaluating each parameter’s impact through interactions with the tool. It then applies a specialized algorithm to iteratively select promising parameters, construct sampling spaces for each, and update their sampling probabilities based on data accumulated from symbolic execution runs using sampled parameter values. We implemented ParaSuit on KLEE and assessed it across 12 open-source C programs. The results demonstrate that ParaSuit significantly outperforms the state-of-the-art method without selfconfiguring parameters, achieving an average of 26% higher branch coverage. Remarkably, ParaSuit identified 11 unique bugs, four of which were exclusively discovered by ParaSuit.
-
- 작성일 2025-10-27
- 조회수 1026
발전기금



