[연구] 우사이먼 교수 연구실(DASH Lab), TheWebConf (WWW) 2025 Short Paper 3편 게재 승인
- 소프트웨어학과
- 조회수496
- 2025-03-04
Data-driven AI & Security HCI Lab (DASH Lab, 지도교수: 우사이먼성일)의 Short paper 3편이 웹관련 BK Computer Science 최우수 국제 학술대회인 TheWebConf (WWW)에 게재 승인되었습니다. 논문은 4월 호주 시드니에서 발표될 예정입니다.
논문1. Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset, WWW 2025
저자: Muhammad Shahid Muneer (소프트웨어학과 박사과정), 우사이먼성일 (성균관대 소프트웨어학과 교수)
최근 Text-to-Image(T2I) 모델이 발전하면서 유해한 NSFW 콘텐츠 생성 및 악용 문제가 대두되고 있습니다. 이를 방지하기 위해 NSFW 필터 및 보안 장치가 도입되었지만, 최근 연구에 따르면 적대적 공격(adversarial attack)을 통해 쉽게 우회할 수 있습니다. 현재 대규모 멀티모달(NSFW) 데이터셋이 부족한 문제를 해결하기 위해, 본 연구에서는 오픈소스 확산 모델(diffusion model)을 활용해 대규모 프롬프트-이미지 데이터셋을 구축하고, 강건한 NSFW 탐지 모델을 개발했습니다. 실험 결과, 제안된 모델은 기존 최신(SOTA) 탐지 방법보다 정확도 및 재현율이 높고, 적대적 공격 성공률(ASR)을 크게 감소시키는 효과를 보였습니다.
논문2. Fairness and Robustness in Machine Unlearning, WWW 2025
저자: Khoa Tran (소프트웨어학과 석박통합과정), 우사이먼 성일 (성균관대학교 소프트웨어학과 교수)
머신 언러닝(Machine Unlearning)은 사전 학습된 모델에서 특정 데이터의 영향을 제거하는 문제로, 개인정보 보호와 관련된 중요한 과제입니다. 기존 근사적 언러닝(Approximated Unlearning) 기법은 정확성과 시간 효율성을 강조했지만, 완전한(Exact) 언러닝을 달성하지 못한다고 지적하며, 우리는 최초로 공정성과 강건성을 고려한 연구를 수행했습니다.
본 연구에서는 공정성 가설(Fairness Conjectures)을 바탕으로 강건성과의 관계를 분석하였으며, 실험 결과 공정성 격차(Fairness-Gap)가 클수록 모델이 더 취약해진다는 사실을 확인했습니다. 또한, 최신 근사적 언러닝 기법이 적대적 공격(Adversarial Attack)에 취약하며, 이로 인해 모델 성능이 크게 저하됨을 입증했습니다. 이에 따라, 공정성 격차 측정(Fairness-Gap Measurement)과 강건성 지표(Robustness Metric)가 언러닝 평가에 필수적으로 사용되어야 한다고 주장합니다. 마지막으로, 모델의 중간층과 최종층에서의 언러닝만으로도 충분한 효과를 내면서, 시간과 메모리 효율성을 확보할 수 있음을 확인했습니다.
논문3. SADRE: Saliency-Aware Diffusion Reconstruction for Effective Invisible Watermark Removal, WWW 2025
저자: Inzamamul Alam (소프트웨어학과 박사과정), 우사이먼 성일 (성균관대학교 소프트웨어학과 교수)
기존 워터마킹 기술의 강건성 부족 문제를 해결하기 위해, 본 연구에서는 SADRE(Saliency-Aware Diffusion Reconstruction)라는 새로운 워터마크 제거 프레임워크를 제안합니다. SADRE는 살리언시 마스크(saliency mask)를 활용한 노이즈 주입 및 확산 기반 복원 기술을 적용하여 이미지의 중요한 부분은 보존하면서 워터마크만 효과적으로 제거합니다. 또한, 적응형 노이즈 조정을 통해 다양한 워터마크 강도에 대응하며, 역확산(reverse diffusion) 과정을 거쳐 고품질의 이미지 복원을 보장합니다.
실험 결과, SADRE는 PSNR, SSIM, Wasserstein 거리, Bit Recovery Accuracy 등 주요 성능 지표에서 최신 워터마킹 기법보다 뛰어난 성능을 보였습니다. 이를 통해 이론적 강건성과 실용적 효과성을 모두 갖춘 새로운 워터마크 제거 솔루션을 제시하며, 실세계 웹 콘텐츠에서 신뢰할 수 있는 기술로 활용될 수 있음을 입증했습니다.