-
- 우사이먼성일 교수(DASH 연구실), CVPR 2024 논문 1편 게재 승인
- DASH 연구실 (지도교수: 우사이먼성일)의 논문 1편이 컴퓨터 비전 분야의 최우수 학술대회인 IEEE / CVF Computer Vision and Pattern Recognition Conference 2024 (CVPR24)에 게재 승인되어 6월에 발표될 예정입니다. 논문 “Gradient Alignment for Cross-Domain Face Anti-Spoofing” 은 LE MINH BINH (석박사통합과정) 연구원이 저자로 참여했습니다. 얼굴 안티 스푸핑(Face Anti Spoofing - FAS)을 위한 도메인 일반화(Domain Generalization - DG)의 최근 발전은 많은 관심을 얻고 있습니다. 본 논문에서는 추가적인 학습 모듈 없이도 모델의 cross 도메인에 대한 강인성을 현저히 향상시킬 수 있는 새로운 방법론을 제안하고 있습니다. 본 연구에서는 GAC-FAS라는 새로운 학습 방법을 도입하여 최적의 플랫 미니멈으로 모델을 제안합니다. 이는 DG를 활용한FAS 분야에서 크게 연구되지 않았지만, 우수한 일반화성능을 달성하기 위해 필수적인 요소입니다. 본 연구 방법은 경험적 위험 최소화 그라디언트와 일치하도록 중요 상승점에서 일반화 그라디언트 업데이트를 자체 조절하는 독특한 전략을 사용하여 이루어집니다. 본연구에서는 까다로운 크로스 도메인 데이터셋을 통해 GAC-FAS의 우월성을 확인하는 광범위한 실험을 수행하였습니다. 이를 통해 우리의 방법이 새로운 최고 기준을 설정함을 입증하였습니다. 본 연구에서 제안하는 방법론은 DG 연구에 새로운 방향을 제시할 뿐만 아니라 실제 FAS 시스템의 뛰어난 성능개선을 보입니다. Abstract: Recent advancements in domain generalization (DG) for face anti-spoofing (FAS) have garnered considerable attention. Traditional methods have focused on designing learning objectives and additional modules to isolate domain-specific features while retaining domain-invariant characteristics in their representations. However, such approaches often lack guarantees of consistent maintenance of domain-invariant features or the complete removal of domain-specific features. Furthermore, most prior works of DG for FAS do not ensure convergence to a local flat minimum, which has been shown to be advantageous for DG. In this paper, we introduce GAC-FAS, a novel learning objective that encourages the model to converge towards an optimal flat minimum without necessitating additional learning modules. Unlike conventional sharpness-aware minimizers, GAC-FAS identifies ascending points for each domain and regulates the generalization gradient updates at these points to align coherently with empirical risk minimization (ERM) gradient updates. This unique approach specifically guides the model to be robust against domain shifts. We demonstrate the efficacy of GAC-FAS through rigorous testing on challenging cross-domain FAS datasets, where it establishes state-of-the-art performance. ※ Paper title : Gradient Alignment for Cross-Domain Face Anti-Spoofing ※ Paper link : http://arxiv.org/abs/2402.18817 ※ Author name : Le Minh Binh (first author) and Simon S. Woo (corresponding author). https://dash-lab.github.io/Publications/
-
- 작성일 2024-04-05
- 조회수 1813
-
- 이지형 교수 연구실, CVPR 2024 논문 게재 승인
- 정보 및 지능 시스템 연구실(지도교수:이지형)의 논문 1편이 컴퓨터 비전 및 인공지능 분야의 최우수 국제 학술대회(BK21 CS IF=4)인 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2024)에 게재 승인되었습니다. 제목 : "Learning with Structural Labels for Learning with Noisy Labels" (전자전기컴퓨터공학과 박사 김누리*, 인공지능학과 석박통합과정 이진섭*) (*공동 1저자) "Learning with Structural Labels for Learning with Noisy Labels" 논문에서는 학습 데이터의 레이블이 잘못 주어진 환경인 Noisy Labels 환경에서 딥러닝 모델 학습을 위한 방법을 제안합니다. 기존 방법들이 학습하고 있는 모델 자신의 출력 결과에만 크게 의존하여, 학습에 사용할 샘플을 선별하거나 레이블을 수정하고 있기 때문에 발생하는 문제를 제기하고, 이를 해결하기 위한 방법을 제시합니다. 해당 논문에서는 모델 자신의 출력 결과뿐만 아니라, Noisy한 상황에서 데이터 분포를 효과적으로 반영하기 위해 Reverse k-NN을 활용하여 Structural Label을 추출하였으며, 이를 모델이 추가적으로 학습하도록 하였습니다. 제안 방법은 벤치마크 데이터셋을 비롯한 real-world 노이즈 데이터셋에 대하여 우수한 성능을 보입니다. [논문 정보] Learning with Structural Labels for Learning with Noisy Labels Noo-ri Kim*, Jin-Seop Lee*, Jee-Hyong Lee IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024 Abstract: Deep Neural Networks (DNNs) have demonstrated remarkable performance across diverse domains and tasks with large-scale datasets. To reduce labeling costs for large-scale datasets, semi-automated and crowdsourcing labeling methods are developed, but their labels are inevitably noisy. Learning with Noisy Labels (LNL) approaches aim to train DNNs despite the presence of noisy labels. These approaches utilize the memorization effect to select correct labels and refine noisy ones, which are then used for subsequent training. However, these methods encounter a significant decrease in the model's generalization performance due to the inevitably existing noise labels. To overcome this limitation, we propose a new approach to enhance learning with noisy labels by incorporating additional distribution information—structural labels. In order to leverage additional distribution information for generalization, we employ a reverse k-NN, which helps the model in achieving a better feature manifold and mitigating overfitting to noisy labels. The proposed method shows outperformed performance in multiple benchmark datasets with IDN and real-world noisy datasets.
-
- 작성일 2024-04-02
- 조회수 2251
-
- 이지형 교수 연구실, LREC-COLING 2024 논문 2편 게재 승인
- 정보 및 지능 시스템 연구실(지도교수: 이지형)의 논문 2편이 자연어 처리 분야 저명한 국제 학술대회 LREC-COLING (BK IF=2) “The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING ’24)”에 게재 승인되었습니다. 논문 #1: “STAGE: Simple Text Data Augmentation by Graph Exploration”, LREC-COLING 2024 (인공지능학과 박사과정 김호승, 인공지능학과 박사과정 강용훈) "STAGE: Simple Text Data Augmentation by Graph Exploration" 논문에서는 텍스트 데이터를 그래프로 변환하고 이를 활용한 데이터 증강(Data Augmentation)하는 방법을 제안합니다. 기존 방법론은 복잡성, 비용, 그리고 성능에 대해서 조금 더 나은 해결방안이 필요 되어집니다. 우리의 STAGE(Simple Text Data Augmentation)는 공동 그래프(Co-graph)를 활용한 최적의 수정될 단어를 선택합니다. 수정된 단어를 Delete, replace, insert, swap 방법을 사용하여 문장을 증가시키는데, 이 방법은 기존보다 복잡함과 비용은 줄이고 더 나은 성능을 보입니다. [Abstract] Pre-trained language models (PLMs) are widely used for various tasks, but fine-tuning them requires sufficient data. Data augmentation approaches have been proposed as alternatives, but they vary in complexity, cost, and performance. To address these challenges, we propose STAGE (Simple Text Data Augmentation by Graph Exploration), a highly effective method for data augmentation. STAGE utilizes simple modification operations such as insertions, deletions, replacements, and swaps. However, what distinguishes STAGE lies in the selection of optimal words for each modification. This is achieved by leveraging a word-relation graph called the co-graph. The co-graph takes into account both word frequency and co-occurrence, providing valuable information for operand selection. To assess the performance of STAGE, we conduct evaluations using seven representative datasets and three different PLMs. Our results demonstrate the effectiveness of STAGE across diverse data domains, varying data sizes, and different PLMs. Also, STAGE demonstrates superior performance when compared to previous methods that use simple modification operations or large language models like GPT3. 논문 #2: “Code Defect Detection using Pre-trained Language Models with Encoder-Decoder via Line-Level Defect Localization”, LREC-COLING 2024 (인공지능학과 석사과정 안지민*, 2024년 소프트웨어학과 박사 졸업 최윤석*(공동 1저자*)) (논문 #2) “Code Defect Detection using Pre-trained Language Models with Encoder-Decoder via Line-Level Defect Localization” 논문에서는 코드에서의 결함 감지(Code Defect Detection) 작업을 효과적으로 수행하기 위해 코드의 라인 수준에서 결함을 식별하는 새로운 방법을 제안합니다. 라인 수준에서 결함을 식별하기 위해, 스페셜 토큰을 사용하여 코드를 라인으로 분리된 시퀀스로 변환합니다. 그런 다음, 사전학습모델(Pre-trained Models)의 인코더와 디코더가 정보를 다른 방식으로 처리하는 특성을 활용하여 라인 수준의 결함 지역화(defect localization)을 위해 인코더와 디코더를 모두 활용합니다. 코드 결함 검출 및 라인 수준의 결함 지역화를 통합하여 두 작업 간의 지식 공유(knowledge sharing)를 촉진하는 것이 제안 방법입니다. 실험 결과, 코드 결함 검출에 대한 네 가지 벤치마크 데이터 셋에서 성능을 크게 향상시키는 것을 확인해 제안방법이 효과적임을 보였습니다. [Abstract] Recently, code Pre-trained Language Models (PLMs) trained on large amounts of code and comment, have shown great success in code defect detection tasks. However, most PLMs simply treated the code as a single sequence and only used the encoder of PLMs to determine if there exist defects in the entire code. For a more analyzable and explainable approach, it is crucial to identify which lines contain defects. In this paper, we propose a novel method for code defect detection that integrates line-level defect localization into a unified training process. To identify code defects at the line-level, we convert the code into a sequence separated by lines using a special token. Then, to utilize the characteristic that both the encoder and decoder of PLMs process information differently, we leverage both the encoder and decoder for line-level defect localization. By learning code defect detection and line-level defect localization tasks in a unified manner, our proposed method promotes knowledge sharing between the two tasks. We demonstrate that our proposed method significantly improves performance on four benchmark datasets for code defect detection. Additionally, we show that our method can be easily integrated with ChatGPT.
-
- 작성일 2024-04-02
- 조회수 1759
-
-
-
- 우사이먼 교수 연구실, AAAI 2024 논문 2편 게재 승인
- DASH 연구실 (지도교수: 우사이먼성일)의 논문 2편이 인공지능 분야의 최우수 학술대회인 AAAI Conference on Artificial Intelligence 2024 (AAAI24)에 게재 승인되어 2월에 발표될 예정입니다. 최선을 다해 우수한 연구를 진행한 참여 연구원 학생분들께 감사드립니다. 논문 #1: Diffusion 모델 제어 관련 연구 (공동 1저자: 인공지능학과 석박통합과정 홍승후, 인공지능학과 석박통합과정 이주헌) 논문 #2: 삭제학습(Machine Unlearning) 관련 연구 (1저자 데이터사이언스학과 석사과정 김현준, 2저자 인공지능학과 석사과정 이상용) [논문 1정보] Seunghoo Hong†, Juhun Lee†, and Simon S. Woo*, “All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models”, Proceedings of the 38th annual AAAI Conference on Artificial Intelligence (AAAI), 2024. “All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models”논문에서는 Stable Diffusion과 같은 text to image모델의 특정 개념을 지우는 새로운 알고리즘을 제안합니다. 널리 사용되는 Stable Diffusion과 같이 대규모 데이터 세트를 사용하여 학습된 생성모델의 경우 학습에 부적절하거나 저작권이 있는 이미지가 포함될 수 있고 이로 인해 생성모델은 부적절한 이미지를 생성할 수 있습니다. 사실상 대규모 모델의 학습은 불가능하기 때문에 이를 해결하기 위한 방법으로 “개념삭제”라는 접근이 제안되었습니다. 하지만 지금까지의 개념삭제 알고리즘은 삭제 대상 뿐만 아니라 전혀 관계가 없는 개념까지 영향을 끼쳐 출력물의 의미와 구조를 모두 망가지게 됩니다. 본 논문에서는 이러한 문제점을 제시하고 이를 해결한 새로운 개념삭제 알고리즘을 제안합니다. 제안하는 알고리즘은 이미지 생성에서 사용되는 classifier guidance term에 주목하여 conditional score를 수정하면서 unconditional score는 보존하도록 합니다. 또한 삭제 대상에 대안 개념을 제시하는 방식을 통해 “Surgical Concept Erasing”을 가능하게 하였습니다. 논문의 실험을 통해 제안하는 알고리즘이 삭제 대상을 제대로 삭제할 뿐만 아니라 출력물의 공간적 특징까지 보존하는 것을 보여줍니다. Abstract: Text-to-Image models such as Stable Diffusion have shown impressive image generation synthesis, thanks to the utilization of large-scale datasets. However, these datasets may contain sexually explicit, copyrighted, or undesirable content, which allows the model to directly generate them. Given that retraining these large models on individual concept deletion requests is infeasible, fine-tuning algorithms have been developed to tackle concept erasing in diffusion models. While these algorithms yield good concept erasure, they all present one of the following issues: 1) the corrupted feature space yields synthesis of disintegrated objects, 2) the initially synthesized content undergoes a divergence in both spatial structure and semantics in the generated images, and 3) sub-optimal training updates heighten the model's susceptibility to utility harm. These issues severely degrade the original utility of generative models. In this work, we present a new approach that solves all of these challenges. We take inspiration from the concept of classifier guidance and propose a surgical update on the classifier guidance term while constraining the drift of the unconditional score term. Furthermore, our algorithm empowers the user to select an alternative to the erasing concept, allowing for more controllability. Our experimental results show that our algorithm not only erases the target concept effectively but also preserves the model’s generation capability. ※ 논문명: All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models ※ 논문링크: https://doi.org/10.48550/arXiv.2312.12807 ※ 저자명: Simon S. Woo(교신저자), Seunghoo Hong, Juhun Lee (공동 제1저자) [논문 2정보] Hyunjune Kim, Sangyong Lee, and Simon S. Woo*, “Layer Attack Unlearning: Fast and Accurate Machine Unlearning via Layer Level Attack and Knowledge Distillation”, Proceedings of the 38th annual AAAI Conference on Artificial Intelligence (AAAI), 2024. 논문링크: https://arxiv.org/pdf/2312.16823.pdf 이 연구에서는 기존 Machine Unlearning (머신 언러닝) 알고리즘에 비해 상당히 정확하고 빠른 새로운 접근 방법인 'Layer Attack Unlearning'을 제안합니다. 우리의 언러닝 알고리즘은 전체 모델이 아닌 Layer level에서 수행합니다. 그렇게 함으로써 알고리즘의 시간적 성능 향상에 기여하였습니다. 또한 우리의 접근 방식에 도입한 Partial-PGD 알고리즘은 기존 PGD 알고리즘 대비 계산량을 줄여 줍니다. 이 적대적 공격 기법은 언러닝 과정에서 삭제될 데이터가 어디에 할당될지 효율적으로 찾아냅니다. 마지막으로, 우리는 지식 증류를 사용하여 Teacher로부터 결정 경계 정보를 얻어 retain data 정보를 유지하면서 언러닝 작업을 수행하여 정확도 성능을 보존 및 향상시킵니다. 우리는 기존의 SOTA 머신 언러닝 모델과 함께 광범위한 실험을 진행하고, 정확성과 end-to-end 언러닝 성능에 대한 우리의 접근 방식의 효과를 입증하였습니다. Abstract: Recently, serious concerns have been raised about the privacy issues related to training datasets in machine learning algorithms when including personal data. Various regulations in different countries, including the GDPR, grant individuals to have personal data erased, known as ‘the right to be forgotten’ or ‘the right to erasure’. However, there has been less research on effectively and practically deleting the requested personal data from the training set while not jeopardizing the overall machine learning performance. In this work, we propose a fast and novel machine unlearning paradigm at the layer level called layer attack unlearning, which is highly accurate and fast compared to existing machine unlearning algorithms. We introduce the Partial-PGD algorithm to locate the samples to forget efficiently. In addition, we only use the last layer of the model inspired by the Forward-Forward algorithm for unlearning process. Lastly, we use Knowledge Distillation (KD) to reliably learn the decision boundaries from the teacher using soft label information to improve accuracy performance. We conducted extensive experiments with SOTA machine unlearning models and demonstrated the effectiveness of our approach for accuracy and end-to-end unlearning performance. 문의사항이나 질문은 DASH Lab(https://dash.skku.edu)의 우사이먼교수님 (swoo@g.skku.edu)에게 연락부탁드립니다.
-
- 작성일 2024-01-29
- 조회수 1946
-
-
- 인공지능대학원 이지형 교수, 과학기술정보통신장관상 수상
- 인공지능대학원 이지형 교수, 과학기술정보통신장관상 수상 인공지능학과 이지형 교수는 지난 12월 31일 2023년 디지털인재양성 업무 발전에 기여한 우수한 공로를 인정받아 과학기술정보통신장관상을 수상했다. 이지형 교수는 국내 최초로 인공지능대학원지원사업 과제 선정 및 책임을 맡아 현재 연평균 150여명의 인공지능분야 석·박사급 고급인력을 양성하고 있다. 인공지능대학원은 특정 분야의 특정 문제 해결을 위한 AI가 아닌 다양한 작업환경에서 상황정보를 통합분석(Multi-modal)하여 실시간(Expeditive) 능동적(Generative)으로 대처(Actionable)하는 인공지능(AI)인 Mega AI 구현을 목표로 교육, 연구, 산학협력, 국제화 등 다방면의 프로그램을 통하여 사업을 선도적으로 운영해 나가고 있다. 한편, 이지형 교수는 2024년도 4단계 BK21사업(미래인재양성사업 교육연구단)에도 선정되어 2024년부터 2027년까지 지속성장 미래컴퓨팅을 위한 SW 미래인재양성을 위한 교육, 연구 운영에도 착수할 예정이다.
-
- 작성일 2024-01-15
- 조회수 1272
-
-
- 허재필 교수 연구실, AAAI 2024 논문 4편 게재 승인
- 비주얼컴퓨팅연구실 (지도교수: 허재필)의 논문 4편이 인공지능 분야의 우수 학술대회인 AAAI Conference on Artificial Intelligence 2024 (AAAI-24)에 게재 승인되었습니다. 논문 #1: “Towards Squeezing-Averse Virtual Try-On via Sequential Deformation” (인공지능학과 박사과정 심상헌, 인공지능학과 석사과정 정지우) 논문 #2: "Noise-free Optimization in Early Training Steps for Image Super-Resolution" (인공지능학과 박사과정 이민규) 논문 #3: “VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting” (인공지능학과 석사과정 강승구, 인공지능학과 박사과정 문원준, 인공지능학과 석사졸업 김의연) 논문 #4: “Task-disruptive Background Suppression for Few-Shot Segmentation” (소프트웨어학과/기계공학부 학사과정 박수호, 인공지능학과 박사과정 이수빈, 인공지능학과 박사과정 현상익, 인공지능학과 박사과정 성현석) Towards Squeezing-Averse Virtual Try-On via Sequential Deformation" 논문에서는 고해상도 가상시착 영상생성 분야에서의 시각적 품질 저하 문제를 다루고 있습니다. 구체적으로, 그림 1(a)의 위쪽 행에서 볼 수 있듯이, 소매 부분에서 옷의 텍스쳐가 압착되는 문제가 있었습니다. 이 문제의 주요 원인은 해당 분야에서 필수적으로 사용되는 두 가지 손실 함수인 TV (Total Variation loss) 손실과 적대적 손실 (adversarial loss) 사이의 기울기 충돌 때문입니다. TV 손실은 와핑된 옷 마스크에서 소매와 몸통 사이의 경계를 분리하는 것을 목표로 하는 반면, 적대적 손실은 둘 사이의 결합을 목표로 합니다. 이러한 반대되는 목표는 잘못된 기울기를 계단식 외관 흐름 추정(Cascaded appearance flow estimation)으로 피드백하여 소매 압착 아티팩트를 발생시킵니다. 이를 해결하기 위해, 해당 논문에서는 네트워크의 레이어 간 연결의 관점으로 접근하였습니다. 구체적으로, 기존 계단식 외관 흐름 추정이 잔류 연결 (residual connection) 구조로 연결되어 적대적 손실 함수의 영향을 많이 받기 때문에 소매 압착이 발생한다고 진단하였고, 이를 줄이기 위해 계단식 외관 흐름 간의 순차적 연결 (sequential connection) 구조를 네트워크의 마지막 레이어에 도입하였습니다. 한편, 그림 1(a)의 아래쪽 행은 허리 주변의 다른 유형의 압착 아티팩트를 보여줍니다. 이를 해결하기 위해, 본 연구에서는 옷을 와핑할 때, 우선 내어 입는 스타일 (tucked-out shirts style)로 와핑한 후, 초기 와핑 결과에서 텍스쳐를 부분적으로 삭제할 것을 제안하고 이를 위한 연산을 구현하였습니다. 제안된 기술은 두 유형의 아티팩트를 성공적으로 해결하는 것을 확인하였습니다. “Noise-free Optimization in Early Training Steps for Image Super-Resolution” 논문에서는 이미지 초해상화 문제에서의 기존 학습 방법론과 지식 전이(Knowledge Distillation)의 한계점을 다루고 있습니다. 구체적으로, 하나의 고해상도 이미지를 두 개의 핵심 요소인 최적 평균(optimal centroid)과 잠재 노이즈(inherent noise)로 분리 및 분석했습니다. 이를 통해, 학습 데이터의 잠재 노이즈가 초반 학습의 불안정성을 유도하는 것을 확인했습니다. 해당 문제를 해결하기 위해, Mixup 기술과 기학습된 네트워크를 활용하여 학습 과정에서 잠재 노이즈를 제거하여 보다 안정적인 학습 기술을 제안했습니다. 제안된 기술은 Fidelity-oriented single image super-resolution 분야에서 여러 모델에 걸쳐 일관된 성능 향상을 가져오는것을 확인했습니다. "VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting" 논문에서는 이미지에서 텍스트로 지정된 객체의 개수를 세는 문제를 다루고 있습니다. 해당 논문은 선행 연구의 two-stage 방법은 방대한 연산량과 에러 전파의 가능성이라는 문제를 제기하였습니다. 앞선 문제의 해결을 위해 one-stage baseline인 VLBase와 세 주요 기술로 확장된 VLCounter를 제안합니다. 첫째로, 기학습된 거대 모델인 CLIP을 재학습하는 대신 Visual Prompt Tuning(VPT)을 도입하였습니다. 추가로, VPT의 학습 가능한 토큰에 텍스트 정보를 추가하여 해당하는 개체가 강조된 이미지 피쳐를 얻게 합니다. 둘째로, 객체 영역의 전체가 아닌 중요한 부분만을 강조하는 유사도 맵을 얻기 위해 미세 조정이 이루어졌습니다. 이로써 모델은 객체 중심의 활성화를 높일 수 있습니다. 셋째로, 모델의 일반화 능력 향상과 정확한 객체 위치 파악을 위해 이미지 인코더 피쳐를 디코딩에 통합하고 앞선 유사도 맵을 피쳐에 곱하여 객체 영역에 집중합니다. 제안된 기술은 기존 방법의 성능을 크게 상회할 뿐만 아니라, 가벼운 모델로 학습 및 추론 속도를 2배 향상시켰습니다. “Task-disruptive Background Suppression for Few-shot Segmentation” 논문에서는 적은 수의 이미지(Support)와 마스크를 참고하여 새로운 이미지(Query)안의 물체를 찾아내는 few-shot segmentation문제에서 Support의 배경을 효율적으로 다루기 위한 방법을 다루고 있습니다. 기존 모델에서는 segmentation을 하기 위해서 Support와 Query를 비교하는데, 각각의 배경을 비교할 경우 다음과 같은 문제점이 있습니다. 첫번째로, Support와 Query의 배경이 많이 다를 경우 이는 모델이 segmentation을 하는데 방해가 될 수 있습니다. 두번째로, Support의 배경에 segmentation하고자 하는 물체와 비슷한 물체가 있는 경우도 방해가 될 수 있습니다. 따라서 본 논문은 방해가 될 수 있는 이 두 가지 배경의 요소를 Query-relevant score와 Target-relevant score를 통해 제거하였습니다. 따라서 결과적으로 Query의 배경과 관련된 Support의 배경만 남도록 하여 Support의 배경을 더욱 효율적으로 참고하도록 하였습니다. 제안된 방법은 여러 Few-shot Segmentation 모델에서 성능 향상이 있는 것을 확인했습니다. [논문 #1 정보] Towards Squeezing-Averse Virtual Try-On via Sequential Deformation Sang-Heon Shim, Jiwoo Chung, and Jae-Pil Heo Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI), 2024 Abstract: In this paper, we first investigate a visual quality degradation problem observed in recent high-resolution virtual try-on approach. The tendency is empirically found that the textures of clothes are squeezed at the sleeve, as visualized in the upper row of Fig.1(a). A main reason for the issue arises from a gradient conflict between two popular losses, the Total Variation (TV) and adversarial losses. Specifically, the TV loss aims to disconnect boundaries between the sleeve and torso in a warped clothing mask, whereas the adversarial loss aims to combine between them. Such contrary objectives feedback the misaligned gradients to a cascaded appearance flow estimation, resulting in undesirable squeezing artifacts. To reduce this, we propose a Sequential Deformation (SD-VITON) that disentangles the appearance flow prediction layers into TV objective-dominant (TVOB) layers and a task-coexistence (TACO) layer. Specifically, we coarsely fit the clothes onto a human body via the TVOB layers, and then keep on refining via the TACO layer. In addition, the bottom row of Fig.1(a) shows a different type of squeezing artifacts around the waist. To address it, we further propose that we first warp the clothes into a tucked-out shirts style, and then partially erase the texture from the warped clothes without hurting the smoothness of the appearance flows. Experimental results show that our SD-VITON successfully resolves both types of artifacts and outperforms the baseline methods. [논문 #2 정보] Noise-free Optimization in Early Training Steps for Image Super-Resolution MinKyu Lee and Jae-Pil Heo Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI), 2024 Abstract: Recent deep-learning-based single image super-resolution (SISR) methods have shown impressive performance whereas typical methods train their networks by minimizing the pixel-wise distance with respect to a given high-resolution (HR) image. However, despite the basic training scheme being the predominant choice, its use in the context of ill-posed inverse problems has not been thoroughly investigated. In this work, we aim to provide a better comprehension of the underlying constituent by decomposing target HR images into two subcomponents: (1) the optimal centroid which is the expectation over multiple potential HR images, and (2) the inherent noise defined as the residual between the HR image and the centroid. Our findings show that the current training scheme cannot capture the ill-posed nature of SISR and becomes vulnerable to the inherent noise term, especially during early training steps. To tackle this issue, we propose a novel optimization method that can effectively remove the inherent noise term in the early steps of vanilla training by estimating the optimal centroid and directly optimizing toward the estimation. Experimental results show that the proposed method can effectively enhance the stability of vanilla training, leading to overall performance gain. [논문 #3 정보] VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting Seunggu Kang, WonJun Moon, Euiyeon Kim, and Jae-Pil Heo Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI), 2024 Abstract Zero-Shot Object Counting (ZSOC) aims to count referred instances of arbitrary classes in a query image without human-annotated exemplars. To deal with ZSOC, preceding studies proposed a two-stage pipeline: discovering exemplars and counting. However, there remains a challenge of vulnerability to error propagation of the sequentially designed two-stage process. In this work, we propose an one-stage baseline, Visual-Language Baseline (VLBase), exploring the implicit association of the semantic-patch embeddings of CLIP. Subsequently, we extend the VLBase to Visual-language Counter (VLCounter) by incorporating three modules devised to tailor VLBase for object counting. First, we introduce Semantic-conditioned Prompt Tuning (SPT) within the image encoder to acquire target-highlighted representations. Second, Learnable Affine Transformation (LAT) is employed to translate the semantic-patch similarity map to be appropriate for the counting task. Lastly, we transfer the layer-wisely encoded features to the decoder through Segment-aware Skip Connection (SaSC) to keep the generalization capability for unseen classes. Through extensive experiments on FSC147, CARPK, and PUCPR+, we demonstrate the benefits of our end-to-end framework, VLCounter. [논문 #4 정보] Task-disruptive Background Suppression for Few-Shot Segmentation Suho Park, SuBeen Lee, Sangeek Hyun, Hyun Seok Seong, and Jae-Pil Heo Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI), 2024 Abstract Few-shot segmentation aims to accurately segment novel target objects within query images using only a limited number of annotated support images. The recent works exploit support background as well as its foreground to precisely compute the dense correlations between query and support. However, they overlook the characteristics of the background that generally contains various types of objects. In this paper, we highlight this characteristic of background which can bring problematic cases as follows: (1) when the query and support backgrounds are dissimilar and (2) when objects in the support background are similar to the target object in the query. Without any consideration of the above cases, adopting the entire support background leads to a misprediction of the query foreground as background. To address this issue, we propose Task-disruptive Background Suppression (TBS), a module to suppress those disruptive support background features based on two spatial-wise scores: query-relevant and target-relevant scores. The former aims to mitigate the impact of unshared features solely existing in the support background, while the latter is to reduce the influence of target-similar support background features. Based on these two scores, we define a query background relevant score which captures the similarity between the backgrounds of the query and the support, and utilize it to scale support background features to adaptively restrict the impact of disruptive support backgrounds. Our proposed method achieves state-of-the-art performance on PASCAL and COCO datasets on 1-shot segmentation.
-
- 작성일 2023-12-14
- 조회수 2180