Detector Guidance for Multi-Object Text-to-Image Generation

Abstract

확산 모델은 텍스트를 이미지로 변환하는 작업에서 놀라운 성능을 보여주었습니다. 이 모델들은 텍스트 인코더와 교차 주의 블록(cross-attention blocks)을 활용하여 텍스트 정보를 픽셀 단위로 이미지에 주입합니다. 그러나 텍스트에 여러 개의 객체가 포함된 이미지를 생성하는 능력은 여전히 제한적입니다. 이전 연구들은 CLIP 텍스트 인코더에서 정보 혼합 문제를 확인하고, 이를 해결하기 위해 T5 텍스트 인코더를 도입하거나 강력한 사전 지식을 활용하여 정렬을 도와주었습니다. 우리는 정보 혼합 문제가 이미지 측면과 교차 주의 블록에서도 발생한다는 것을 발견했습니다. 노이즈가 많은 이미지는 서로 다른 객체를 비슷하게 보이게 할 수 있으며, 교차 주의 블록은 픽셀 단위로 정보를 주입하여 글로벌 객체 이해가 누출되어 객체 혼합이 발생할 수 있습니다. 이 논문에서는 생성 과정에서 객체를 분리하기 위해 잠재 객체 검출 모델을 통합한 Detector Guidance(DG)를 소개합니다. DG는 먼저 교차 주의 맵(CAM)에서 잠재 객체 검출을 수행하여 객체 정보를 얻습니다. 이 정보를 바탕으로 DG는 다음 CAM을 조작하여 충돌하는 프롬프트를 마스킹하고 관련된 프롬프트를 강화합니다. 우리는 COCO, CC, 새로운 다중 관련 객체 벤치마크 MRO에서 Stable Diffusion을 사용하여 DG의 효과를 평가했습니다. 인간 평가 결과, DG는 충돌하는 개념의 혼합을 방지하고 각 객체가 고유한 영역을 갖도록 보장하는 데 있어 8-22%의 우위를 제공하며, 이는 인간의 개입이나 추가 반복 없이 이루어집니다. 우리의 구현은 https://github.com/luping-liu/Detector-Guidance에서 확인할 수 있습니다.

Introduction

Untitled

확산 모델 [1, 2, 3, 4]은 조건부 생성에서 놀라운 성능을 보여주었습니다. 조건부 생성은 결과물이 현실적일 뿐만 아니라 주어진 조건과 강하게 연관되어야 합니다. 다양한 조건 중에서도 텍스트 조건은 사용자 친화적인 특성 덕분에 많은 주목을 받았으며, DALL·E 2 [5], Imagen [6], Stable Diffusion [7]과 같은 무거운 작업들을 탄생시켰습니다. 이러한 모델들은 인터넷에서 수집한 수십억 개의 텍스트-이미지 쌍을 활용하고 잘 설계된 모델 구조를 사용하여 최첨단 텍스트-이미지 성능을 달성했습니다. 그러나 이러한 모델들은 여전히 단일 이미지 내에서 여러 객체를 생성하는 데 상대적으로 낮은 성능을 보입니다. 속성 혼합(attribute mixing), 객체 혼합(object mixing), 객체 사라짐(object disappearance)과 같은 문제가 지속적으로 발생합니다. 속성 혼합은 객체가 다른 객체에 속하는 속성에 영향을 받는 현상을 말합니다. 객체 혼합과 사라짐은 객체 수준에서 융합이 발생하여 이상한 다중 객체 혼합체를 생성하고 객체 수가 잘못되는 현상을 나타냅니다.

이전 연구 [8]에 따르면, 텍스트 인코더의 인과적 주의 마스크(causal attention masks)로 인해 시퀀스의 후반부에 있는 토큰의 의미가 앞부분의 토큰 의미와 섞이는 현상이 발생한다고 밝혀졌습니다. 우리는 이미지 측면에서도 유사한 정보 혼합 문제가 발생한다는 것을 추가로 발견했습니다. 확산 모델의 중간 결과는 노이즈를 포함하고 있으며, 이는 서로 다른 객체가 비슷하게 보이도록 만들 수 있습니다. 이러한 두 가지 문제는 프롬프트의 다른 객체들을 올바른 영역에 맞추는 것을 어렵게 만듭니다. 더욱이, 확산 모델은 텍스트와 이미지 간의 교차 주의 블록을 사용하여 텍스트 조건을 각 픽셀에 통합합니다. 텍스트 조건에 여러 객체가 포함된 경우, 이는 픽셀 단위로 서로 다른 객체의 정보가 경쟁하게 만듭니다. 그 결과로 상충되는 정보의 융합이 발생할 수 있으며, 예를 들어 40% 표범과 60% 호랑이가 섞이거나(예: 그림 1의 첫 번째 행), 하나의 완전한 영역이 서로 다른 객체의 텍스트에 의해 분할될 수 있습니다(예: 그림 1의 세 번째 행). 이는 교차 주의 블록의 전반적인 이해 능력이 약함을 나타냅니다.

이전 연구들은 강력한 사전 지식을 통합하거나, 속성과 객체 간의 대응을 개선하거나, 더 나은 텍스트 인코더를 도입하여 이 문제를 해결하려 했습니다. 사전 지식에는 경계 상자 [9], 마스크 [10], 또는 작은 패치 [11]와 같은 대상 객체의 데이터가 포함될 수 있습니다. 이러한 데이터는 교차 주의가 대상 프롬프트와 이미지 패치 간의 더 나은 정렬을 달성하도록 도와주어 불필요한 혼합을 줄일 수 있습니다. 그러나 이러한 해결책은 광범위한 인간의 개입을 필요로 하며 생성 결과의 다양성을 제한합니다. Feng et al. [8]은 언어 파서를 사용하여 속성을 해당 객체와만 연관 짓지만, 이 방법은 객체 혼합 문제가 없을 때만 효과적입니다. Saharia et al. [6]은 CLIP 대신 T5 텍스트 인코더를 사용하지만, 이는 이미지 측면과 교차 주의 블록의 문제를 해결하지 못합니다.

이 논문에서 우리의 해결책은 확산 모델이 객체의 개념을 이해하도록 하여, 전반적으로 영역을 할당하고 여러 객체를 동시에 생성할 수 있도록 하는 것입니다. 이를 달성하기 위해 우리는 사전 학습된 확산 모델에 잠재 객체 탐지 모델을 통합했습니다. 생성 과정에서 잠재 객체 탐지 모델은 교차 주의 맵(CAM)을 기반으로 경계 상자를 생성합니다. CAM을 입력으로 선택함으로써 우리는 확산 모델의 정렬 결과를 최대한 활용할 수 있으며, 이는 탐지의 견고성과 일반화를 증가시킵니다. 객체 정보를 얻은 후, 우리는 경계 상자와 CAM을 결합하여 경계를 더욱 정제하고 마스크를 생성합니다. 그런 다음 CAM을 조작하여 충돌하는 텍스트 프롬프트를 마스킹하고 대상 텍스트 프롬프트를 강화합니다. 또한, 우리는 연속성을 보장하고 고차 수치 방법을 지원하기 위해 부드러운 전략을 사용합니다. 우리는 우리의 접근법을 디텍터 가이드(Detector Guidance, DG)라고 부릅니다.

우리는 COCO [12], CC [8], 그리고 새로운 다중 관련 객체 벤치마크(MRO)를 사용하여 Stable Diffusion에서 DG의 효과를 평가했습니다. 실험 결과, DG는 인간 평가에서 원래의 Stable Diffusion보다 8-22% 더 우수한 성능을 보였습니다. DG는 객체를 명확하게 이해함으로써 속성을 해당 객체에 정확하게 할당하고, 상충되는 개념의 결합을 방지하며, 각 객체가 고유한 영역을 가지도록 보장합니다. 우리의 논문은 다음과 같은 기여를 합니다:

텍스트-이미지 확산 모델의 정렬 문제를 체계적으로 분석하였으며, 이는 텍스트 인코딩 측면뿐만 아니라 이미지 측면과 교차 주의 블록에서도 발생한다는 것을 밝혔습니다.
확산 모델의 정렬 정보를 완전히 활용하는 잠재 객체 탐지 방법을 제안합니다. COCO에서 훈련된 우리의 탐지 모델은 보지 못한 범주에서도 좋은 일반화 성능을 보입니다.
확산 모델의 약한 전반적인 이해 능력을 해결하기 위해 Detector Guidance를 도입했으며, 이는 인간의 개입이나 추가 반복 없이도 상당한 이점을 제공합니다.

Abstract

Introduction

Related Work