출처 : MIT

미국 매사추세츠공과대학(MIT) 연구팀이 DALL-E 3와 Stable Diffusion과 같은 인기 있는 이미지 생성 AI의 확산 모델을 단순화하여 생성되는 이미지의 품질을 유지하면서 생성 속도를 최대 30배까지 가속화하는 기술을 공개했다고 과학기술매체 Live Science가 보도했다.

대부분의 이미지 생성 AI에 사용되는 확산 모델은 어떤 이미지인지 설명하는 캡션이나 메타데이터가 붙은 이미지를 학습 데이터로 사용해 텍스트 프롬프트에서 정확한 이미지를 생성할 수 있도록 훈련된다.

이 과정에서 확산 모델은 먼저 무작위 이미지를 노이즈로 변환한 후 ‘역(逆)확산’이라는 노이즈 제거 과정을 최대 100단계까지 거쳐 선명한 이미지를 생성할 수 있게 된다고 한다.

이번에 MIT 연구팀이 발표한 ‘DMD(Distribution Matching Distillation, 분포 매칭 증류)’라는 기법에서는 이 ‘역 확산’ 단계를 1단계로 줄여 이미지 생성에 걸리는 시간을 크게 단축하는 데 성공했다.

Stable Diffusion v1.5를 사용한 한 테스트에서는 2590ms(밀리 세컨드)가 걸리던 이미지 생성 시간이 약 30분의 1 수준인 90ms로 단축됐다.

MIT의 티안웨이 인(Tianwei Yin)은 “우리 연구는 적대적 생성 네트워크(GAN)의 원리와 확산 모델의 원리를 융합하여 시각적 콘텐츠 생성을 단 한 단계로 구현한 것으로, 기존 확산 모델이 100단계의 반복적인 개선이 필요한 것과는 대조적이다. 이것은 속도와 품질이 뛰어난 새로운 생성 모델링 기법이 될 수 있는 잠재력을 가지고 있다”라고 말했다.

DMD에는 이미지 생성에 필요한 반복 횟수를 줄이는 데 중요한 두 가지 요소가 있는데, 첫 번째는 회귀 손실(regression loss)로, 학습 과정에서 유사성을 기준으로 이미지를 분류하여 AI의 속도를 높인다. 두 번째는 분포 매칭 손실(distribution matching loss)로, 특정 이미지가 생성될 확률을 현실 세계의 확률과 일치시키는 것이다. 이 두 가지 기술을 결합하면 새로운 AI 모델이 생성한 이미지에 이상한 부분이 나타날 가능성을 최소화할 수 있다고 한다.

이 새로운 접근 방식은 이미지 생성에 필요한 연산 능력을 획기적으로 감소시켜 빠르고 효율적인 생성이 요구되는 AI 산업에 큰 도움이 될 것으로 기대되며, 보다 빠른 콘텐츠 생성으로 이어질 것으로 예상된다.

MIT의 프레드 듀란트(Fred Durand)는 “확산 모델이 탄생한 이래로 반복 횟수를 줄일 수 있는 방법이 성배처럼 요구돼 왔다. 이제 한 번에 이미지 생성이 가능해져 연산 비용을 획기적으로 줄이고 생성 과정을 가속화할 수 있게 되어 매우 기쁘게 생각한다”고 말했다.

(참고 : news.mit.edu, arxiv.org)

저작권자 © 테크튜브 무단전재 및 재배포 금지