AI가 이미지를 학습하고 생성하는 원리 | 현직 AI아티스트가 알려주는 나의 첫 AI 아트 교과서

우선 우리가 사용하는 생성형 AI(Generative AI)는 이용자의 특정 요구에 따라 결과를 생성해내는 인공지능으로, 본고에서는 주로 텍스트를 입력하면 이미지가 생성되는 Text to image 모형을 다룰 예정이다.

이미지를 학습하고 생성하는 AI의 원리는 크게 학습(Training) 단계와 생성(Generation) 단계로 이루어진다.

학습(Training) 단계에서 AI는 대규모 데이터 셋에 포함된 수백만 개의 이미지를 학습하며, 이미지의 특징과 패턴을 이해하고 인코딩하는 능력을 키운다. 학습 과정은 AI의 신경망(neural network) 구조를 사용하여 진행되며, 이를 통해 이미지의 다양한 층과 요소를 나누어 학습할 수 있다.

학습 단계가 완료되면 AI는 새로운 이미지를 생성할 수 있게 된다. 생성 과정에서는 AI가 프롬프트 또는 사용자가 제공한 설명을 기반으로 새로운 이미지를 구성한다. 이때, 학습된 신경망을 통해 이미지의 다양한 특징을 결합하고 조정하여 사용자의 요구에 부합하는 새로운 이미지를 만들어낸다.

더욱 상세하게 살펴보면, "앉아 있는 귀여운 고양이"와 같은 키워드로 태그된 이미지에 약간의 노이즈(살짝 흐릿하게 만들기)를 추가한 후, 원본 이미지로 복원하는 작업을 요청할 수 있다.

이 과정이 성공적으로 이루어지면, 노이즈의 강도를 점진적으로 증가시키면서 원본 이미지로 복원하는 것을 시도해본다. 만약 복원이 정확하게 이루어지면 확인 과정을 진행하고, 그렇지 않다면 다시 시도하여 조금 더 정확한 복원을 목표로 한다.

이렇게 반복적인 학습 과정을 거치면서, AI는 결국 완전히 노이즈로 가득 찬 상태(완전 흐릿한 이미지)에서도 원본 이미지로 복원할 수 있는 능력을 가지게 된다. 이 과정이 앞에서 살펴본 학습과 생성 단계로 볼 수 있다.

이러한 노이즈에서 복원하는 과정을 Diffusion(확산)이라고 부르며, 향후 다양한 AI 툴들을 살펴보며 다루게 될 Sampler 모델들은 이런 과정을 통해 이미지를 학습하고 생성하게 된다. 확산 과정은 이미지의 특징과 구조를 점차적으로 재구성하면서 원본 이미지를 복원해낸다.

예를 들어, AI 아티스트(노란색 우비를 입은 귀여운 고양이 캐릭터)가 "썬글라스를 쓴 우주에 있는 사자"라는 이미지를 생성하고자 할 때, AI는 학습 데이터를 기반으로 입력된 텍스트와 유사한 이미지를 만들어낸다.

그리고 노이즈 상태에서 시작하여 반복적인 학습을 통해 원하는 결과물에 가까운 이미지가 생성되면 작업을 멈춘다.

이 과정에서 노이즈 상태로부터 시작하여 반복적인 학습을 통해 원하는 결과물에 접근해 가면서, 작업을 완료한다.

*이때 Seed는 노이즈 고유 번호로 볼 수 있으며,
Guidance Scale은 텍스트와 이미지 간 정확도 수준, Steps는 반복 횟수를 의미한다.

이 과정은 예술적 표현의 형태로 볼 수 있다. AI 아티스트들은 각종 AI 툴들이 가지고 있는 기본 이미지 구성 요소를 인식하고 이해하며, 이 요소들을 조합하고 변형하며 새로운 이미지를 창조한다.

이를 통해 AI 아티스트는 독특하고 개성 있는 작품을 만들어 내며, 다양한 주제와 스타일의 이미지를 생성할 수 있다. 이 과정은 AI 기술을 예술적 표현에 효과적으로 접목시키는 데 큰 기여를 한다.