생성형 AI란? GPT, DALL·E, Stable Diffusion 비교

0. 시리즈

기초편	제목
기초 1편	AI, 머신러닝, 딥러닝 차이점 개념 정리
기초 2편	머신러닝 알고리즘 종류 정리
기초 3편	딥러닝 신경망 구조 정리 (CNN, RNN, Transformer)
기초 4편⬅️	생성형 AI란? GPT, DALL·E, Stable Diffusion 비교
기초 5편	전이 학습이란? 실전 파인튜닝 가이드

1. 들어가며

1.1 이 글은 누가 읽으면 좋을까?

[1편]에서 AI·머신러닝·딥러닝의 개념과 관계를 배웠고, [2편]에서 머신러닝 알고리즘을, [3편]에서 CNN·RNN·Transformer 같은 딥러닝 신경망 구조를 살펴봤습니다. 이번 4편에서는 최근 가장 뜨거운 화제인 생성형 AI(Generative AI) 를 집중적으로 다룹니다. ChatGPT, DALL·E, Stable Diffusion이 각각 어떻게 다른지, 어떤 원리로 동작하는지 완전 정리합니다.

1.2 생성형 AI란 무엇인가? — "소비하는 AI vs 창조하는 AI"

지금까지의 AI는 주로 "있는 것을 분류하고 예측" 하는 역할이었습니다. 스팸 메일인지 아닌지 분류하고, 집값이 얼마일지 예측하는 것처럼요. 반면 생성형 AI 는 한 발 더 나아가 전혀 없던 새로운 콘텐츠(텍스트, 이미지, 음악, 영상, 코드)를 스스로 창조 합니다. 이것이 기존 AI와 생성형 AI의 가장 근본적인 차이입니다.

1.3 이 글을 읽으면 알 수 있는 것

생성형 AI와 기존 AI의 차이
GPT, DALL·E, Stable Diffusion, Midjourney의 원리와 특징
각 생성형 AI 모델의 차이와 선택 기준
생성형 AI의 한계와 주의해야 할 점

2. 생성형 AI의 개념 — 기존 AI와 무엇이 다른가?

2.1 기존 AI (판별형 AI) vs 생성형 AI 비교

AI는 크게 판별형 AI 와 생성형 AI 로 나뉩니다.

구분	판별형 AI (Discriminative AI)	생성형 AI (Generative AI)
하는 일	입력 데이터를 분류·예측	새로운 데이터를 창조
질문 방식	"이게 뭐야?"	"이걸 만들어줘"
출력	카테고리, 숫자	텍스트, 이미지, 음악, 영상
예시	스팸 분류, 암 진단, 집값 예측	ChatGPT, DALL·E, Suno

비유:
판별형 AI = 미술 평론가 (그림을 보고 "이건 모네 작품입니다" 판단)
생성형 AI = 화가 (모네 스타일로 새 그림을 직접 그림)

2.2 생성형 AI가 가능해진 이유 — Transformer + 대규모 데이터

생성형 AI가 갑자기 등장한 게 아닙니다. 세 가지 요소가 동시에 갖춰지면서 가능해졌습니다.

Transformer 구조 (2017): 대규모 데이터를 빠르게 병렬 학습하는 기반 구조 등장 (3편 참고)
대규모 데이터: 인터넷에 쌓인 수조 개의 텍스트, 수십억 장의 이미지
GPU 연산 능력 향상: 엔비디아 GPU를 통한 대규모 모델 학습 가능

이 세 가지가 맞물리면서 2022년 ChatGPT를 기점으로 생성형 AI의 대중화 시대 가 열렸습니다.

2.3 생성형 AI가 만들 수 있는 것들

생성형 AI는 이제 거의 모든 종류의 콘텐츠를 만들 수 있습니다.

텍스트: 글쓰기, 요약, 번역, 대화, 보고서 작성
이미지: 사진, 일러스트, 디자인 시안, 로고
음악: 배경음악, 노래, 효과음
영상: 텍스트 설명만으로 동영상 생성
코드: 프로그래밍 코드 자동 작성 및 디버깅

3. 텍스트 생성 AI — GPT 시리즈

3.1 GPT란?

GPT(Generative Pre-trained Transformer) 는 OpenAI가 개발한 대규모 언어 모델(LLM, Large Language Model)입니다. 이름을 분해하면 개념이 명확해집니다.

단어	의미
Generative	새로운 텍스트를 생성
Pre-trained	대규모 데이터로 미리 학습된
Transformer	3편에서 배운 Transformer 구조 기반

3.2 GPT의 학습 방식 — 사전 학습 + 파인튜닝

GPT는 두 단계로 학습합니다.

1단계 — 사전 학습 (Pre-training) 인터넷의 방대한 텍스트 데이터(책, 위키피디아, 뉴스 등)를 학습합니다. 학습 방식은 단순합니다 — 문장에서 다음에 올 단어를 예측하는 것을 수조 번 반복합니다.

예시:
"오늘 날씨가 매우 ___" → "맑다" 예측
"파이썬으로 리스트를 ___" → "정렬하려면" 예측

이 과정을 반복하다 보면 언어의 구조, 문법, 사실 지식, 논리적 추론까지 자연스럽게 학습됩니다.

2단계 — 파인튜닝 (Fine-tuning) 사전 학습된 모델을 특정 목적에 맞게 추가 학습합니다. ChatGPT는 여기에 더해 RLHF(인간 피드백 강화학습) 를 적용해 대화에 더 자연스럽고 안전하게 응답하도록 조정했습니다.

3.3 GPT 버전별 발전 역사

버전	출시	파라미터 수	핵심 특징
GPT-1	2018	1.17억	최초의 GPT, 가능성 입증
GPT-2	2019	15억	텍스트 생성 능력으로 화제. 초기엔 공개 제한
GPT-3	2020	1,750억	사실상 범용 언어 모델 수준 도달
ChatGPT	2022	GPT-3.5 기반	RLHF 적용, 대화형 UI로 대중화 폭발
GPT-4	2023	비공개	멀티모달(텍스트+이미지 입력) 지원
GPT-4o	2024	비공개	음성·이미지·텍스트 통합 실시간 처리

💡 파라미터(Parameter)란? 모델이 학습을 통해 조정하는 가중치의 수입니다. 파라미터가 많을수록 더 복잡한 패턴을 학습할 수 있습니다. 인간 뇌의 시냅스 연결 수가 약 100조 개라는 것을 생각하면, GPT-3의 1,750억도 아직 한참 적습니다.

3.4 GPT의 핵심 기술 — 프롬프트 엔지니어링이란?

GPT를 더 잘 활용하려면 프롬프트(Prompt) , 즉 입력 질문/명령을 잘 작성해야 합니다. 같은 GPT 모델이라도 프롬프트를 어떻게 쓰느냐에 따라 결과물의 품질이 크게 달라집니다.

❌ 나쁜 프롬프트:
"블로그 글 써줘"

✅ 좋은 프롬프트:
"머신러닝을 처음 배우는 비전공자를 대상으로,
딥러닝과의 차이를 실생활 예시를 들어 500자 내외로
친근한 어투로 설명하는 블로그 도입부를 작성해줘"

이렇게 AI에게 더 좋은 결과를 이끌어내는 입력을 설계하는 기술을 프롬프트 엔지니어링 이라고 합니다.

3.5 GPT 경쟁 모델 비교

ChatGPT의 폭발적 성공 이후 여러 회사들이 경쟁 모델을 출시했습니다.

모델	회사	특징
ChatGPT (GPT-4o)	OpenAI	가장 널리 쓰임. 멀티모달 지원
Claude	Anthropic	긴 문서 처리 능력 탁월. 안전성 강조
Gemini	Google	구글 서비스(검색, 문서)와 통합. 멀티모달
LLaMA	Meta	오픈소스 공개. 로컬 실행 가능
Mistral	Mistral AI	경량화·고성능. 오픈소스

3.6 실생활 활용 예시

보고서·이메일·블로그 글 초안 작성
코드 디버깅 및 자동 완성
외국어 번역 및 교정
데이터 분석 결과 요약
아이디어 브레인스토밍

4. 이미지 생성 AI — DALL·E & Stable Diffusion

4.1 이미지 생성 AI란?

텍스트 설명(프롬프트)을 입력하면 그에 맞는 이미지를 새롭게 생성 하는 AI입니다.

예시 프롬프트:
"사이버펑크 도시 배경에서 커피를 마시는 고양이, 
디지털 아트 스타일, 네온 컬러"
→ 이 설명에 맞는 이미지 자동 생성

4.2 어떻게 텍스트로 이미지를 만드는가? — 디퓨전 모델 원리

현재 대부분의 이미지 생성 AI는 디퓨전 모델(Diffusion Model) 을 기반으로 합니다.

4.2.1 노이즈 추가 (Forward Diffusion) — 학습 과정

학습할 때 원본 이미지에 조금씩 노이즈(잡음)를 추가 해 결국 완전한 랜덤 노이즈로 만드는 과정을 반복합니다.

원본 고양이 사진
→ 약간 흐려짐
→ 더 흐려짐
→ 완전한 노이즈(알아볼 수 없는 랜덤 픽셀)

4.2.2 노이즈 제거 (Reverse Diffusion) — 생성 과정

반대로 랜덤 노이즈에서 시작해 점진적으로 노이즈를 제거 하며 이미지를 복원합니다. 이때 텍스트 프롬프트를 조건으로 주면, 프롬프트에 맞는 방향으로 노이즈가 제거됩니다.

랜덤 노이즈
→ 노이즈 조금 제거 (텍스트 조건 반영)
→ 점점 더 제거
→ 프롬프트에 맞는 이미지 완성

비유: 조각가가 돌덩이(노이즈)를 조금씩 깎아내며
      원하는 조각상(이미지)을 완성하는 과정

4.3 DALL·E 시리즈

DALL·E란?

OpenAI가 개발한 텍스트-이미지 생성 AI입니다. 이름은 초현실주의 화가 살바도르 달리(Dalí) 와 픽사 애니메이션 WALL·E 를 합성한 것입니다.

DALL·E 2 → DALL·E 3 발전 과정

버전	출시	특징
DALL·E 1	2021	최초 공개. 텍스트→이미지 가능성 입증
DALL·E 2	2022	해상도·품질 대폭 향상. 이미지 편집 기능 추가
DALL·E 3	2023	ChatGPT와 통합. 텍스트 프롬프트 이해 능력 크게 향상

특징 및 한계

✅ ChatGPT에 내장되어 접근성이 높음
✅ 프롬프트 의도를 잘 이해하고 반영
❌ 상업적 이용 제한 조건 존재
❌ 세밀한 스타일 커스터마이징의 한계

4.4 Stable Diffusion

Stable Diffusion이란?

2022년 Stability AI가 공개한 오픈소스 이미지 생성 모델 입니다. 누구나 무료로 모델 파일을 내려받아 자신의 컴퓨터에서 직접 실행 할 수 있다는 것이 가장 큰 특징입니다.

DALL·E와의 차이점

구분	DALL·E 3	Stable Diffusion
운영 방식	상용 API (OpenAI 서버)	오픈소스 (로컬 실행 가능)
비용	유료 (ChatGPT Plus)	무료 (직접 실행 시)
커스터마이징	제한적	매우 자유로움 (모델 변경 가능)
접근성	쉬움 (웹에서 바로 사용)	설치·설정 필요
검열	강함	약함 (자체 실행 시)

특징 및 한계

✅ 완전 무료로 로컬 실행 가능
✅ LoRA, ControlNet 등 확장 모델로 무한 커스터마이징
✅ 커뮤니티가 방대해 다양한 스타일 모델 공유
❌ 초기 설치·설정이 복잡 (GPU 성능 필요)
❌ 직접 관리해야 하므로 진입 장벽 존재

4.5 Midjourney

Midjourney란?

Midjourney Lab이 개발한 이미지 생성 AI로, 디스코드(Discord) 채팅을 통해 사용합니다. 세 모델 중 예술적 완성도와 미적 감각 이 가장 뛰어나다는 평가를 받습니다.

✅ 예술적·감각적 이미지 품질이 탁월
✅ 커뮤니티 기반으로 다른 사람 작업 참고 가능
❌ 완전 유료 서비스 (무료 플랜 없음)
❌ 디스코드 사용 필수

4.6 이미지 생성 AI 3종 최종 비교표

구분	DALL·E 3	Stable Diffusion	Midjourney
운영사	OpenAI	Stability AI	Midjourney Lab
비용	ChatGPT Plus 구독	무료 (로컬)	월정액 유료
사용 방법	웹 브라우저	로컬 설치 / WebUI	디스코드
품질	높음	커스텀에 따라 다름	매우 높음 (예술적)
커스터마이징	낮음	매우 높음	중간
적합한 사용자	빠르게 쓰고 싶은 일반 사용자	개발자·파워유저	디자이너·아티스트

5. 영상·음악·코드 생성 AI — 새로운 영역

5.1 영상 생성 AI

Sora (OpenAI)

2024년 OpenAI가 공개한 텍스트→영상 생성 모델입니다. 텍스트 설명만으로 최대 1분 분량의 고화질 영상 을 생성합니다. 물리 법칙, 빛의 반사, 움직임의 자연스러움까지 표현해 공개 당시 큰 충격을 줬습니다.

예시 프롬프트:
"도쿄 시내를 걷는 강아지, 노을 배경, 시네마틱 스타일"
→ 실제 촬영한 것 같은 영상 자동 생성

Runway

텍스트나 이미지를 기반으로 영상을 생성하거나 편집하는 플랫폼입니다. 영화·광고 제작 현장에서 실제로 활용되고 있습니다.

5.2 음악 생성 AI

Suno

텍스트 설명만으로 가사 있는 완성된 노래 를 생성합니다. 장르, 분위기, 악기 구성까지 프롬프트로 지정할 수 있습니다.

예시:
"90년대 스타일 K-pop, 밝고 경쾌한 분위기, 여름 테마"
→ 보컬·멜로디·가사·반주가 포함된 완성 노래 생성

Udio

Suno와 유사하게 텍스트로 음악을 생성하며, 특히 음악적 디테일과 장르 표현 능력 이 뛰어납니다.

5.3 코드 생성 AI

GitHub Copilot

Microsoft와 OpenAI가 협력해 만든 코드 자동 완성 AI입니다. VS Code 등 편집기에 플러그인 형태로 설치해 사용하며, 주석이나 함수명만 입력해도 전체 코드를 자동으로 제안합니다.

예시:
# 리스트에서 중복 제거 후 정렬하는 함수
def remove_duplicates_and_sort(lst):
    → Copilot이 나머지 코드 자동 완성 제안

Cursor

AI 기반 코드 편집기로, 단순 자동완성을 넘어 전체 파일 수정, 버그 수정, 리팩토링 까지 대화형으로 처리합니다. 최근 개발자들 사이에서 빠르게 인기를 얻고 있습니다.

6. 생성형 AI 전체 비교표

구분	대표 모델	만드는 것	기반 기술
텍스트	ChatGPT, Claude, Gemini	글, 대화, 요약, 번역	GPT, Transformer
이미지	DALL·E 3, Stable Diffusion, Midjourney	그림, 사진, 일러스트	Diffusion Model
영상	Sora, Runway	동영상	Diffusion + Transformer
음악	Suno, Udio	노래, 배경음악	Transformer
코드	GitHub Copilot, Cursor	소스코드	GPT

7. 생성형 AI의 한계와 주의점

생성형 AI가 강력하다고 해서 맹목적으로 믿으면 안 됩니다. 반드시 알아야 할 한계와 주의점이 있습니다.

7.1 할루시네이션 (Hallucination) — 그럴듯한 거짓말

GPT 같은 언어 모델은 때로 사실이 아닌 내용을 자신 있게 말하는 경우 가 있습니다. 이를 할루시네이션(환각)이라고 합니다.

예시:
"세종대왕 맥북 던짐 사건에 대해 알려줘"
→ 일부 모델이 실제로 없는 사건을 그럴듯하게 설명하기도 함

AI가 생성한 내용은 반드시 팩트체크 가 필요합니다. 특히 의학, 법률, 금융 분야에서는 AI 답변을 그대로 신뢰하면 위험합니다.

7.3 딥페이크 악용 문제

GAN과 이미지·영상 생성 AI를 악용하면 특정 인물의 얼굴을 합성한 가짜 영상(딥페이크) 을 만들 수 있습니다. 이는 명예훼손, 사기, 가짜 뉴스 등에 악용될 수 있어 사회적으로 심각한 문제가 되고 있습니다.

7.4 편향성 (Bias) 문제

AI는 학습 데이터에 포함된 인간의 편견을 그대로 흡수 할 수 있습니다. 특정 직업, 성별, 인종, 문화에 대해 편향된 결과를 출력하는 문제가 지속적으로 보고되고 있습니다. AI 출력을 그대로 사용하기 전에 편향 여부를 점검하는 것이 중요합니다.

8. 최종 정리 및 다음 편 예고

8.1 생성형 AI 핵심 3줄 요약

생성형 AI 는 기존 판별형 AI와 달리 텍스트·이미지·음악·영상·코드를 새롭게 창조한다
GPT 는 Transformer 기반 텍스트 생성 모델이고, DALL·E·Stable Diffusion·Midjourney 는 디퓨전 모델 기반 이미지 생성 모델이다

8.2 다음 편 예고

지금까지 AI의 개념부터 머신러닝 알고리즘, 딥러닝 신경망 구조, 생성형 AI까지 배웠습니다. 5편에서는 이 모든 개념을 실무에 연결하는 핵심 기술 "전이 학습(Transfer Learning)" 을 다룹니다. 이미 잘 만들어진 AI 모델을 내 목적에 맞게 재활용하는 방법, 즉 파인튜닝(Fine-tuning) 의 실전 가이드입니다.

0. 시리즈

1. 들어가며

1.1 이 글은 누가 읽으면 좋을까?

1.2 생성형 AI란 무엇인가? — "소비하는 AI vs 창조하는 AI"

1.3 이 글을 읽으면 알 수 있는 것

2. 생성형 AI의 개념 — 기존 AI와 무엇이 다른가?

2.1 기존 AI (판별형 AI) vs 생성형 AI 비교

2.2 생성형 AI가 가능해진 이유 — Transformer + 대규모 데이터

2.3 생성형 AI가 만들 수 있는 것들

3. 텍스트 생성 AI — GPT 시리즈

3.1 GPT란?

3.2 GPT의 학습 방식 — 사전 학습 + 파인튜닝

3.3 GPT 버전별 발전 역사

3.4 GPT의 핵심 기술 — 프롬프트 엔지니어링이란?

3.5 GPT 경쟁 모델 비교

3.6 실생활 활용 예시

4. 이미지 생성 AI — DALL·E & Stable Diffusion

4.1 이미지 생성 AI란?

4.2 어떻게 텍스트로 이미지를 만드는가? — 디퓨전 모델 원리

4.2.1 노이즈 추가 (Forward Diffusion) — 학습 과정

4.2.2 노이즈 제거 (Reverse Diffusion) — 생성 과정

4.3 DALL·E 시리즈

DALL·E란?

DALL·E 2 → DALL·E 3 발전 과정

특징 및 한계

4.4 Stable Diffusion

Stable Diffusion이란?

DALL·E와의 차이점

특징 및 한계

4.5 Midjourney

Midjourney란?

4.6 이미지 생성 AI 3종 최종 비교표

5. 영상·음악·코드 생성 AI — 새로운 영역

5.1 영상 생성 AI

Sora (OpenAI)

Runway

5.2 음악 생성 AI

Suno

Udio

5.3 코드 생성 AI

GitHub Copilot

Cursor

6. 생성형 AI 전체 비교표

7. 생성형 AI의 한계와 주의점

7.1 할루시네이션 (Hallucination) — 그럴듯한 거짓말

7.2 저작권 문제 — 학습 데이터 논란

7.3 딥페이크 악용 문제

7.4 편향성 (Bias) 문제

8. 최종 정리 및 다음 편 예고

8.1 생성형 AI 핵심 3줄 요약

8.2 다음 편 예고