Фаза 1. Пользователь·Урок 9

Урок 9. Генерация изображений

Цель: уверенно генерировать качественные картинки и понимать, какая модель под какую задачу Время: ~45 минут Источник: generative-ai-for-beginners/09

Зачем тебе этот урок

Картинки — второй после текста массовый AI-юзкейс. Обложки постов, иллюстрации к статьям, мокапы продукта, концепт-арт, фото-аватарки, рекламные баннеры. Раньше — фотосток или фрилансер. Сейчас — 30 секунд и $0.04.

Но «нажать кнопку и получить шедевр» не работает. Хороший результат требует:

Понимания, какая модель сильна в чём.
Промпта по структуре, а не «нарисуй что-нибудь красивое».
Знания параметров (aspect ratio, style, seed, steps).
Понимания этических ограничений.

1. Как это работает в одном абзаце

Под капотом — diffusion модель. На обучении ей показывают пары «картинка + текстовое описание», постепенно добавляя в картинку шум, пока она не превратится в чистый шум. Модель учится обратной задаче: из шума получить картинку, соответствующую тексту.

На генерации: модель берёт случайный шум (seed), смотрит на твой текстовый промпт и шаг за шагом (20–50 шагов) убирает шум, превращая его в картинку. Каждый seed даёт свою картинку по тому же промпту — отсюда вариативность.

2. Что выбрать в 2026

Модель	Сильна в	Слабее в	Цена/картинка	Доступ
DALL·E 3	Понимание сложных промптов, текст на картинке	Фотореализм лиц	$0.04–0.08	ChatGPT, OpenAI API
Midjourney v6	Художественность, концепт-арт	Точное следование промпту	~$10/мес	Discord, веб
FLUX.1	Фотореализм, открытая модель	—	$0.025 или бесплатно локально	Replicate, локально
Stable Diffusion XL	Гибкость, локальный запуск, fine-tune	Из коробки слабее	Бесплатно локально	ComfyUI, AUTOMATIC1111
Imagen 3 / Gemini	Фотореализм, безопасность	Ограничения по содержанию	$0.04	Google AI Studio

Эвристика выбора:

Иллюстрация к статье/посту → DALL·E 3 (быстро, точно по промпту, понимает русский).
Концепт-арт, обложки → Midjourney.
Фотореализм для контента → FLUX.
Хочешь полный контроль и/или privacy → SDXL локально.

3. Структура хорошего промпта

Промпт для картинки — это не одно предложение, а стек слоёв. Чем больше слоёв задал — тем стабильнее результат.

[субъект] + [действие/поза] + [окружение] + [стиль] + [освещение] + [камера/композиция] + [качество]

Пример плохого промпта:

«красивый кот»

Пример хорошего промпта:

«Рыжий мейн-кун сидит на подоконнике в скандинавском интерьере, золотой час, тёплый солнечный свет из окна, вид сбоку, неглубокая глубина резкости, стиль фотографии, 35mm, кинематографично»

Ключевые слова, которые работают:

Стиль: photorealistic, cinematic, watercolor, oil painting, pencil sketch, isometric 3D, flat illustration, pixel art.
Свет: golden hour, soft natural light, dramatic shadows, neon, studio lighting.
Камера: close-up, wide shot, top-down view, bokeh, 35mm lens, fisheye.
Композиция: rule of thirds, symmetric, minimalist, negative space.
Качество: high detail, 4k, sharp focus.

4. Параметры, которые управляют результатом

Aspect ratio (соотношение сторон):

1:1 — квадрат, для соцсетей.
16:9 — широкий, для обложек/баннеров.
9:16 — вертикальный, для сторис/тиктока.
3:2 — классическое фото.

Seed — стартовое число для генератора случайных чисел. Один и тот же seed + промпт = одна и та же картинка. Используется чтобы:

Повторить понравившийся вариант.
Чуть поправить промпт и сравнить с фиксированным seed.

Steps (шаги денойзинга) — обычно 20–50. Больше — чуть качественнее и медленнее. Дефолт хорош.

CFG / Guidance scale — насколько строго следовать промпту. 7–9 — баланс. <5 модель «фантазирует», >15 — пережаривает.

Negative prompt (в SD/Midjourney) — что НЕ должно быть. Полезно: blurry, extra fingers, distorted face, watermark, text.

5. Image-to-image: править существующее

Не только текст → картинка. Все современные модели умеют:

Image-to-image — взять картинку и переделать в новом стиле/композиции (фото → акварель).
Inpainting — закрасить часть картинки маской и попросить перерисовать только её («убери провод», «замени фон»).
Outpainting — расширить картинку за её пределы.
Variations — сгенерировать N похожих, но разных.

В ChatGPT с DALL·E 3 это работает прямо в чате: «возьми эту картинку и сделай мне 4 варианта в стиле комикса».

6. Цены и реальная экономика

На 100 картинок:

DALL·E 3 standard: ~$4–8
FLUX через Replicate: ~$2.5
Midjourney unlimited (Pro $30/мес): эффективно цена 0 после первых сотен
SDXL локально (Mac M2/RTX 3060): электричество, $0

Скрытая стоимость: ты не получаешь хороший вариант с первого раза. Реальный браки — 60–80% генераций. Закладывай 3–5 попыток на одну итоговую картинку.

7. Этика и юридические тонкости

Стиль художника по имени («in the style of Greg Rutkowski») — серая зона. В Midjourney и SDXL технически работает, но создаёт юридические и этические вопросы. Для коммерции — избегай.
Знаменитости и публичные люди — DALL·E 3 и Imagen блокируют. SDXL — нет.
Дипфейки — практически везде запрещены в TOS. Юридически в РФ и большинстве стран — статьи о клевете/диффамации.
Авторские права на результат — в США суды решили, что чисто AI-сгенерированная картинка не имеет автора и не подлежит копирайту. В РФ — серая зона.
Тренировочные данные — почти все модели обучены на картинках из интернета без явного согласия авторов. Этический вопрос открыт.

8. Тонкости и подводные камни

Текст на картинке — DALL·E 3 неплохо рисует короткие надписи (1–3 слова), всё остальное даёт ломанные буквы. Для логотипов и плакатов лучше: сгенерируй фон → добавь текст в Figma/Photoshop.
Руки и пальцы — классическая проблема. На 6 пальцев, скрещенные суставы. FLUX и Midjourney v6 это решили почти полностью, SDXL хуже.
Лица людей — в массе моделей лица «среднестатистические». Чтобы получить конкретного человека — нужен LoRA fine-tune (Урок 70).
Слишком много объектов — больше 3–4 сущностей в сцене модель путает («кот слева, собака справа» → может перепутать).
Бренды и логотипы — большинство моделей не нарисуют узнаваемый логотип Apple. Это фича.

9. Глоссарий

Diffusion model

Класс генеративных моделей, обучающихся восстанавливать картинку из шума шаг за шагом. Основа всех современных image-моделей.

Seed

Стартовое число случайного генератора. Фиксирует «случайность» — один seed = одна картинка при том же промпте.

CFG scale (Guidance)

Параметр, регулирующий, насколько модель должна следовать промпту. 7–9 — баланс.

Inpainting

Перерисовка части картинки по маске. Полезно для правки деталей.

LoRA

Лёгкий fine-tune модели на 20–50 фото конкретного объекта/человека/стиля. Позволяет «научить» SD рисовать тебя.

10. Практика (45 минут)

Сделай 4 обложки для своего проекта (или для этого курса) через DALL·E 3 в ChatGPT. Один промпт с разными стилями: photorealistic / watercolor / 3D isometric / flat illustration.
Сгенерируй 3 варианта аватарки в одном стиле, потом через image-to-image попроси «такой же, но в очках».
Сравни: один и тот же промпт через DALL·E 3 и через FLUX (Replicate, $0.025). Что лучше для твоей задачи?
Запиши в progress.md формулу промпта, которая у тебя сработала.

11. Проверь себя

1. Чем DALL·E 3 отличается от Midjourney в практическом смысле?
DALL·E 3 точнее следует промпту и понимает русский. Midjourney эстетичнее и художественнее «из коробки».

2. Что такое seed и зачем он нужен?
Стартовое число случайного генератора. Фиксирует исход — можно повторить картинку или сделать вариации с фиксированным seed, меняя промпт.

3. Почему модели плохо рисуют текст на картинке?
Они работают на уровне пикселей, не зная, что такое буквы. Учились по картинкам, где текст случаен и редок. Дальше — лучше через композитинг.

4. Что делать, если на картинке 6 пальцев?
Сменить модель (FLUX/MJv6 чинят это), добавить в negative prompt «extra fingers», или inpaint руку отдельно.

5. Где грань между «вдохновлено» и «копирование стиля» художника?
Юридически грань размыта. Этически: если ты копируешь конкретного живущего художника без согласия для коммерции — это плохо. «В стиле импрессионизма» — ок.

12. Что должно остаться в голове

Diffusion-модели = шаг за шагом восстанавливают картинку из шума.
DALL·E 3 для точности и русского; Midjourney для эстетики; FLUX для фотореализма; SDXL для контроля.
Хороший промпт = слои: субъект + поза + окружение + стиль + свет + камера.
Seed фиксирует случайность; aspect ratio задаёт формат; CFG=7–9.
Текст и руки — слабые места моделей; знай ограничения.
Этика: избегай стиль конкретных живых художников и публичных лиц для коммерции.

📌 Закрепление: сделай одну обложку для своего следующего поста/статьи через AI и опубликуй. Если получится — добавь в портфолио.

Открыть интерактивную версию (с Алёшей) →