← AI Курс
Фаза 1. Пользователь·Урок 9

Урок 9. Генерация изображений

Цель: уверенно генерировать качественные картинки и понимать, какая модель под какую задачу Время: ~45 минут Источник: generative-ai-for-beginners/09

Зачем тебе этот урок

Картинки — второй после текста массовый AI-юзкейс. Обложки постов, иллюстрации к статьям, мокапы продукта, концепт-арт, фото-аватарки, рекламные баннеры. Раньше — фотосток или фрилансер. Сейчас — 30 секунд и $0.04.

Но «нажать кнопку и получить шедевр» не работает. Хороший результат требует:

1. Как это работает в одном абзаце

Под капотом — diffusion модель. На обучении ей показывают пары «картинка + текстовое описание», постепенно добавляя в картинку шум, пока она не превратится в чистый шум. Модель учится обратной задаче: из шума получить картинку, соответствующую тексту.

На генерации: модель берёт случайный шум (seed), смотрит на твой текстовый промпт и шаг за шагом (20–50 шагов) убирает шум, превращая его в картинку. Каждый seed даёт свою картинку по тому же промпту — отсюда вариативность.

2. Что выбрать в 2026

МодельСильна вСлабее вЦена/картинкаДоступ
DALL·E 3Понимание сложных промптов, текст на картинкеФотореализм лиц$0.04–0.08ChatGPT, OpenAI API
Midjourney v6Художественность, концепт-артТочное следование промпту~$10/месDiscord, веб
FLUX.1Фотореализм, открытая модель$0.025 или бесплатно локальноReplicate, локально
Stable Diffusion XLГибкость, локальный запуск, fine-tuneИз коробки слабееБесплатно локальноComfyUI, AUTOMATIC1111
Imagen 3 / GeminiФотореализм, безопасностьОграничения по содержанию$0.04Google AI Studio

Эвристика выбора:

3. Структура хорошего промпта

Промпт для картинки — это не одно предложение, а стек слоёв. Чем больше слоёв задал — тем стабильнее результат.

[субъект] + [действие/поза] + [окружение] + [стиль] + [освещение] + [камера/композиция] + [качество]

Пример плохого промпта:

«красивый кот»

Пример хорошего промпта:

«Рыжий мейн-кун сидит на подоконнике в скандинавском интерьере, золотой час, тёплый солнечный свет из окна, вид сбоку, неглубокая глубина резкости, стиль фотографии, 35mm, кинематографично»

Ключевые слова, которые работают:

4. Параметры, которые управляют результатом

Aspect ratio (соотношение сторон):

Seed — стартовое число для генератора случайных чисел. Один и тот же seed + промпт = одна и та же картинка. Используется чтобы:

Steps (шаги денойзинга) — обычно 20–50. Больше — чуть качественнее и медленнее. Дефолт хорош.

CFG / Guidance scale — насколько строго следовать промпту. 7–9 — баланс. <5 модель «фантазирует», >15 — пережаривает.

Negative prompt (в SD/Midjourney) — что НЕ должно быть. Полезно: blurry, extra fingers, distorted face, watermark, text.

5. Image-to-image: править существующее

Не только текст → картинка. Все современные модели умеют:

В ChatGPT с DALL·E 3 это работает прямо в чате: «возьми эту картинку и сделай мне 4 варианта в стиле комикса».

6. Цены и реальная экономика

На 100 картинок:

Скрытая стоимость: ты не получаешь хороший вариант с первого раза. Реальный браки — 60–80% генераций. Закладывай 3–5 попыток на одну итоговую картинку.

7. Этика и юридические тонкости

8. Тонкости и подводные камни

  • Текст на картинке — DALL·E 3 неплохо рисует короткие надписи (1–3 слова), всё остальное даёт ломанные буквы. Для логотипов и плакатов лучше: сгенерируй фон → добавь текст в Figma/Photoshop.
  • Руки и пальцы — классическая проблема. На 6 пальцев, скрещенные суставы. FLUX и Midjourney v6 это решили почти полностью, SDXL хуже.
  • Лица людей — в массе моделей лица «среднестатистические». Чтобы получить конкретного человека — нужен LoRA fine-tune (Урок 70).
  • Слишком много объектов — больше 3–4 сущностей в сцене модель путает («кот слева, собака справа» → может перепутать).
  • Бренды и логотипы — большинство моделей не нарисуют узнаваемый логотип Apple. Это фича.

9. Глоссарий

Diffusion model

Класс генеративных моделей, обучающихся восстанавливать картинку из шума шаг за шагом. Основа всех современных image-моделей.

Seed

Стартовое число случайного генератора. Фиксирует «случайность» — один seed = одна картинка при том же промпте.

CFG scale (Guidance)

Параметр, регулирующий, насколько модель должна следовать промпту. 7–9 — баланс.

Inpainting

Перерисовка части картинки по маске. Полезно для правки деталей.

LoRA

Лёгкий fine-tune модели на 20–50 фото конкретного объекта/человека/стиля. Позволяет «научить» SD рисовать тебя.

10. Практика (45 минут)

  1. Сделай 4 обложки для своего проекта (или для этого курса) через DALL·E 3 в ChatGPT. Один промпт с разными стилями: photorealistic / watercolor / 3D isometric / flat illustration.
  2. Сгенерируй 3 варианта аватарки в одном стиле, потом через image-to-image попроси «такой же, но в очках».
  3. Сравни: один и тот же промпт через DALL·E 3 и через FLUX (Replicate, $0.025). Что лучше для твоей задачи?
  4. Запиши в progress.md формулу промпта, которая у тебя сработала.

11. Проверь себя

1. Чем DALL·E 3 отличается от Midjourney в практическом смысле?
DALL·E 3 точнее следует промпту и понимает русский. Midjourney эстетичнее и художественнее «из коробки».

2. Что такое seed и зачем он нужен?
Стартовое число случайного генератора. Фиксирует исход — можно повторить картинку или сделать вариации с фиксированным seed, меняя промпт.

3. Почему модели плохо рисуют текст на картинке?
Они работают на уровне пикселей, не зная, что такое буквы. Учились по картинкам, где текст случаен и редок. Дальше — лучше через композитинг.

4. Что делать, если на картинке 6 пальцев?
Сменить модель (FLUX/MJv6 чинят это), добавить в negative prompt «extra fingers», или inpaint руку отдельно.

5. Где грань между «вдохновлено» и «копирование стиля» художника?
Юридически грань размыта. Этически: если ты копируешь конкретного живущего художника без согласия для коммерции — это плохо. «В стиле импрессионизма» — ок.

12. Что должно остаться в голове

  1. Diffusion-модели = шаг за шагом восстанавливают картинку из шума.
  2. DALL·E 3 для точности и русского; Midjourney для эстетики; FLUX для фотореализма; SDXL для контроля.
  3. Хороший промпт = слои: субъект + поза + окружение + стиль + свет + камера.
  4. Seed фиксирует случайность; aspect ratio задаёт формат; CFG=7–9.
  5. Текст и руки — слабые места моделей; знай ограничения.
  6. Этика: избегай стиль конкретных живых художников и публичных лиц для коммерции.
📌 Закрепление: сделай одну обложку для своего следующего поста/статьи через AI и опубликуй. Если получится — добавь в портфолио.