Картинки — второй после текста массовый AI-юзкейс. Обложки постов, иллюстрации к статьям, мокапы продукта, концепт-арт, фото-аватарки, рекламные баннеры. Раньше — фотосток или фрилансер. Сейчас — 30 секунд и $0.04.
Но «нажать кнопку и получить шедевр» не работает. Хороший результат требует:
Под капотом — diffusion модель. На обучении ей показывают пары «картинка + текстовое описание», постепенно добавляя в картинку шум, пока она не превратится в чистый шум. Модель учится обратной задаче: из шума получить картинку, соответствующую тексту.
На генерации: модель берёт случайный шум (seed), смотрит на твой текстовый промпт и шаг за шагом (20–50 шагов) убирает шум, превращая его в картинку. Каждый seed даёт свою картинку по тому же промпту — отсюда вариативность.
| Модель | Сильна в | Слабее в | Цена/картинка | Доступ |
|---|---|---|---|---|
| DALL·E 3 | Понимание сложных промптов, текст на картинке | Фотореализм лиц | $0.04–0.08 | ChatGPT, OpenAI API |
| Midjourney v6 | Художественность, концепт-арт | Точное следование промпту | ~$10/мес | Discord, веб |
| FLUX.1 | Фотореализм, открытая модель | — | $0.025 или бесплатно локально | Replicate, локально |
| Stable Diffusion XL | Гибкость, локальный запуск, fine-tune | Из коробки слабее | Бесплатно локально | ComfyUI, AUTOMATIC1111 |
| Imagen 3 / Gemini | Фотореализм, безопасность | Ограничения по содержанию | $0.04 | Google AI Studio |
Эвристика выбора:
Промпт для картинки — это не одно предложение, а стек слоёв. Чем больше слоёв задал — тем стабильнее результат.
[субъект] + [действие/поза] + [окружение] + [стиль] + [освещение] + [камера/композиция] + [качество]
Пример плохого промпта:
«красивый кот»
Пример хорошего промпта:
«Рыжий мейн-кун сидит на подоконнике в скандинавском интерьере, золотой час, тёплый солнечный свет из окна, вид сбоку, неглубокая глубина резкости, стиль фотографии, 35mm, кинематографично»
Ключевые слова, которые работают:
Aspect ratio (соотношение сторон):
1:1 — квадрат, для соцсетей.16:9 — широкий, для обложек/баннеров.9:16 — вертикальный, для сторис/тиктока.3:2 — классическое фото.Seed — стартовое число для генератора случайных чисел. Один и тот же seed + промпт = одна и та же картинка. Используется чтобы:
Steps (шаги денойзинга) — обычно 20–50. Больше — чуть качественнее и медленнее. Дефолт хорош.
CFG / Guidance scale — насколько строго следовать промпту. 7–9 — баланс. <5 модель «фантазирует», >15 — пережаривает.
Negative prompt (в SD/Midjourney) — что НЕ должно быть. Полезно: blurry, extra fingers, distorted face, watermark, text.
Не только текст → картинка. Все современные модели умеют:
В ChatGPT с DALL·E 3 это работает прямо в чате: «возьми эту картинку и сделай мне 4 варианта в стиле комикса».
На 100 картинок:
Скрытая стоимость: ты не получаешь хороший вариант с первого раза. Реальный браки — 60–80% генераций. Закладывай 3–5 попыток на одну итоговую картинку.
Класс генеративных моделей, обучающихся восстанавливать картинку из шума шаг за шагом. Основа всех современных image-моделей.
Стартовое число случайного генератора. Фиксирует «случайность» — один seed = одна картинка при том же промпте.
Параметр, регулирующий, насколько модель должна следовать промпту. 7–9 — баланс.
Перерисовка части картинки по маске. Полезно для правки деталей.
Лёгкий fine-tune модели на 20–50 фото конкретного объекта/человека/стиля. Позволяет «научить» SD рисовать тебя.
progress.md формулу промпта, которая у тебя сработала.1. Чем DALL·E 3 отличается от Midjourney в практическом смысле?
DALL·E 3 точнее следует промпту и понимает русский. Midjourney эстетичнее и художественнее «из коробки».
2. Что такое seed и зачем он нужен?
Стартовое число случайного генератора. Фиксирует исход — можно повторить картинку или сделать вариации с фиксированным seed, меняя промпт.
3. Почему модели плохо рисуют текст на картинке?
Они работают на уровне пикселей, не зная, что такое буквы. Учились по картинкам, где текст случаен и редок. Дальше — лучше через композитинг.
4. Что делать, если на картинке 6 пальцев?
Сменить модель (FLUX/MJv6 чинят это), добавить в negative prompt «extra fingers», или inpaint руку отдельно.
5. Где грань между «вдохновлено» и «копирование стиля» художника?
Юридически грань размыта. Этически: если ты копируешь конкретного живущего художника без согласия для коммерции — это плохо. «В стиле импрессионизма» — ок.