2022-04-13 22:58:31
Настоящие революции в мире ML происходят не так часто — что случилось что-то серьезное, можно понять по сообщениям в твиттере от ML-инженеров в стиле: «
У меня просто руки опускаются теперь что-то делать», «
Я не вижу смысла продолжать свое исследование» и тп.
Речь идет о задаче генерации картинки по тексту, и я про новую версию DALL•E от OpenAI, о которой кажется все уже написали.
Нейронка может работать в трех режимах:
Генерировать картинку с нуля;
Дорисовывать часть картинки;
Сгенерировать новые версии картинки на входе.
Упрощенно, на пальцах, довольно сложно рассказать как работает этот подход (потому что на фразе «диффузионный декодер и диффузионную визуальную модель» обычные люди начинают плакать), но я подумаю над простым объяснением, как я делал тут.
Ниже будет пост, где я собрал результаты генерации из разных твиттер тредов и дописал запросы по которым эти картинки генерировались (их никто не дорабатывал в фотошопе, это сырой выход из нейронки – в разрешении 1024х1024).
А вот так выглядит интерфейс для генерации, доступ к которому пока есть только у ~400 человек (я тоже подал заявку и в списке ожидания):
902 views19:58