Интернет и медиа

Google представил нейросеть, генерирующую изображения по текстовым описаниям

Google представил нейросеть Imagen, которая способна генерировать изображения на основе текстового описания. Например, по описанию «собака смотрится в зеркало и видит кошку» нейросеть создала вот такую картинку:

А описание «пара роботов ужинает на фоне Эйфелевой башни» было визуализировано вот так:

Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи.

Далее алгоритмы улучшают схематичную картинку размером 64×64 до тех пор, пока искусственный интеллект не поймет, что уже не может сделать ее лучше по заданным параметрам. После этого размер изображения увеличивается 256 х 256 пикселей.

В результате изображение уже в высоком качестве доходит до размера 1024×1024. Это происходит не путем масштабирования — каждый из трех этапов нейросеть улучшает детали на картинке.

Разработчики сравнили Imagen с аналогичной нейросетью DALL-E 2 от OpenAI. По данным Google, тестировщики при сравнении изображений от Imagen и DALL-E 2 чаще выбирали Imagen за более точную и достоверную работу.

Пока Imagen работает в режиме закрытой бета-версии и недоступна для всех желающих. Разработчики опасаются, что пользователи будут использовать нейросеть для генерации неприемлемых изображений, тем самым усугубляя принятые обществом предрассудки и стереотипы.

Отметим, за последние полгода Google представил много новинок в области визуального поиска и обработки изображений. В их числе интеграция инструмента Google Lens в мобильную и десктопную версию браузера Chrome, его добавление в поиск на десктопах и запуск мультипоиска – с одновременным использованием в запросе текста и изображения. 

Источник

Добавить комментарий

Кнопка «Наверх»