Google создал искусственный интеллект для улучшения фотографий

25662523

Возможно, вы видели научно-фантастические фильмы или телешоу, в которых главный герой просит увеличить изображение и улучшить результаты - показывая лицо, номерной знак или любую другую ключевую деталь - и новейшие движки искусственного интеллекта Google, основанные на так называемых диффузионных моделях, способны осуществить этот самый трюк.

Это сложный процесс для освоения, потому что, по сути, происходит то, что добавляются детали изображения, которые изначально не захватывала камера, с использованием некоторых супер-умных догадок, основанных на других, похожих изображениях.

Google назвал эту технику синтезом естественного изображения, и в данном конкретном случае - сверхвысоким разрешением изображения. Вы начинаете с небольшой блочной фотографии с пикселями, а в итоге получаете что-то резкое, четкое и естественное. Возможно, он не совсем соответствует оригиналу, но достаточно близок, чтобы выглядеть реалистично для пары человеческих глаз.

Google представил два новых инструмента искусственного интеллекта для этой работы. Первый называется SR3, или Супер-разрешение через повторное уточнение, и он работает, добавляя шум или непредсказуемость к изображению, а затем обращая процесс вспять и убирая его - так же, как редактор изображений может попытаться сделать ваши снимки во время отпуска более резкими.

“Модели диффузии работают, искажая обучающие данные, постепенно добавляя гауссовский шум , медленно стирая детали в данных, пока они не станут чистым шумом, а затем обучая нейронную сеть обратить вспять этот процесс искажения“, - объясняют исследователь Джонатан Хо и инженер-программист Читван Сахария из Google Research.

ИИ улучшает фото
ИИ улучшает фото
google

Посредством серии вероятностных вычислений, основанных на обширной базе данных изображений и некоторой магии машинного обучения, SR3 может представить, как выглядит версия блочного изображения с низким разрешением в полном разрешении. 

Второй инструмент - это CDM или модели каскадной диффузии. Google описывает их как “конвейеры“, по которым модели распространения, в том числе SR3, могут быть направлены для повышения разрешения изображений высокого качества. Он берет модели улучшения и делает из них более крупные изображения, и Google также опубликовал статью об этом.

По словам Google, за счет использования разных моделей улучшения при разных разрешениях подход CDM может превзойти альтернативные методы увеличения размера изображений. Новый движок ИИ был протестирован в ImageNet , гигантской базе данных обучающих изображений, обычно используемых для исследования визуального распознавания объектов.

Конечные результаты SR3 и CDM впечатляют. В стандартном тесте с участием 50 человек-добровольцев изображения человеческих лиц, сгенерированные SR3, ошибочно принимались за настоящие фотографии примерно в 50% случаев - и, учитывая, что идеальный алгоритм, как ожидается, наберет 50% баллов, это впечатляет.

Стоит повторить, что эти улучшенные изображения не являются точными совпадениями с оригиналами, но представляют собой тщательно рассчитанные симуляции, основанные на некоторых сложных математических вычислениях.

Google говорит, что диффузионный подход дает лучшие результаты, чем альтернативные варианты, включая генеративные состязательные сети (GAN), которые противопоставляют две нейронные сети друг другу для уточнения результатов.

ИИ улучшает фото
ИИ улучшает фото
google

Google обещает гораздо больше от своих новых движков ИИ и связанных с ними технологий - не только с точки зрения масштабирования изображений лиц и других природных объектов, но и в других областях вероятностного моделирования.

“Мы рады продолжить тестирование возможностей диффузионных моделей для широкого спектра задач генеративного моделирования“, - поясняет команда.

1 1 1 1 1
Если заметили ошибку, выделите фрагмент текста и нажмите Ctrl+Enter