DeepMind разработало ИИ, создающий 3D-объекты из 2D-изображений

Подразделение Google DeepMind представило новую нейронную сеть Generative Query Network (GQN), исследование опубликовано в журнале Science. GQN узнает о предметах и их геометрических свойствах без ручной маркировки содержимого сцен.

Модель GQN состоит из двух нейросетей: репрезентативной и генеративной. Первая сеть в качестве входных данных получает изображения и задает вектор, характеризующий основную сцену. Затем вторая сеть представляет («воображает») сцену из ранее не наблюдаемой точки зрения.

Репрезентативная нейросеть не знает, какие углы запрашивает генерирующая сеть для прогнозирования видов объекта, поэтому ее задача — найти эффективный способ описать истинное расположение сцены как можно точнее. Она захватывает наиболее важные элементы, такие как позиция объекта, его цвет и макет комнаты. Во время обучения генератор узнает о типичных предметах, функциях, отношениях и закономерностях в окружающей среде. Этот общий набор «понятий» позволяет репрезентативной сети описать сцену сжатым и абстрактным способом, оставив работу по заполнению деталей генеративной сети.

Команда проекта провела контролируемые эксперименты с GQN с помощью нескольких объектов в случайных позициях, цветах, формах и текстурах, со случайными источниками света или окклюзией. После обучения в этих средах они использовали репрезентативную сеть для формирования представлениях о новых сценах. Результаты показали несколько свойств GQN:

  • Генеративная сеть GQN может «представить» ранее незаметные сцены с новых углов обзора с хорошей точностью. С помощью репрезентативной сети и новых точек обзора камеры она генерирует четкие изображения без знания законов перспективы, окклюзии и освещения. Таким образом, генеративная сеть может выступать в роли рендеринга.  

  • Репрезентативная сеть GQN может научиться подсчитывать, локализовать и классифицировать объекты без меток на объекте. Несмотря на то, что ее представления могут быть очень маленькими, предсказания GQN очень точны и почти неотличимы от истины. То есть репрезентативная сеть может точно определять конфигурацию блоков.

  • GQN представляет, измеряет и уменьшает неопределенность. Она учитывает неопределенность в своих предположениях о сценах, даже если ее содержимое не видно до конца. Сеть использует несколько частичных представлений сцены для формирования целостного вида. Об этом свидетельствуют предсказания на рисунке ниже. Модель выражает свою неопределенность благодаря изменчивости ее прогнозов, которая постепенно уменьшается по мере перемещения ее по лабиринту.

  • Представления GQN обеспечивают надежное и эффективное обучение с подкреплением. Системы, использующие GQN, учатся выполнять задачи эффективнее, чем решения на других моделях. Потому что информация, закодированная в генеративной сети системы без GQN, может рассматриваться как «врожденное» знание среды.

Будущие системы GQN будут более универсальными и потребуют меньшей вычислительной мощности, чем современные технологии компьютерного зрения, которые обучаются на больших наборах данных с размеченными изображениями, созданными людьми.В будущем ученые планируют использовать нейросеть для описания пространства и времени, чтобы изучить физику и движение, а также для приложений в виртуальной и дополненной реальности.

DeepMind считает, что их технологию можно использовать в таких областях, как автомобили с автопилотом, где система может не иметь всей доступной информации о предстоящих дорожных условиях. Однако нейросеть сможет предсказать обстановку на дороге с высокой степенью точности на основе того, что она видит сейчас.

Теоретически роботы могут обучаться по одной задаче и перераспределяться на другую без существенного перепрограммирования. GQN может снизить производственные издержки, увеличить скорость производства и упростить сборку практически всего, что было построено роботами. «Эта работа интересна и увлекательна, — говорит  профессор когнитивистики из Массачусетского технологического института Джошуа Тененбаум. — Но, на мой взгляд, это исследование все еще довольно далеко от прямых приложений. С технической точки зрения решаемые ею проблемы можно решить лучше другими способами, которые в меньшей степени зависят от методов, основанных на обучении».

Тененбаум, который не участвовал в проекте, добавляет: «В долгосрочной перспективе эта работа может помочь продвинуть состояние роботизированного восприятия и контроля, что приведет к более адаптивным и автономным системам, чем современные технологии искусственного интеллекта».

Загрузка ...
The Robot
Adblock
detector