Возможно ли научить компьютер определять на карте место, где было сделано фото, без задания каких-либо дополнительных уточняющих данных? Команда исследователей из Google во многом преодолела эту проблему и представила решение, способное переплюнуть в плане распознавания мест даже людей-экспертов.
Модель, названная PlaNet, производит геолокацию изображений с применением глубокого машинного обучения. Эта работа ведется под управлением Тобиаса Веянда, специалиста Google по компьютерному зрению.
Согласно краткому резюме, включенному в доклад, посвященный проекту:
«В области компьютерного зрения проблема с фотогеолокацией традиционно решается посредством сопоставления изображений. Мы же решили позиционировать проблему несколько иначе, переведя ее в область классификации. Мы разделили поверхность Земли на сотни тысячи многомерных географических ячеек, и позволили нейронной сети заняться глубоким изучением данных, используя миллионы имеющихся изображений с прикрепленными геотегами. Таким образом, сеть тренируется определять местоположение изображенных на фото объектов.»
Получив фотографию для обработки, Google PlaNet распределяет по постоянно обновляющейся карте из геотегов вероятностные значения, помечая красным цветом промежуточные места, где предположительно находится или должен находиться искомый объект. Затем система концентрируется на данных результатах, приступая к углубленному анализу. Такой подход значительно экономит вычислительные ресурсы, снимая необходимость простого перебора миллионов изображений.
Однако следует заметить что данная цифровая сетка не покрывает всю земную поверхность. Такие зоны как центральная Африка, внутренние китайские провинции, огромные сибирские территории — белые пятная для данной системы, ведь нога и объектив фотографа там пока большая редкость. И условная «плотность» снимков с геотегами практически нулевая.
Разработчики нашли так же оригинальный способ для сравнения эффективности работы данной сети по сравнению с человеческим распознаванием изображений. Они решили использовать GeoGuesser, он-лайн игру, показывающую человеку случайно выбранную панораму то или иной улицы (подборка ведется с панорам из сервиса Google, охватившего почти весь мир). Игроку необходимо поставить на карте флажок где, по его мнению, была снята данная панорама. Это очень сложная задача в большинстве случаев, когда выбранная панорама не имеет каких-либо знаковым географических ориентиров. Как только игрок сделает свой ход, GeoGuesser показывает где на самом деле был сделан снимок и насчитывает баллы в зависимости от расстояния между предполагаемой и действительной локацией.
В режиме соревнования, двум игрокам показывается тот же набор из 5 панорам. Этот режим и был задействован командой разработчиков PlaNet. Было проведено 10 игр сети против опытных игроков, каждый раз ей были представлены различные наборы фотографий. PlaNet выиграла 28 из 50 раундов, и средняя погрешность в расстоянии составила 1131,7 км, тогда как для людей этот показатель оказался равным 2320,75 км. Сеть сумела определить 17 панорам с точностью до страны, тогда как у людей это получилось лишь для 11 панорам.
Разработчики заявили:
«Мы думаем, что преимущество PlaNet перед людьми заключается в том, что она может увидеть гораздо больше мест на Земле, чем смог бы посетить любой человек. К тому же она учится находить опорные точки такого незначительного рода, которым даже наметанный человеческий глаз может не придать должного значения».
Веянд и его коллеги с большими ожиданиями смотрят на свое детище, предполагая что именно оно станет адекватным решением проблемы с геолокацией по фотографиям.
Благодаря наличию огромного числа публичных фотографий с геотегами и способности сети к обучению на их базе, со временем на планете вовсе не останется неизведанных мест.