Международный коллектив исследователей, в который вошли специалисты из Московского физико-технического института (МФТИ), разработал новую технологию стереоскопического зрения, позволяющую точно определять расстояние до объектов.
Ученые из МФТИ представили инновационную технологию стереозрения под названием Un‑ViTAStereo. Эта система способна определять расстояние до объектов без использования дорогостоящих лидаров и ручной разметки. Она работает эффективно даже в сложных условиях, когда традиционные алгоритмы дают сбои, например, перед гладкими стенами, в густой растительности или тумане. Технология имеет потенциал для применения в беспилотных автомобилях и автономных роботах, обеспечивая их безопасность и точность навигации.
Человеческий мозг сопоставляет два слегка отличающихся изображения, поступающие от левого и правого глаза, и на основе этой разницы формирует трехмерную карту окружающего мира. Стереосистемы в роботах и беспилотных автомобилях работают по аналогичному принципу, но вместо глаз используют камеры, а вместо мозга – алгоритмы. Однако такой механизм не всегда эффективен: например, перед идеально белой стеной или в зонах с повторяющимися узорами алгоритму трудно правильно сопоставить изображения, что приводит к ошибкам.
Новый метод обучения нейросетей, разработанный международной группой ученых, позволяет преодолеть эти ограничения. Они внедрили в процесс обучения модель Depth Anything V2, которая действует как «наставник». Эта модель способна оценивать относительную глубину, анализируя одно изображение. Хотя Depth Anything V2 не измеряет расстояние в метрах, она распознает тени, перспективы и перекрытия объектов, что позволяет ей с высокой точностью определять, что находится ближе, а что дальше. Алгоритм выбирает только те предсказания стереосистемы, которые соответствуют подсказкам «наставника», и обучает нейросеть повышать свою точность.
Работа системы состоит из трех этапов. На первом этапе алгоритм оценки диспаратности (DDCV) проверяет каждый пиксель, сопоставляя его данные с подсказками «наставника». Пиксели, соответствующие подсказкам, помечаются зеленым цветом, а те, что не соответствуют, – красным. На втором этапе функция потерь на основе локального ранжирования глубины (LDR) ищет вокруг каждой красной точки несколько зеленых пикселей. Эти «маяки» задают границы и перемещают красный пиксель в правильное положение. Наконец, алгоритм «Двойная функция потерь сглаживания диспаратности» (DDS) помогает формировать контуры. Он удаляет цифровой шум там, где «наставник» указывает на равномерный цвет, и усиливает его там, где цвет должен быть контрастным.
На основе этой технологии ученые планируют разработать самообучающуюся нейросеть, которая сможет адаптироваться к различным условиям – от городских улиц до заводских цехов.
Источник: ТАСС