Новое исследование обучения поведению роботов

Новое исследование обучения поведения роботов

Специалисты исследовательских лабораторий армии США совместно с Институтом робототехники Университета Карнеги-Меллона представили технологию быстрой науки роботизированных машин. Техника учения направлена на формирование новой стратегии поведения при минимальном контроле людьми. Применение новой технологии позволит мобильным платформам роботов передвигаться автономно в сложных условиях по алгоритмам действий, ожидаемых от робота в конкретной ситуации.

Интеллект робота на примере поведения человека

Основное внимание в новом подходе уделяется построению интеллекта робота с упором на несколько демонстрационных примеров поведения человека.

Процесс обучения занимает небольшой объём времени и требует минимального участия людей. Такая технология видится идеальным методом обучения «на лету», когда необходимо срочно поменять условия миссии.

Специалисты в области робототехники сделали ставку первоначального исследования на обучение обходному поведению относительно визуального восприятия местности, а также объектов среды, обследуемой роботом.

В частности, роботизированную машину научили правилам перемещения из разных точек окружающей среды в случае остановки на обочине дороги. Также робот научился использовать здания в качестве укрытия, благодаря новой технологии быстрого урока.

По мнению учёных, занимающихся исследованием, выполнение различных задач миссии, максимально подходящих поведению обхода, может быть активировано непосредственно в процессе выполнения  работы роботом.

Этот эффект достигается внедрением функции обратного управления, технологически именуемого обратным подкреплённым обучением.

Подобная практика — это класс машинного обучения, когда активируются стремления восстановить функцию вознаграждения достижением оптимальной политики поведения.

Здесь требуется демонстрация политики человеком, чтобы обеспечивалось управление роботом по алгоритму, наилучшим образом отражающему поведение, которому необходимо научить машину.

Эти образные алгоритмы привязаны к визуальным предметам ландшафта или объекта:

  • травы,
  • дороги,
  • здания и т.п.

Так активируется (изучается) функция вознаграждения с учётом особенностей обследуемой среды.

Экспериментаторы армии США поясняют:

Есть стремления создавать интеллектуальные роботизированные системы, действие которых в боевых условиях не вызывает нареканий. Сценарий в таких условиях крайне не структурирован, шумный, хаотичный. Задача состоит в том, чтобы сделать быстро изучаемым текущее состояние окружающей атмосферы.

Решающее значение на поле битвы

Это предварительное исследование для новой стратегии обучения роботизированных машин. Но даже на первом этапе эксперименты помогли исследователям оценить возможности быстрого изучения кодирования поведения обхода.

Эксперименты выполнялись с помощью малого беспилотного робота «Clearpath Husky», конструкция которого наделена визуальным полем зрения на низком горизонте по отношению  к земле.

В конечном счете, исследование имеет решающее значение для будущего поля битвы, где солдатам придётся больше полагаться на роботов, выполняющих сложные миссии.


При помощи материалов: ARL