Языковые схемы подражательного поведения

РефератПомощь в написанииУзнать стоимостьмоей работы

Языковые схемы подражательного поведения (реферат, курсовая, диплом, контрольная)

Уже говорилось, что основная проблема при реализации подражательного поведения — это понять, чему надо подражать. Фактически, это означает необходимость определения состояния объекта подражания и последующий переход субъекта в такое же состояние. Очень часто решение этой задачи основано на реализации некоторой системы коммуникаций между агентами. Например, используется следующий сугубо технический трюк: каждое действие или выполнение некоторой фиксированной поведенческое процедуры сопровождается выдачей (генерацией) некоторого символа или фразы. Иными словами, робот постоянно оповещает свое окружение разъяснением того, что он сейчас делает или в каком состоянии находится. Это — коммуникационный уровень общения.

Существуют подходы, основанные на реализации уже языкового взаимодействия между роботами. Например, в [Карпов, 2015] описывается знак-ориентированная система управления роботом (агентом), позволяющая реализовывать, в частности, феномен контагиозного поведения (примером которого является действие сигнала тревоги, заставляющего всю группу обратиться в бегство). Здесь следует отметить, что контагиозное поведение может рассматриваться как пример более общего феномена подражательного поведения. робот подражательный семантический Рассмотрим пример семантической сети, реализующей реакцию агента на некоторую опасность. Важной особенностью системы является наличие эмоциональной компоненты: выполнение действия агентом сопровождается некоторой эмоциональной оценкой — положительной или отрицательной. В основе эмоциональной компоненты СУ лежит т.н. потребностно-информационная теория эмоций П. В. Симонова [Симонов, 1982]. В этой теории предполагается, что эмоции являются оценкой текущей потребности (ее качества и ценности) и возможности ее удовлетворения. В предложенной знак-ориентированной системе управления именно эмоциональное состояние ответственно за генерацию фраз, т. е. робот начинает «говорить», лишь испытывая сильные отрицательные эмоции.

Пусть в семантической сети системы управления имеется вершина «Опасность», возбуждаемая неким комплексом сенсорных, вершин. Агент, получив сигнал опасности, в течение некоторого времени будет испытывать отрицательные эмоции (в силу цепочки «получен сигнал — надо убегать — опасность еще близка»). Это приведет к тому, что будет сгенерирована фраза «Опасность». Остальные члены группы воспринимают этот сигнал, т. е. для них происходит внешняя инициация вершины «Опасность» соответствующих сетей, несмотря на то, что соответствующие входные сенсорные вершины не возбуждены. Далее возбуждение передается на связанные с вершиной «Опасность» элементы, что в конечном итоге приведет к выполнению тех или иных двигательных функций. Эта ситуация приведена на (Рисунок 1).

Рисунок 1. Генерация и восприятие фразы.

Здесь агент-инициатор A формирует фразу {"Опасность"}. Фраза воспринимается агентом-реципиентом B, при этом у реципиента B вершина «Опасность» возбуждается при отсутствии подтверждающего сигнала от соответствующего сенсора. Далее реципиент B выполняет действие «Убегать».

Как видно, при такой языковой организации подражательное поведение формируется достаточно естественным образом. Однако в этой работе нас интересует подражательное поведение, основанное исключительно на сенсорном восприятии.

Сенсорная модель.

Далее мы рассмотрим модель подражательного поведения, в которой не используются коммуникационные каналы, а реализуется схема непосредственного наблюдения, которую назовем сенсорной моделью.

Схемы поведения.

Будем считать, что поведение агента (робота) описывается множеством продукций вида:

C1 & C2 & … A

Подробности устройства таких правил не существенны. Это могут быть нечеткие правила, это могут быть варианты правил с использованием коэффициентов уверенности и проч. Важно, что имеется множество условий Ci и некоторое заключение A. Коньюнкт Ci может рассматриваться как некий наблюдаемый сенсорами робота объект. Причем в простейшем случае можно полагать, что чем ближе этот объект, тем выше уровень соответствующего сигнала Ci. В свою очередь заключение A может интерпретироваться как сигнал, запускающий некоторую поведенческую реакцию или процедуру — некий аналог командного нейрона.

Рассмотрим простую поведенческую схему, которая определяет проявление агрессии агента, направленную на некоторый объект O.

Правило агрессии (атаки) выглядит так:

O & CA A (1).

Здесь O — наблюдаемый сенсорной системой агента объект, а CA — некий контекст, мотивация агрессивного поведения агента. Условно эта схема изображена на (Рисунок 2).

Рисунок 2. Правило атаки.

Выражение (1) определяет индивидуальное поведение, и подражательный аспект в нем отсутствует. Рассмотрим далее некоторое общее правило поведения некоторого субъекта S, трактуемое следующим образом: если некий субъект S наблюдает объект O и при этом объект находится рядом с субъектом, то S атакует O. Здесь также присутствует некий контекст агрессивности CS субъекта.

Формально это можно записать так:

O & S & R (S, O) & CS AS (2).

Здесь R (S, O) — некая функция, определяющая близость между субъектом и объектом. На (Рисунок 3) изображена схема соответствующего поведения.

Рисунок 3. Общее правило поведения субъекта.

Структура, представленная на (Рисунок 3), определяет некую возможную схему наблюдения. Действительно, если сенсорная система агента-наблюдателя может зарегистрировать некий объект O и субъекта S, то этот агент может определить близость наблюдаемых O и S и сделать вывод о том, что S атакует O.

Подражательное поведение.

Возникает вопрос: насколько общее правило поведения (2) применимо к нашей основной задаче реализации подражательного поведения. Непосредственное отождествление субъекта S и некоторого субъективного «Я» не приведет к конструктивным результатам, несмотря на кажущуюся естественность этого шага. Здесь под субъективным «Я» будем понимать некоторый комплекс параметров, характеризующий состояние агента, включая его координаты, направление, скорость и т. п. Это несколько отличается от понятия субъективного «Я», представленного, например, в [Карпов, 2012].

Рассмотрим следующую задачу. Пусть агент наблюдает некую удаленную пару O и субъекта S. Отождествление субъективного «Я» и S формально может рассматриваться как замена R (S, O) на R (self, O). Однако становится непонятно, на кого должно быть направлена процедура нападения. Объект O может и не находиться рядом с агентом-наблюдателем. Было бы логично, если бы агрессия агента была направлена не на удаленный объект O, а на тот объект, который обнаружен рядом. Этого можно добиться, если результат наблюдения (наблюдаемая сцена) будет оказывать влияние на поведенческую мотивацию агента — его контекст CA.

Если принять, что результатом подражания поведения должна быть тождественность поведения, то, исходя из (1) и (2), мы получим следующую цепочку правдоподобных рассуждений.

Пусть A=AS. Тогда:

O & CA = O & S & R (S, O) & CS.

Откуда получаем основное соотношение:

CA= S & R (S, O) & CS (3).

Иными словами, наблюдаемая близость стороннего субъекта S и объекта O воздействует на контекст наблюдателя (мотивацию агрессивности в нашем примере). При этом важно, что действие агента будет направлено именно на наблюдаемый им — агентом — объект. Итоговая схема представлена на (Рисунок 4).

Рисунок 4. Схема подражательного поведения.

Итак, особенность схемы заключается в том, что агент не видит непосредственно действия другого субъекта, т. е. атаку. Агент наблюдает, что кто-то (субъект) взаимодействует с объектом. Именно это наблюдаемое взаимодействие (близость субъекта и объекта) расценивается как атака в силу имеющейся у агента модели такого поведения. Иными словами, агент сопоставляет наблюдаемую сцену с некоторой схемой.

Эксперименты.

В качестве иллюстративного примера была рассмотрена следующая типичная задача. На тороидальной клеточной поверхности, на которой обитают агенты, размещалось некоторое количество «корма». Агенты оснащены датчиками, регистрирующими в некоторой окрестности кормовые участки и способными обнаружить своих «собратьев». Кроме того, агенты обладают способностью генерировать некий сигнал, также воспринимаемый другими агентами. При этом агент способен определить направление на источник сигнала. Задача заключается в том, чтобы, используя локальные правила поведения, как можно более эффективно собрать корм. На (Рисунок 5) приведен пример такого поля.

Рисунок 5. Игровое поле.

Были проведены серии экспериментов, в которых сравнивалась эффективность модели подражательного поведения с тестовой — той, у которой агенты при поиске корма использовали только случайное блуждание. Подражательность реализовывалась следующим образом: когда агент находил кормовой участок, он генерировал некое сообщение (сигнал), которое заставляло прочих агентов направляться к источнику сигнала. Эта упрощенная схема, в отличие от рассуждений, приведенных выше, необходима была исключительно с точки зрения получения сугубо статистических результатов.

На (Рисунок 6) приведены усредненные графики зависимости количества съеденного корма от времени. Серия R1 — это популяция, в которой реализован механизм подражательного поведения, R0 — поведение без подражания.

Рисунок 6. Зависимость количества съеденного корма от времени.

Из (Рисунок 6) видно, что эффективность схемы подражательного поведения значительно выше той, в которой агенты игнорируют состояние и поведение других членов группы.

На самом же деле эти эксперименты не доказывают ровным счетом ничего. Варьирование параметров среды или агентов для рассмотренной задачи может привести к результатам, когда обе схемы дадут и практически одинаковые результаты, и те, в которых подражательность ухудшает эффективность поиска. Причина заключается в том, что подражание — это механизм, присущий высокоорганизованному поведению, и его преимущества могут проявляться лишь при решении достаточно специфических, сложных задач. Рассмотренная же выше задача является сугубо модельной, иллюстративной лишь со статистической точки зрения. По сути, такие задачи сводятся лишь к тому, что у агентов увеличивается радиус окрестности обнаружения цели.

Более реальной выглядит схема поведения, представленная на (Рисунок 7).

Рисунок 7. Схема поведения, учитывающая мотивации агрессивности и осторожности.

На этой схеме агент обладает двумя мотивациями — агрессивностью и осторожностью. Обнаружив некоторый объект, агент может проявить как агрессию (сближение, если объект далеко и атака, если объект близко), так и осторожность, т. е. убежать от объекта. Результаты моделирования такой системы становятся еще более неоднозначными и требуют уже иной формулировки задачи.

Подражательное поведение — это один из механизмов, присущий высокоорганизованным особям и являющийся основой для реализации феномена социальной организации. Возможно ли подражательное поведение для особей с ограниченными когнитивными способностями — это один из открытых вопросов. Равно как и вопрос, связанный с формальным определением условий, при которых подражательное поведение становится выгодным.

Зачастую термин «подражательное поведение» используется не совсем оправданно. Например, в [Chatty et al., 2011] описывается схема организации колонии муравьев, основанная на использовании т.н. когнитивных карт. Когнитивные карты являются как средством представления феромонных следов, так и способом реализации подражательного поведения. Суть механизма подражания заключается в том, что вероятность выбора того или иного действия агентом зависит от того, какое действие было выбрано другими агентами. А в [Chernova, Veloso, 2007] описывается механизм обучения на основе демонстраций. При этом суть обучения сводится к тому, что реализуется механизм классификации, построенный на модели гауссовой смеси (Gaussian mixture model). Целью обучения является сопоставление каждой точке признакового пространства одного из ограниченного числа действий агента. Декларируемое подражание по большому счету здесь заключается исключительно как подача серии обучающих примеров.

Проблема не в последнюю очередь заключается в необходимости определения того, что такое подражательное поведение и, как следствие, в чем его отличие от процедуры обучения. Не берясь за формальное определение, повторим, что очень важными аспектами подражательного поведения является выявление того, чему и когда, собственно, следует подражать.

В [Гаазе-Рапопорт, Поспелов, 1987] отмечается, что важнейшая задача подражательного поведения заключается в обучении, в формировании двигательных стереотипов, а реализация подражательного поведения требует сложной организации неровной системы. В частности, в памяти должны сохраняться наблюдаемая ситуация, представление о самом себе, представление о другом и мотивах его поведения. Механизм, идеологически близкий к этому подходу, и был предложен в данной работе. Основным допущением при этом было воздействие наблюдаемой сцены на мотивацию субъекта.

Работа выполнена при частичной финансовой поддержке гранта РФФИ № 15−01−7 900. «Разработка и исследование моделей и методов непосредственной языковой коммуникации на основе семиотических моделей для реализации социального поведения в групповой робототехнике».

Показать весь текст

Заполнить форму текущей работой