Коннекционистские модели представления темпоральных знаний

РефератПомощь в написанииУзнать стоимостьмоей работы

Коннекционистские модели представления темпоральных знаний (реферат, курсовая, диплом, контрольная)

Коннекционистская темпоральная модель основана на рекуррентных нейронных сетях Джордана-Элмана [1,2] с контекстным внутренним слоем, выполняющим функции краткосрочной динамической памяти (рис.1). Рекуррентные связи и контекстный слой позволяют скрытым элементам сети «видеть» свой собственный выход с предыдущего шага, что делает последующие выходы сети зависящими от предыдущих. В результате на контекстные нейроны ложится задача отображения как внешних входов, так и предыдущих внутренних состояний на некоторый желаемый выход. Так как образы скрытых нейронов сохраняются в виде контекста, они выполняют это отображение и, в то же самое время, формируют представления, являющиеся кодированием темпоральных свойств последовательного входа. Формируемые представления оказываются чувствительными к темпоральному контексту; эффект влияния времени неявно отображается в этих внутренних состояниях.

Рис. 1. Архитектура рекуррентных нейросетей Джордана-Элмана

интеллект архитектура нейросеть коннекционистский Способность рекуррентных нейронных сетей к темпоральным обобщениям иллюстрируется на задаче предсказания символов в псевдослучайных последовательностях [1]. В качестве примера рассмотрим последовательность символов, имитирующую речевой сигнал. Каждый символ соответствует некоторому звуку, который может быть либо одним из трех согласных (b, d, g), либо одним из трех гласных (a, i, u). Последовательность организована таким образом, что согласные звуки появляются в ней случайным образом, однако, после каждой согласной следует цепочка гласных, чередующихся в соответствии с заранее заданным детерминированным законом: ba, dii, guu. Задача RNN заключается в предсказании последующих входов на основе предыдущих. После обучения сеть запускается на предсказание символов некоторой тестовой последовательности, сформированной по тому же закону. Далее, после нескольких «прогонов» тестовой последовательности анализируется график среднеквадратичной ошибки предсказания символов, который обнаруживает следующий интересный шейп (рис.2). Ошибка предсказания резко снижается на гласных, что вполне логично, поскольку их очередность подчинена детерминированному закону, и скачкообразно возрастает на согласных, что также логично, поскольку они расположены случайным образом и их корректное предсказание невозможно. Таким образом, график среднеквадратичной ошибки показывает, что RNN научилась «узнавать» темпоральную структуру последовательности данных.

Другой пример иллюстрирует способности RNN к более сложным темпоральным обобщениям, связанным с предсказанием букв в словах. Слова в последовательности появляются случайно, а чередование букв внутри слова также подчинено неслучайному детерминированному закону.

Рис. 3. График среднеквадратической ошибки в задаче предсказания букв в слове

График ошибки предсказания, полученный аналогичным образом, обнаруживает, что в начале каждого нового слова ошибка предсказания символа скачкообразно возрастает, однако по мере приближения к концу слова она постепенно падает. Оба примера демонстрируют, что на основе анализа графика среднеквадратичной ошибки можно получить информацию касательно имеющихся во входных данных темпоральных образов, составленных из символов, чередующихся по неслучайному закону. Тем самым сеть развивает способность к обобщению темпорального концепта очередности.

Дальнейшие исследования по выявлению обобщающих свойств коннекционистских моделей обнаружили их способность к обобщению темпорального концепта продолжительности, что, вообще говоря, является совершенно неочевидным для моделей, не обладающих стековой памятью. Рассматривается пример обработки детерминированного контекстно-свободного языка, включающего строки из двух символов (aⁿbⁿ) [4]. Сеть, так же, как и в ранее рассмотренных примерах, обучается предсказанию последующих символов на основе предыдущих. Задача заключается в том, чтобы сеть после поступления на ее вход произвольного числа n символов «а», и одного символа «b», смогла корректно предсказать в последующем поступление ровно n-1 символов «b». Фактически, речь идет о решении задачи счета сетевой моделью, не обладающей стековой памятью.

Ниже приведен пример обучающей строки для задачи счета.

Коннекционистские модели представления темпоральных знаний.

Выбранная архитектура модели представляет собой RNN с двумя входными нейронами, двумя скрытыми, двумя копирующими, двумя выходными нейронами и одним нейроном смещения (рис.4).

Так как выходы RNN не являются строго двоичными, для преобразования их в двоичную форму вводится пороговое значение 0.5. Входные символы «а» и «b» кодируются парами бинарных значений [1 0] и [0 1] соответственно.

В каждый момент времени на вход сети подаются значения нейрона смещения, а также значения входных и копирующих нейронов. В этот же момент вычисляются значения активации скрытых и выходных нейронов, и значения скрытых нейронов переписываются в копирующие нейроны. Таким образом, в последующем такте копирующие нейроны подают на вход сети значения скрытых нейронов, задержанные на один такт.

Эксперименты с RNN с контекстными нейронами подтвердили их способность к решению задач счета.

Серия проведенных экспериментов по обучению RNN с контекстным слоем предсказанию очередности событий в темпоральных данных и их продолжительности позволяет сделать ряд важных выводов относительно принципиальных возможностей использования коннекционистских моделей в задачах темпорального обобщения и выявления темпоральных знаний:

Рис. 4. Рекуррентная нейронная сеть в задаче счета

1) Рекуррентная нейронная сеть, не обладая внутренней памятью, оказывается способной неявно выработать внутреннее представление времени за счет наличия в сети контекстного слоя и обратной связи;
2) график ошибки предсказания RNN является показателем наличия темпоральной структуры во входных данных и может быть использован для определения границ, извлекаемых из них темпоральных образов.

Коннекционистские темпоральные модели и динамические системы Строгое обоснование способностей коннекционистских моделей к осуществлению темпоральных обобщений и извлечению темпоральных знаний базируется на анализе сетевой модели с привлечением концептов теории нелинейных динамических систем.

Рекуррентная нейронная сеть может быть охарактеризована как дискретная динамическая система, на вход которой в каждый из дискретных моментов времени подается вектор входных величин, вектор копируемых значений, смещение, и все это далее поступает на входы сигмоидальных функций активации скрытых нейронов (рис.5).

При фиксированных весах и константных входных значениях в течение нескольких тактов, что имеет место в задаче счета, значения активаций двух скрытых нейронов h₁, h₂ являются переменными состояниями в фазовом пространстве значений функций активаций [0,1][0,1]. Для рассматриваемого примера точка на диаграмме фазового пространства определяется парой значений активаций скрытых нейронов h₁, h₂, а вектор «течения» поля дает качественное описание изменения выходов нейронов во времени. Для различных входных данных «а» и «b», очевидно, будут разными фазовые траектории Fa и Fb. Графический анализ фазовых траекторий предоставляет качественное описание сетевой динамики, на основе которого возможно строгое обоснование способности сети к темпоральным обобщениям, а также разработка общего критерия для оценки качества вырабатываемых сетью решений. В частности, для рассмотренной ранее задачи счета на основе анализа фазовых траекторий можно показать, как функционально происходит копирование величины количества символов «а» в сети. Фазовые траектории успешно обученной сети на решение задачи счета представлены на рис. 6.

Фазовое пространство разрезано почти вертикальной линией на две части таким образом, что фазовая траектория Fa, описывающая поведение системы для входных значений «а» лежит по левую сторону, а траектория Fb, описывающая реакцию системы на входы b, находится по правую сторону. Траектория Fa характеризует колебательный процесс, сходящийся в точке притяжения X1, а траектория Fb характеризует расходящийся процесс с точкой отталкивания X2.

Аттракторы притяжения и отталкивания расположены таким образом, что после поступления на вход сети последнего символа «а» и прихода нового символа «b» системная траектория совершает переход через разделительную линию в противоположную область фазового пространства, чем обеспечивается правильное предсказание появления последнего символа в строке. Кроме того, важным критерием корректного счета является то, что степень стягивания Fa вокруг притягивающей точки и степень расширения для Fb вокруг отталкивающей точки должны быть обратно пропорциональны друг другу, что проверяется путем сравнения соответствующих характеристических чисел динамических систем.

Рис. 5. Рекуррентная нейронная сеть как динамическая система

Сопоставление коннекционистских моделей и динамических систем показывает, что успешно обученная RNN может использовать области в пространстве скрытых нейронов и переходы между этими областями для имитации состояний конечного автомата. Это объясняет феномен корректной темпоральной обработки данных сетевыми моделями, не обладающими стековой памятью. Имитация динамической памяти реализуется путем соответствующего координирования траекторий в фазовом пространстве значений активаций скрытых нейронов сети. Причем число таких состояний может быть сколь угодно большим за счет большого разнообразия межэлементных связей и значений весовых коэффициентов сети.

Рис. 6. Фазовые траектории RNN для задачи счета

Показать весь текст

Заполнить форму текущей работой