Разработка методов и пакета прикладных программ для формирования и обучения нейронных сетей, использующих однонаправленную и полносвязную архитектуру

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Г. Е. П. Боксом и Г. М. Дженкинсом. С тех пор построение подобных моделей и получение на их основе прогнозов называются методами Бокса-Дженкинса. Самым известным и используемым алгоритмом из них является ARIMA. Он встроен практически в любой специализированный пакет для прогнозирования. В классическом варианте ARIMA не используются независимые переменные. Модели опираются только на информацию… Читать ещё >

Содержание

Глава 1. Исследование существующих моделей НС
- 1. 1. Обзор основных подходов к моделированию НС
- 1. 2. Исследование основных параметров НС
- 1. 3. Однонаправленные многослойные НС
- 1. 4. Исследование градиентных алгоритмов обучения однонаправленных и полносвязных НС
- 1. 5. Анализ коэффициентов обучения
- 1. 6. Исследование эвристических методов обучения НС
- 1. 7. Сравнение эффективности алгоритмов обучения
- 1. 8. Выводы
Глава 2. Многослойная однонаправленная НС
- 2. 1. Основные типы задач, решаемые многослойными однонаправленными НС
- 2. 2. Многослойная однонаправленная НС с линейной активационной функцией
- 2. 3. Многослойная однонаправленная НС с нелинейными активационными функциями
- 2. 4. Алгоритм обучения НС по методу обратного распространения ошибки и возможность его оптимизации
- 2. 5. Выводы
Глава 3. Разработка программного комплекса для тестирования эффективности методов формирования и обучения однонаправленных НС
- 3. 1. Описание структуры программного комплекса
- 3. 2. Классы обработки данных
- 3. 3. Класс формирования и обучения НС
- 3. 4. Классы управления процессом обучения НС
- 3. 5. Выводы
Глава 4. Результаты экспериментальной части исследования
- 4. 1. Основа экспериментальной работы
- 4. 2. Проведение экспериментальной части исследования для задач прогнозирования
- 4. 3. Проведение экспериментальной части исследования для задач распознавания
- 4. 4. Вопрос практического применения разработанного программного комплекса
- 4. 5. Выводы

Разработка методов и пакета прикладных программ для формирования и обучения нейронных сетей, использующих однонаправленную и полносвязную архитектуру (реферат, курсовая, диплом, контрольная)

Поиски и изучение неявных алгоритмов, позволяющих автоматически накапливать и затем использовать опыт при обучении, продолжаются уже более 100 лет. Однако первые серьезные попытки создания нейронных сетей были сделаны в 40—50-х годах XX века, когда У. Маккаллок и У. Питтс выдвинули основное положение теории работы головного мозга [9]. В дальнейшем их идеи блестяще развил Ф. Розенблатт, который сформулировал основные принципы нейродинамики [99]. А в последние годы, в связи с появлением относительно дешевой компьютерной техники, произошла своего рода революция в мире вычислительной математики и кибернетики, приведшая к формированию новой науки — нейроинформатики [21].

В настоящее время в различных областях человеческой деятельности накоплено огромное количество информации о различных материальных и нематериальных сущностях, их свойствах, поведении и связях. Работа любого исследователя с набором понятий и сущностей всегда строится на использовании классификаций, причем от удобства и качества классификации во многом зависит эффективность ее применения.

При наличии определенного правила алгоритм классификации представляет собой простейшую процедуру причисления объекта к тому классу, номер которого указан данным правилом. При отсутствии определенных правил для получения классификации требуется разработать специальный алгоритм. Очевидно, что алгоритмов может быть много, в зависимости от того, что понимается под характеристиками взаимного расположения классов.

В 60-х годах XX века внутри прикладной статистики достаточно четко оформилась область, посвященная методам классификации. В теории классификации [10] можно выделить три раздела: кластеризация (кластер-анализ) [58], группировка и дискриминация (дискриминантный анализ) [45].

Кластерный анализ предназначен для того, чтобы сгруппировать элементы в однородные группы (кластеры). Эта однородность определяется на основании признаков (факторов), которые включаются в качестве параметров кластерного анализа. Число групп заранее неизвестно. Нет результативного признака или зависимой переменной [58].

Дискриминантный анализ действует несколько иначе. Рассматривается некоторая «зависимая» переменная, определяющая мнение эксперта относительно предстоящей группировки. Далее определяются линейные классификационные модели, которые позволяют «предсказать» поведение новых элементов в терминах зависимой переменной на основании измерения ряда независимых переменных (факторов, показателей), которыми они характеризуются.

В дискриминантном анализе классы предполагаются заданнымиплотностями вероятностей или обучающими выборками. Задача состоит в том, чтобы вновь поступающий объект отнести в один из этих классов. У понятия «дискриминация» имеется много синонимов: диагностика, распознавание образов с учителем, автоматическая классификация с учителем, статистическая классификация.

При группировке, наоборот, мы хотим разбить элементы на группы независимо от того, естественны ли границы разбиения или нет [32]. Цель по-прежнему состоит в выявлении групп однородных объектов, сходных между собой (как в кластер-анализе), однако «соседние» группы могут не иметь резких различий (в отличие от кластер-анализа). Границы между группами условны, не являются естественными, зависят от субъективизма исследователя.

Построение и оценка классификаций являются хорошо известными задачами искусственного интеллекта и на протяжении десятков лет остаются одними из наиболее интенсивно развивающихся его ветвей. Автоматическая обработка баз данных, извлечение знаний, интеллектуальный анализ данныхсмежные области знания, использующие методы естественно-языковых теорий [74], математической статистики и теории принятия решений [47] для задач классификации и диагностики.

Однако классификация не единственное направление, в котором могут использоваться системы искусственного интеллекта. Вторым, и, пожалуй, даже более интересным и перспективным направлением применения интеллектуальных систем, являются задачи регрессии или прогнозирования. Актуальность прогнозирования общеизвестна — разработка достоверных методов предвидения кризисов, направления развития общества, прогнозирования транспортных потоков позволяет экономить большие материальные ресурсы.

До недавнего времени (середины 80-х годов прошлого века) существовало несколько общепризнанных методов прогнозирования:

• эконометрические;

• множественной регрессии;

• методы Бокса-Дженкинса (ARIMA, ARMA).

Эконометрические прогнозные исследования [48], начало которым было положено в конце 20-х годов, к 70-м годам образовали самостоятельное научное направление в мировой экономической науке. И у нас в стране, и за рубежом тысячи научных коллективов, отдельных исследователей в научных центрах, университетах и институтах, государственных учреждениях и частных компаниях занимаются разработкой и использованием эконометрических моделей и методов для решения многих проблем.

Наиболее ранние эконометрические исследования проводились норвежским экономистом Р. Фришем [88]. В дальнейшем это направление стало использоваться для прогнозирования самого широкого круга процессов в области политики, научно-технического прогресса, производительности труда, финансов и цен, спроса и потребления на различный период. Особенно возросло значение эконометрических прогнозов с развитием государственного регулирования и связанной с этим необходимостью разработки инструментария для анализа эффективности экономической политики.

Бурное развитие эконометрики в некоторой степени обусловлено относительной ясностью и определенностью принципов разработки прогнозов на базе эконометрических моделей и методов. Использование прогнозных разработок эконометрических моделей так или иначе основано на предположении о сохранении в будущем основных причинно-следственных отношений между характеристиками исследуемого процесса и влияющими на них факторами, которые имели место на протяжении некоторого периода времени в прошлом и настоящем.

Метод множественной регрессии состоит в формировании зависимости между прогнозируемой переменной Y и отобранным заранее комплектом независимых переменных — Xl, X2,., XN. Природа независимых переменных может быть различной. Например, если предположить, что Y — уровень спроса на некоторый продукт в следующем месяце, то независимыми переменными могут быть уровень спроса на этот же продукт в прошлый и позапрошлый месяцы, затраты на рекламу, уровень платежеспособности населения, экономическая обстановка, деятельность конкурентов и многое другое [35]. Модель множественной регрессии в общем случае описывается выражением.

Г = Г (Х1гХ2,., Х") + е. (1.1).

В более простом варианте линейной регрессии модель имеет вид:

Y = Л, + ДX, + р2Х2 +. + pNXN + г (j 2).

Здесь po, pvp2,., pN — подбираемые коэффициенты регрессии, екомпонента ошибки. Предполагается, что все ошибки независимы и нормально распределены. С помощью таблицы значений прошлых наблюдений можно подобрать (например, методом наименьших квадратов) коэффициенты регрессии рп, настроив тем самым модель.

Но уже в середине 90-х годов прошлого века был разработан принципиально новый и достаточно мощный класс алгоритмов для прогнозирования временных рядов. Большая часть работы по исследованию методологии и проверке моделей была проведена двумя статистиками,.

Г. Е. П. Боксом и Г. М. Дженкинсом [11]. С тех пор построение подобных моделей и получение на их основе прогнозов называются методами Бокса-Дженкинса. Самым известным и используемым алгоритмом из них является ARIMA. Он встроен практически в любой специализированный пакет для прогнозирования. В классическом варианте ARIMA не используются независимые переменные. Модели опираются только на информацию, содержащуюся в предыстории прогнозируемых рядов, что ограничивает возможности алгоритма. В настоящее время в научной литературе часто упоминаются варианты моделей ARIMA, позволяющие учитывать независимые переменные. В отличие от рассмотренных ранее методик прогнозирования временных рядов, в методологии ARIMA не предполагается какой-либо четкой модели для прогнозирования данной временной серии. Задается лишь общий класс моделей, описывающих временной ряд и позволяющих как-то выражать текущее значение переменной через ее предыдущие значения. Затем алгоритм, подстраивая внутренние параметры, сам выбирает наиболее подходящую модель прогнозирования [85].

Однако, начиная с конца 80-х годов прошлого века, в научной литературе [82, 83, 92, 100] появились публикации по нейросетевой тематике, в которых был приведен эффективный алгоритм обучения нейронных сетей (НС) и доказана возможность их использования для самого широкого круга задач прогнозирования и распознавания.

Эти публикации породили интерес к НС в научном сообществе и последние очень скоро стали широко использоваться при исследованиях в самых разных областях науки от экспериментальной физики и химии до экономики и транспорта.

Отчасти из-за относительной сложности и недетерминированности НС и генетических алгоритмов эти технологии не сразу вышли за рамки чисто научного применения. Тем не менее с течением времени уровень доверия к новым технологиям повышался и со стороны бизнеса. С начала 90-х годов начали регулярно появляться сообщения об установках нейросетевых систем в разных компаниях, банках, корпоративных институтах. Причем сфера использования новых технологий очень многогранна — оценка рисков, контроль технологических процессов, управление роботами, диспетчерское управление, диагностика и многое другое.

Большой вклад в разработку НС и методов их обучения внесли: Дж. фон Нейман, Ф. Розенблатт, Ф. Уоссермен, Т. Кохонен, Б. Видроу, Б. Хофф, У. Маккаллок, У. Питтс, С. Гроссберг, Дж. Андерсон, Дж. Хопфилд, Д. Уилшоу, В. J1. Дунин-Барковский, С. Амари, А. А. Фролов, А. И. Галушкин, А. Б. Барский, А. Н. Горбань, А. А. Веденов.

Цель и задачи исследования

Целью диссертационного исследования является разработка методов и пакета прикладных программ для формирования и обучения однонаправленных и полносвязных НС.

В диссертационной работе реализуется следующая последовательность решения задач:

1. Анализ существующих НС и методов их обучения. Сравнение вычислительной сложности и применимости существующих моделей НС в задачах различной природы.

2. Анализ существующих методов формирования НС. Разработка методов решения задачи выбора конфигурации НС.

3. Оценка эффективности существующих алгоритмов обучения и разработка методов ускорения процесса обучения.

4. Разработка программного обеспечения, реализующего моделирование однонаправленных и полносвязных НС с широкими возможностями управления и протоколированием процесса обучения.

5. Сбор и анализ статистики, полученной в процессе моделирования НС. Объектом исследования выступает однонаправленная и полносвязная НС. Предметом исследования является математическое, алгоритмическое и программное обеспечение процесса формирования, обучения и применения НС в задачах распознавания и прогнозирования.

Методологической основой исследования явилось использование методов системного анализа, теории вероятности, дискриминантного анализа, теории НС, градиентных и эвристических методов обучения НС, методов технического анализа на финансовых рынках, методов аппроксимации и сглаживания, методов объектно-ориентированного программирования.

Достоверность основных научных положений, выводов и рекомендаций, сформулированных в диссертации, подтверждается проведенными вычислительными экспериментами. Объем проведенных вычислений составил около 5500 часов машинного времени, в вычислениях было задействовано 5 персональных компьютеров (ПК). Были сформированы, обучены и протестированы 7000 моделей однонаправленных и полносвязных НС. Проанализирована их работа. На разработанный программный комплекс было получено свидетельство о государственной регистрации программы ЭВМ. Часть исходного кода включена в приложение. Научная новизна.

1. Разработан метод формирования весовых коэффициентов для НС с линейной активационной функцией.

2. Дано теоретическое обоснование достаточности двухслойной НС для решения практических задач. Достаточность двухслойной НС также была подтверждена экспериментальными данными.

3. Разработан метод определения максимального необходимого размера первого скрытого слоя для двухслойной НС. Представлено теоретическое доказательство данного метода, кроме того, данный метод подтвержден в ходе проведенных вычислительных экспериментов.

4. Разработана методика обучения НС, позволяющая сократить время ее обучения, перейти от минимизации целевой функции в виде суммы квадратов ошибок обучения к минимизации максимальной ошибки.

5. Предложен метод оптимизации процесса обучения НС с несколькими выходными нейронами. Практическая ценность. Разработано программное обеспечение, которое позволяет проводить формирование, обучение и тестирование эффективности работы однонаправленных и полносвязных НС. Разработанное программное обеспечение позволяет выполнять автоматический подбора оптимальных параметров конфигурации и обучения однонаправленных и полносвязных НС, в задачах распознавания и прогнозирования.

Разработана методика обучения НС с линейной активационной функцией.

Разработана методика оптимизации процесса обучения НС. Реализация результатов работы. Результаты диссертационной работы нашли применение в страховой компании «Макс» при построении экспертной системы учета заявленных убытков по договорам страхования.

Результаты исследований, проведенных в ходе работы над диссертацией, используются в учебном процессе на кафедре «Математическое обеспечение автоматизированных систем управления» (МО АСУ) МИИТа, в частности в лекционном курсе по дисциплине «Нейронные сети».

Результаты внедрения подтверждены соответствующими актами. Апробация работы. Материалы диссертации обсуждались на заседаниях кафедры МО АСУ МИИТа (в 2005;2006 гг.), научных межкафедральных семинарах (2006), IV международной научной конференции студентов и аспирантов «Trans-Mech-Art-Chem», Москва, 2006 г., в лаборатории «Распределенные информационно-аналитические и управляющие системы» Института Проблем Управления РАН (2006), в лаборатории «Информатизация и информационная безопасность» Института Системного Анализа РАН (2006). Публикации. По теме диссертации опубликовано семь печатных работ.

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы (107 наименований), 3 приложений, содержит 159 страниц основного текста, 46 рисунков и 1 таблицу.

4.5. Выводы.

Анализ данных, полученных в ходе тестирования (формирования обучения и применения) НС, обучающихся по алгоритму обратного распространения ошибки, позволил установить, что:

• двухслойная НС может использоваться столь же эффективно, как и многослойная НС, как в задачах распознавания, так и в задачах прогнозирования, что было подтверждено проведенным экспериментальным моделированием;

• использование двухслойной НС в задачах прогнозирования и распознавания позволяет значительно экономить время на переборе различных конфигураций многослойных НС, что также подтверждается проведенными экспериментами;

• оптимальный размер первого скрытого слоя двухслойной НС, необходимой для решения поставленной задачи, находится на диапазоне, максимальные значения которого ограниченны значениями, вычисляемыми по формуле (2.24), что подтверждено экспериментально;

• НС с несколькими выходами можно разбить на несколько НС с одним выходом, однако эффективность применения подобного разделения проявляется только при использовании нескольких ЭВМ для вычислений, в противном случае время обучения не уменьшится, качественные изменения подобного разбиения, заключающиеся в увеличении достоверности ответов НС, проявляются только в задачах прогнозирования, что установлено экспериментально;

• используя модифицированный, в соответствии с формулой (2.40), алгоритм обучения по методу обратного распространения ошибки, можно сократить время, необходимое на обучение НС, а так же повысить эффективность работы НС, что установлено экспериментально;

• при сложных исходных данных необходима значительная предварительная подготовка этих данных для подачи в НС, в противном случае эффективность распознавания и прогнозирования будет низкой;

• достоверность прогнозов НС уменьшается с увеличением срока прогноза. Проведенные эксперименты подтверждают высокую эффективность и работоспособность разработанного программного комплекса, систем управления и протоколирования процесса обучения НС.

В конце главы выдвинуты предложения по применению НС и разработанных методов обучения и формирования НС, а так же реализованного программного комплекса для задач:

• диспетчерского управления;

• диагностики технических устройств;

• внедрения в учебный процесс;

• бизнес приложения.

Заключение

Проведенные в работе исследования позволили получить следующие результаты.

1. Разработан метод формирования весовых коэффициентов для нейронной сети с линейной активационной функцией, исключающий длительный процесс обучения.

2. Дано теоретическое обоснование достаточности двухслойной нейронной сети для решения практических задач. Достаточность двухслойной НС также была подтверждена в ходе проведения вычислительных экспериментов для задач прогнозирования и распознавания.

3. Разработана методика выбора максимального необходимого размера первого скрытого слоя для двухслойной НС с нелинейными активационными функциями. Разработанная методика была подтверждена в ходе проведенных вычислительных экспериментов для задач прогнозирования и распознавания.

4. Разработана методика оптимизации алгоритма обратного распространения ошибки для обучения НС с сигмоидальной активационной функцией, позволившая сократить время обучения на 20% и повысить качество прогнозирования на 4,5%, а качество распознавания на 7,5%.

5. Разработана методика по разделению НС для обучения на нескольких ЭВМ параллельно. Данная методика позволила сократить время, необходимое обучение НС на 27,5% и повысить эффективность работы НС в задачах прогнозирования на 7,5%, а в задачах распознавания на 1%.

6. Разработан программный комплекс позволяющий: о формировать и обучать многослойные НСо тестировать эффективность обучения НСо управлять процессом обучения НСо перебирать и тестировать НС в задачах распознавания и прогнозированияо подбирать оптимальные параметры НС под конкретную задачу в автоматическом режиме.

Показать весь текст

Список литературы

Азимов А. Человеческий мозг: От аксона до нейрона. -М.: Центрполиграф, 2005.-461 с.
Адамчук В.В., Варна Т. П., Воротникова В. В. Эргономика: Учебное пособие для вузов. М.: ЮНИТИ-ДАНА, 1999. — 254 с.
Алексеев Е. Р., Чеснокова О. В. Решение задач вычислительной математики в пакетах Mathcad 12, MATLAB 7, Maple 9. М.: НТ Пресс, 2006.-496 с.
Алексеенко Н. Ю. Мозг. Пер. с англ. под ред. и с предисл. П. В. Симонова. -М.: Мир, 1982. — 280 с.
Арсеньев Ю. Н., Шелобаев С. И., Давыдова Т. Ю. Принятие решений. Интегрированные интеллектуальные системы. -М.: Юнити, 2003. -270 с.
Барский А. Б. Логические нейронные сети: методика построения и некоторые применения. //Приложение к журналу информационные технологии № 8,2006
Барский А. Б. Нейронные сети: распознавание, управление, принятие решений. М.: Финансы и статистика, 2004. — 174 с.
Березин С. А. Разработка методов диагностики и контроля параметров устройств железнодорожной автоматики и телемеханики с использованием теории самоорганизации. Диссертация. М., 2003. -155 с.
Беркенблит М. Б. Нейронные сети. -М.: Мирос и ВЗМИ1 РАО, 1993.
Богомолов С.Д., Киселев С. В., Медведев А. П., Назаров В. М. Применение искусственных нейронных сетей для прогнозирования в хирургии. Н. Новгород: Государственная медицинская академия, 2003.-210 с.
Дж. Бокс, Г. Дженкинс. Анализ временных рядов. Выпуск 1. Прогноз и управление. М.: Мир, 1974. — 280 с.
Борисов А.Н., Крумберг О. А., Федоров И. П. Принятие решений на основе нечетких моделей. Примеры использования. Рига: Зинатне, 1990.-184 с.
Г. Буч, Обьекто ориентированный анализ и проектирование. С примерами приложений на С++. 2-е изд. Пер. с англ. — М.: Издательство Бином. — СПб.: Невский диалект, 1999. — 560 с.
Варламов О.О. Эволюционные базы данных и знаний для адаптивного синтеза интеллектуальных систем. Миварное информационное пространство. М.: Радио и связь, 2002. — 288 с.
Вдовин А.Н. Центры управления перевозками. / Конференция «Системы безопасности на транспорте» Пшибрам, 2005.
Воронин Ю. А. Введение в теорию классификаций. Новосибирск. ВЦ СО АН СССР, 1983.- 194с.
Галушкин А. И. Нейро компьютеры и их применение на рубеже тысячелетий в Китае т. 1. М.: Горячая линия — Телеком, 2004. — 368 с.
Галушкин А. И., Нейро компьютеры и их применение на рубеже тысячелетий в Китае т. 2. М: Горячая линия — Телеком, 2004. — 462 с.
Гильберт Д., БернайсП. Основания математики. Логические исчисления и формализация арифметики. М.: Наука, 1982. — 560 с.
Горбань А. Н., Дунин-Барковский В. Л., Кирдин А. Н., Миркес Е. М., Новоходько А. Ю., Россиев Д. А., Терехов С. А., Сенашова М. Ю., Царегородцев В. Г. Нейроинформатика.-Н.: Наука. Сибирское предприятие РАН, 1997.-296 с.
Горбань А. Н. Методы нейроинформатики. / Сборник научных трудов, Красноярск: КГТУ, 1998.-205 с.

Заполнить форму текущей работой