Множественная линейная регрессия
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО-СТРОИТЕЛЬНЫЙ УНИВЕРСИТЕТ (СИБСТРИН) Кафедра прикладной математики Индивидуальное задание По дисциплине «Математическое моделирование». На втором шаге в модель попеременно добавляются переменныеx1 и x3. Для этих уравнений рассчитываются коэффициенты уравнения (рисунок 7), коэффициенты детерминации… Читать ещё >
Множественная линейная регрессия (реферат, курсовая, диплом, контрольная)
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ АРХИТЕКТУРНО-СТРОИТЕЛЬНЫЙ УНИВЕРСИТЕТ (СИБСТРИН) Кафедра прикладной математики Индивидуальное задание По дисциплине «Математическое моделирование»
Тема: «Множественная линейная регрессия«
Студент: Филиппов А.В.
Специальность «Экспертиза, оценка и управление недвижимостью»
группа 115-маг-з Руководитель работы: Воскобойников Ю.Е.
Новосибирск 2013
Исходные данные
регрессия дисперсия детерминация интервал Имеются следующие данные о потреблении некоторого продукта У (в условных единицах). В зависимости от уровня урбанизации (доли городского населения) — переменная X1, относительного образовательного уровня — X2, относительного заработка — переменная X3, для девяти географических районов.
Конкретные значения представлены в таблице 1.
Таблица 1.
Номер района | xi1 | xi2 | xi3 | yi | |
42,2 | 11,2 | 31,9 | |||
48,6 | 10,6 | 13,2 | |||
42,6 | 10,6 | 28,7 | |||
10,4 | 26,1 | ||||
34,7 | 9,3 | 30,1 | |||
44,5 | 10,8 | 8,5 | |||
39,1 | 10,7 | 24,3 | |||
40,1 | 18,6 | ||||
45,9 | 20,4 | ||||
Решение
1. Для данного задания может быть построена линейная множественная регрессия вида:
Y=в0+в1xi1+ в2xi2+ в3xi3+еi, (1)
где в0, в1, в2, в3 — коэффициенты регрессионной модели, е — возмущение; i — 1,2…9.
Тогда оценка для данной регрессии имеет вид:
y=b0+b1x1+ b2x2+ b3x3, (2)
где b0, b1, b2, b3 — коэффициенты уравнения регрессии.
Введем матричные обозначения и матричные вычисления, тогда справедливы следующие формулы
(3)
(4)
(5)
Коэффициенты уравнения множественной регрессии находятся по формуле:
b=(XT*X)-1*(XT*y), (6)
Решение представлено на рисунке 1.
Рисунок 1 — Расчет коэффициентов линейной множественной регрессии Таким образом уравнение регрессии имеет вид:
y=-241.085+1,14xi1+ 33.422xi2+ 0.373xi3,
где i = 1,2 …9.
2. Для определения дисперсий найденных коэффициентов уравнения регрессии нужно рассчитать оценку дисперсии случайной составляющей s2:
(7)
где nобъем выработки (n=9), m-число оцениваемых параметров (m=k+1=4), ei-невязка i-го измерения.
ei=yi— yi, (8)
Тогда оценка дисперсии коэффициента уравнения регрессии bj, рассчитывается по формуле:
(9)
где — j-й диагональный элемент матрицы .
Отсюда следует, что коэффициент bjзначим (принимается гипотеза H1: bj?0), если выполняется условие:
|Tbj|=|| >t (1-б, n-m),
где m — количество коэффициентов регрессии, б — уровень значимости (0,05).
Решение представлено на рисунке 2.
Рисунок 2 — Расчет дисперсий коэффициентов уравнения регрессии и проверка их значимости.
Как видно из расчетов, неравенство значимости коэффициента не выполняется для всех коэффициентов (x1, x2, x3,x4).
3. Коэффициент детерминации рассчитывается по формуле:
(10)
где (yi— yi)2 — вектор, состоящий из квадратов невязки можно взять из предыдущего расчета, yср — вектор размерности n=9, составленный из средних значений.
Если известен коэффициент детерминации, то скорректированный коэффициент детерминации:
(11)
Расчет представлен на рисунке 3.
Рисунок 3 — Расчет коэффициента детерминации, скорректированного коэффициента детерминации и значение коэффициента F.
(12)
то есть уравнение множественной регрессии статистически не значимо (гипотеза H0).
4. 95%-ный доверительный интервал для коэффициентов вj:
(13)
Результаты представлены на рисунке 4.
Рисунок 4 — Интервальная оценка коэффициентов уравнения регрессии.
Интервалы:
для в0 — [-724,179; 242,009];
для в1 — [-12.37;14.649];
для в2 — [-27,043; 93.886];
для в3 — [-4,899; 5.645].
5. Доверительный интервал для f (x) = M (Y/x):
(14)
где Sy(x) рассчитывается по формуле:
(15)
гдевектор, координаты которого определяют значения объясняющих переменных, при которых вычисляется значение регрессии y. Расчет представлен на рисунке 5 (ун — нижняя граница, ув — верхняя граница).
Рисунок 5 — Доверительный интервал для f (x) = M (Y/x).
6. Рассматриваемая классическая модель множественной линейной регрессии в данном случае не отражает в должной мере количественную зависимость между экономическими явлениями. Построенное уравнение регрессии с помощью существующих независимых переменных объясняет изменение зависимой переменной на 53,7%, а в скорректированном виде — на 25,9%. Таким образом, получаем не значимость уравнения регрессии, и не значимость всех коэффициентов, что может быть вызвано недостатком объясняющих переменных и мультиколлинеарностью (стохастической) — наличием высокой взаимной коррелированности между объясняющими переменными.
7. Для исключения мультиколлинеарности и повышения точности построенной регрессионной модели проводим пошаговое введение наиболее информативных объясняющих моделей с построением корреляционной таблицы и расчетом обыкновенного и скорректированного коэффициентов детерминации для каждого шага. Расчет представлен на рисунке 6. На рисунке 7 представлен расчет коэффициентов детерминации на втором шаге.
Выбирается та переменная, которая больше другой коррелированна с у. В нашем случае это x2. Выбираем ее для того, чтобы в дальнейших расчетах получить большее значение скорректированного коэффициента детерминации чем в исходной модели. Для построенной модели рассчитываются обыкновенный и скорректированный коэффициенты детерминации. Причем для парной регрессии обыкновенный коэффициент детерминации равен квадрату соответствующего коэффициента корреляции.
Рисунок 6 — Отбор объясняющих переменных регрессионной модели.
Рисунок 7 — Построение регрессионной модели на шаге 2 отбора объясняющих переменных и расчет коэффициентов уравнения регрессии для новой модели.
8. На втором шаге в модель попеременно добавляются переменныеx1 и x3. Для этих уравнений рассчитываются коэффициенты уравнения (рисунок 7), коэффициенты детерминации, скорректированные коэффициенты детерминации, F-критерии.
Оценивая найденные значения можно сказать, что введение дополнительных переменных на втором шаге снижает значение коэффициента детерминации и уравнение регрессии становится статически не значимо.
Расчет всех необходимых параметров для уравнения регрессии с переменной x2 приведен на рисунке 8.
Рисунок 8 — Расчет параметров уравнения парной регрессии Согласно расчета, только второй коэффициент уравнения регрессии является значимыми, как и само уравнение регрессии. Произведены расчеты для определения доверительных интервалов вjи доверительного интервала f (x) = M (Y/x).
9. Скорректированный коэффициент детерминации для второго уравнения больше, чем для первого, что говорит о большей адекватности второго варианта, предпочтительность второй регрессии можно доказать и через F-критерий.
То есть неравенство выполняется, можно сделать вывод о значимости построенного уравнения регрессии, следовательно, исследуемая зависимость у достаточно хорошо описывается включенной в регрессионную модель переменной x1. В первой же модели это условие не выполняется, поэтому первое регрессионное уравнение незначимо.
10. Прогноз с использованием второго уравнения регрессии:
при x1=34 x2=10,3 x3=26,2.
y=37,1xi1, = 382,13.
Рисунок 9 -Построение интервальной оценки для M (Y/x).
Общий вывод
Классическая линейная модель в рамках множественного регрессионного анализа не всегда адекватно и точно отражает зависимость между переменными. В случае наличия мультиколлинеарности, недостатка или переизбытка объясняющих переменных, попадая в уравнение регрессии случайной составляющей, применяют специальные методы выявления и устранения проблем. В итоге с упором на принцип наименьшей сложности и высокой информативности может быть построена эффективная регрессионная модель.