Множественный регрессионный анализ качества учебно-познавательной деятельности
Задание 1. На основании данных табл. 1 требуется построить модель зависимости семестровой успеваемости одного студента y от его посещения лекционных занятий x1 (%), внимательности x2 (%) и стремления к приобретению знаний x3 (%) в виде полинома Вариант №.2: Значение из таблицы уменьшается на (2/50), т. е. на 0,04. Вывод результатов множественного регрессионного анализа и их интерпретация Выбрать… Читать ещё >
Множественный регрессионный анализ качества учебно-познавательной деятельности (реферат, курсовая, диплом, контрольная)
УКРАИНСКАЯ ИНЖЕНЕРНО-ПЕДАГОГИЧЕСКАЯ АКАДЕМИЯ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ УКРАИНЫ Кафедра информатики и компьютерных технологий Модульное задание № 2.5
по дисциплине: Основы научных исследований на тему: «Множественный регрессионный анализ качества учебно-познавательной деятельности»
Харьков 2007 г
Задание 1. На основании данных табл. 1 требуется построить модель зависимости семестровой успеваемости одного студента y от его посещения лекционных занятий x1 (%), внимательности x2 (%) и стремления к приобретению знаний x3 (%) в виде полинома Вариант №.2: Значение из таблицы уменьшается на (2/50), т. е. на 0,04.
Таблица 1.
Данные по 15 студентам ВУЗа
№ студента | Значение | Значение | Значение | Значение | |
3,36 | 49,96 | 49,96 | 2,96 | ||
4,56 | 91,96 | 82,96 | 5,96 | ||
3,36 | 49,96 | 49,96 | 2,96 | ||
3,76 | 66,96 | 66,96 | 3,96 | ||
3,76 | 66,96 | 66,96 | 3,96 | ||
2,76 | 32,96 | 16,96 | 1,96 | ||
4,76 | 99,96 | 99,96 | 5,96 | ||
2,96 | 41,96 | 32,96 | 1,96 | ||
3,76 | 66,96 | 66,96 | 3,96 | ||
2,86 | 41,96 | 32,96 | 1,96 | ||
3,96 | 74,96 | 82,96 | 4,96 | ||
2,66 | 32,96 | 16,96 | 0,96 | ||
4,16 | 74,96 | 82,96 | 4,96 | ||
4,36 | 82,96 | 82,96 | 4,96 | ||
4,36 | 82,96 | 82,96 | 4,96 | ||
Ход работы:
Задача решается в два этапа:
1. Построение корреляционного поля (диаграмм рассеяния пар переменных (,), (,) и (,)).
2. Вывод результатов множественного регрессионного анализа и их интерпретация.
— Построение корреляционного поля средствами пакета Statistica включает, в свою очередь, два основных этапа:
Создание таблицы исходных данных;
Построение двумерных диаграмм рассеяния.
Для построения таблицы исходных данных необходимо:
1. Выбрать в меню File команду New. Откроется окно Create new document
(Рис.1). С помощью счетчика выбрать нужное количество столбцов (Number of variables) и строк (Number of cases), в нашем случае соответственно 4 и 15. Нажать OK.
2. На экране появится окно для ввода исходных данных (Рис. 2).
3. Для обозначения столбцов, необходимо два раза щелкнуть левой кнопкой мыши в поле названия столбца. Появится окно (Рис. 3).
В этом окне в строке Name вводится имя первого столбца Успеваемость. В списке Display format выбрается формат данных General. Нажать ОК. Аналогично даются имена второму, третьему и четвертому столбцам, соответственно Посещение, Внимательность и Стремление.
4. Ввод числовых данных в столбцы полученной таблицы (Рис 4).
5. Для построения диаграмм рассеяния выбрать в меню Graphs команду Scatter plots. Откроется окно (Рис. 5).
Нажать кнопку. Откроется окно, в котором нужно выбрать необходимые и. В качестве выбирается Посещение, в качестве — Успеваемость. Получаем раскрытое окно (Рис. 6).
Нажать ОК. Окно Рис. 6 закроется. В окне Рис. 5 выбрать вкладку Advanced. В открывшемся окне (Рис. 7) из списка Fit выбрать режим Off.
Нажать ОК. Получим первую диаграмму рассеяния (Рис. 8).
Закрыть окно Рис. 8 без сохранения.
Затем необходимо построить диаграмму с линией регрессии. Для этого в меню Graphs выбираем команду Scatterplots. Откроется окно (Рис. 9).
Нажать кнопку. Откроется окно (Рис. 5). Нажать кнопку. В качестве нужно выбрать Посещение, в качестве — Успеваемость. Получим раскрытое окно (Рис. 6). Нажать ОК. Окно Рис. 6 закроется. В окне Рис. 5 выбрать вкладку Advanced. В открывшемся окне (Рис. 10) из списка Fit выбрать режим Linear.
Нажать ОК. Получим вторую диаграмму рассеяния с линией регрессии (Рис. 11).
Убедившись в присутствии линии регрессии, закрыть окно Рис. 11 без сохранения.
Аналогично строятся остальные диаграммы рассеяния. Для них в качестве нужно выбрать Успеваемость, в качестве для третьей и четвертой — Внимательность (для пятой и шестой — Стремление). Третья диаграмма рассеяния представлена на Рис. 12, четвертая — на Рис. 13, пятая — на Рис. 14, шестая — на Рис. 15.
— Вывод результатов множественного регрессионного анализа и их интерпретация Выбрать в меню Statistics команду Multiple Regression. Откроется окно множественного регрессионного анализа (Рис. 16). Нажать кнопку. В открывшемся окне выбрать показатель и факторы соответственно из первого и второго списков (Рис. 17).
Нажать ОК в окнах Рис. 17 и Рис. 16. Окно примет такой вид (Рис. 18).
Объяснения полученных результатов:
Dependent — имя показателя. В нашем случае — Успеваемость.
No. of cases — число случаев, по которым построена регрессия. В примере число равно 15.
Multiple R — коэффициент множественной корреляции (эта статистика полезна в множественной регрессии, когда нужно описать зависимости между переменными).
R? — квадрат коэффициента множественной корреляции, обычно называемый коэффициентом детерминации. Он показывает долю общего разброса (относительно выборочного среднего зависимых переменных), которая объясняется построенной регрессией.
Adjusted R? — скорректированный коэффициент детерминации.
Standard error of estimate — стандартная ошибка оценки. Является мерой рассеяния наблюдаемых значений относительно регрессионной прямой.
Intercept — оценка свободного члена регрессии. Значение коэффициента b0 в уравнении регрессии.
Std. Error — стандартная ошибка оценки свободного члена. Стандартная ошибка коэффициента b0 в уравнении регрессии.
t (df) and p-value — значение t-критерия и уровня p. t-критерий используется для проверки гипотезы о равенстве нулю свободного члена регрессии.
F — значение F-критерия (критерия Фишера).
df — число степеней свободы F-критерия.
p — уровень значимости.
В информационной части прежде всего смотрим на значение коэффициента детерминации. В нашем задании R? = 0,9897. Это значит, что построенная регрессия объясняет 98,97% разброса значений Успеваемости относительно среднего. Это хороший результат.
Далее смотрим на значение F-критерия и уровень его значимости p.
F-критерий используется для проверки значимости регрессии. В данном задании большое значение F-критерия = 354,0407 и даваемый в окне уровень значимости p=0,0 показывают, что построенная регрессия высоко значима.
Нажимаем на кнопку — краткие результаты регрессии. Появляется следующая электронная таблица с результатами анализа (Рис. 19).
В третьем столбце таблицы видно оценки неизвестных параметров модели:
a = 1,788 408;
b1 = 0,21 789;
b2 = 0,2 052;
b3 = 0,103 059.
Итак, искомая модель зависимости показателя от факторов имеет вид:
Успеваемость = 1, 788 408 + 0,21 789 * Посещение +
+ 0,2 052* Внимательность + 0,103 059 * Стремление Эта модель интерпретируется следующим образом: если при прочих равных условиях (= `ceteris paribus') переменная (посещение) увеличивается (уменьшается) на единицу, то согласно этой оценке переменная (успеваемость) увеличивается (уменьшается) на 0,21 789 единиц. В нашем случае это значит, что увеличение (уменьшение) посещения на 1% приведет, при прочих равных условиях, к увеличению (уменьшению) успеваемости на 0,21 789 балла.
Задание 2. На основании данных табл. 2 требуется построить модель зависимости выполнения домашних работ студентом (%) от проведенного в библиотеке количества часов (часы), качества дидактических материалов (0 — 50 баллов) и стремления достичь высоких результатов в учебе (%) в виде полинома Таблица 2.
Данные по 15 студентам ВУЗа
№ студента | Значение | Значение | Значение | Значение | |
множественный регрессионный диаграмма рассеяние Ход работы:
Строим корреляционное поле средствами пакета Statistica.
Аналогично заданию 1 выполняем последовательно те же действия, что и на Рис. 1−3.
Заполняем заголовки столбцов и числовые данные в соответствии с заданием (Рис. 20).
— После строим диаграмму рассеяния. В качестве выбирается Кол-во часов, проведённое в библиотеке, в качестве — Выполнение ДЗ студентом. Получаем раскрытое окно (Рис. 21).
В окне 2D Scatterplots выбираем вкладку Advanced. В открывшемся окне (Рис. 7) из списка Fit выбрать режим Off. Нажать ОК. Получим первую диаграмму рассеяния (Рис. 22).
Закрываем окно Рис. 22 без сохранения и затем переходим к построению диаграммы с линией регрессии (Рис. 23).
Аналогично строятся остальные диаграммы рассеяния. Для них в качестве нужно выбрать Выполнение ДЗ студентом, в качестве для третьей и четвертой — Качество дидактических материалов (для пятой и шестой — Стремление достичь высоких результатов). Третья диаграмма рассеяния представлена на Рис. 24, четвертая — на Рис. 25, пятая — на Рис. 26, шестая — на Рис. 27.
— Вывод результатов множественного регрессионного анализа и их интерпретация Выбрать в меню Statistics команду Multiple Regression. Откроется окно множественного регрессионного анализа (Рис. 28). Нажать кнопку. В открывшемся окне выбрать показатель и факторы соответственно из первого и второго списков (Рис. 29).
Нажать ОК в окнах Рис. 29 и Рис. 28. Окно примет такой вид (Рис. 30).
Объяснения полученных результатов:
Рис. 30
Dependent — имя показателя. В нашем случае — Выполнение ДЗ ст.
No. of cases — число случаев, по которым построена регрессия. В примере число равно 15.
Multiple R — коэффициент множественной корреляции (эта статистика полезна в множественной регрессии, когда нужно описать зависимости между переменными).
R? — квадрат коэффициента множественной корреляции, обычно называемый коэффициентом детерминации. Он показывает долю общего разброса (относительно выборочного среднего зависимых переменных), которая объясняется построенной регрессией.
Adjusted R? — скорректированный коэффициент детерминации.
Standard error of estimate — стандартная ошибка оценки. Является мерой рассеяния наблюдаемых значений относительно регрессионной прямой.
Intercept — оценка свободного члена регрессии. Значение коэффициента b0 в уравнении регрессии.
Std. Error — стандартная ошибка оценки свободного члена. Стандартная ошибка коэффициента b0 в уравнении регрессии.
t (df) and p-value — значение t-критерия и уровня p. t-критерий используется для проверки гипотезы о равенстве нулю свободного члена регрессии.
F — значение F-критерия (критерия Фишера).
df — число степеней свободы F-критерия.
p — уровень значимости.
В информационной части, прежде всего, смотрим на значение коэффициента детерминации. В нашем задании R? = 0,8279. Это значит, что построенная регрессия объясняет 82,79% разброса значений Выполнения ДЗ студентом относительно среднего. Это хороший результат.
Далее смотрим на значение F-критерия и уровень его значимости p.
F-критерий используется для проверки значимости регрессии. В данном задании небольшое значение F-критерия = 17,6439 и даваемый в окне уровень значимости p=0,163 показывают, что построенная регрессия средне значима.
Нажимаем на кнопку — краткие результаты регрессии. Появляется следующая электронная таблица с результатами анализа (Рис. 31).
(Рис. 31).
В третьем столбце таблицы видно оценки неизвестных параметров модели:
a = 5,75 112;
b1 = 1,771 468;
b2 = - 0,12 060;
b3 = 0,668 969.
Итак, искомая модель зависимости показателя от факторов имеет вид:
Выполнение ДЗ студентом = 5,75 112 + 1,771 468 * Количество часов проведённых в библиотеке — 0,12 060 * Качество дидактических материалов + 0,668 969 * Стремление достичь высоких результатов Эта модель интерпретируется следующим образом: если при прочих равных условиях (= `ceteris paribus') переменная (количество часов проведённых в библиотеке) увеличивается (уменьшается) на единицу, то согласно этой оценке переменная (выполнение ДЗ студентом) увеличивается (уменьшается) на 1,771 468 единиц. В нашем случае это значит, что увеличение (уменьшение) количество часов проведённых в библиотеке на 1% приведет, при прочих равных условиях, к увеличению (уменьшению) выполнению ДЗ студентом на 1,771 468 балла.