Помощь в учёбе, очень быстро...
Работаем вместе до победы

Пример параметрической модели классификации

РефератПомощь в написанииУзнать стоимостьмоей работы

В общей совокупности стран мира можно выделить три страты: страны с низким ВВП надушу населения, со средним ВВП надушу населения и с высоким ВВП на душу населения, доли которых составляют соответственно 6,8, 54.0 и 39,2%. При строгом решающем правиле условные границы классов для отнесения произвольного наблюдения к одной из выделенных страт определим как абсциссы точек пересечения взвешенных… Читать ещё >

Пример параметрической модели классификации (реферат, курсовая, диплом, контрольная)

Среди задач статистического анализа одно из центральных мест занимает классификация, позволяющая выявить внутреннюю структуру объектов. От качества ее решения во многом зависит возможность реализации других этапов статистического исследования. В классификации лучший способ извлечь максимальную информацию, содержащуюся в значениях скалярной переменной, заключается в создании параметрической модели плотности вероятности. Сочетание теоретических предположений о виде закона распределения признака в однородной группе наряду с анализом общего эмпирического распределения позволяет выдвинуть обоснованное предположение о структуре исследуемой совокупности.

В качестве оценки плотности распределения может использоваться гистограмма, однако на ее очертания помимо интервала дискретизации существенное влияние оказывает положение интервалов группировки на оси признака. Избавиться от этого влияния можно путем усреднения гистограмм с различными сдвигами по этой оси либо использованием более общей процедуры сглаживания данных о сгущениях точек с весами, определяемыми так называемой ядерной функцией сглаживания. Эффективная ширина ядра должна позволить избежать эффектов как недосглаживания, так и пересглаживания.

Проведем классификацию 74 стран мира по уровню экономического развития на основе использования следующего показателя — валовой внутренний продукт (ВВП) надушу населения по паритету покупательной способности (ППС). Исходные данные для классификации представлены в табл. 6.5.

Таблица 6.5

ВВП на душу населения в странах мира 2012 г.

№ п/п.

Страна.

x

№ п/п.

Страна.

x

Гана.

Латвия.

16 360.

Тринидад и Тобаго.

Литва.

17 880.

Пакистан.

Хорватия.

Узбекистан.

Польша.

19 020.

Конго.

Россия.

19 190.

Молдова.

Венгрия.

19 280.

Индия.

Эстония.

19 500.

Боливия.

Сейшелы.

20 470.

Марокко.

Новая Зеландия.

28 050.

Грузия.

Исландия.

28 630.

Армения.

Республика Корея.

29 010.

Египет.

Кипр

30 160.

Украина.

Италия.

31 090.

Китай.

Испания.

31 550.

Таиланд.

Ирландия.

32 740.

Доминика.

Бахрейн.

33 530.

Албания.

Франция.

34 440.

Перу.

Япония.

34 790.

Босния и Герцеговина.

Великобритания.

36 580.

Колумбия.

Финляндия.

37 180.

Азербайджан.

Канада.

37 280.

Южная Африка.

10 280.

Бельгия.

37 840.

Казахстан.

10 610.

Германия.

38 170.

Коста-Рика.

10 880.

Австралия.

38 510.

Бразилия.

10 920.

Австрия.

39 410.

Сербия.

11 230.

Швеция.

39 600.

Венесуэла.

11 950.

Дания.

40 140.

Болгария.

Нидерланды.

42 590.

Чили.

13 890.

США.

47 020.

Беларусь.

14 020.

Гонконг.

47 300.

Румыния.

14 050.

Бруней-Даруссалам.

48 760.

Малайзия.

14 360.

Швейцария.

49 180.

Турция.

14 580.

Сингапур

54 700.

Мексика.

15 010.

Макао.

57 120.

Аргентина.

15 150.

Норвегия.

57 130.

Антигуа и Барбуда.

15 380.

Лихтенштейн.

63 850.

Ливия.

16 330.

Люксембург.

63 850.

Решение

Отметим, что ВВП является ключевым макроэкономическим показателем результатов функционирования экономики и используется в международных сопоставлениях стран мира, при расчетах общественной производительности труда и других показателей эффективности экономики. Ежегодно международными организациями составляются рейтинги стран мира по уровню ВВП с целью определения наиболее развитых и отстающих стран.

Исходный показатель х- ВВП надушу населения, но ППС — представляет собой результат совокупного действия множества факторов, среди которых отсутствуют явно доминирующие, а характер действия каждого фактора, как наблюдаемого, так и латентного, на результирующее значение показателя можно считать мультипликативным. Можно предположить, что для однородной группы стран закон распределения признака будет логарифмически нормальным:

Пример параметрической модели классификации.

где циосоответственно математическое ожидание и среднее квадратическое отклонение величины логарифма латентной активности 1пл Закон распределения будет представлять собой смесь р логарифмически-нормальных распределений:

Пример параметрической модели классификации.

где п, — доля объектов i-й группы в генеральной совокупности, Пример параметрической модели классификации. - плотность вероятности распределения /-й группы.

Подтвердим теоретические предположения результатами анализа эмпирического распределения.

Выберем в качестве границ интервалов значения логарифма ВВП на душу населения от 0 до 4,29. Результаты расчетов, выполненные в программе MS Excel, приведены в табл. 6.6.

Таблица 6.6

Результаты расчетов эмпирической гистограммы

Карман.

Частота.

0,39.

0,78.

1,17.

1,56.

1,95.

2,34.

2,73.

3,12.

3,51.

3,9.

4,29.

График, построенный средствами MS Excel на основе табл. 6.6. приведен на рис. 6.16.

Гистограмма распределения наблюдаемых значений признака.

Рис. 6.16. Гистограмма распределения наблюдаемых значений признака.

Вид гистограммы согласуется с предположением о логарифмически-нормальном распределении по размеру ВВП надушу населения каждой однородной группы стран мира и наличии нескольких таких групп в исследуемой совокупности.

Перейдем к этапу оценивания параметров. Для этого определим начальные приближения параметров смеси распределений Яу. р^а, на основе графического анализа гистограммы. Рассчитаем теоретическую гистограмму для выбранных значений параметров и сравним ее с эмпирической.

По гистограмме логарифма ВВП на душу населения по ППС (см. рис. 6.16) предположим наличие трех страт с колоколообразными функциями распределения и визуально определим начальные приближения значений параметров (табл. 6.7).

Средние значения ц, — для логарифма каждой страты определим приближенно как абсциссу точки ее предполагаемого максимума. Стандартное отклонение логарифма признака а, будет определяться расстоянием по оси абсцисс от предполагаемой точки максимума до точки перегиба плотности вероятности логарифма признака.

Таблица 6.7

Начальные приближения параметров смеси распределений

Mi.

О,.

71,.

1.5.

0.5.

0.2.

2.8.

0.3.

0,45.

3,8.

0,2.

0.35.

Теоретическую гистограмму можно построить по данным табл. 6.7 для выбранных ранее карманов (см. табл. 6.6). Для ее расчета используем функцию MS Excel ЛОГНОРМРАСП (х; среднее; стандартное_откл), которая возвращает интегральное логнормальное распределение, где In х представляет собой нормальное распределение. «Среднее» представляет собой среднее значение In х для данного компонента смеси, т. е. р, а «Стандартное отклонение» — стандартное отклонение 1пд т. е. Ст'.

Результаты расчета теоретической гистограммы приведены в табл. 6.8.

Таблица 6.8

Результаты расчетов теоретической гистограммы (начальное приближение)

Карман.

Частота.

0,02.

0.39.

0,18.

0.78.

0,91.

1,17.

2,66.

1,56.

4,34.

1.95.

4.05.

2,34.

4,04.

2.73.

12.08.

3.12.

15,06.

3,51.

6,37.

3,90.

16,30.

4.29.

7.81.

Гистограммы эмпирического и начального приближения теоретического распределений представлены на рис. 6.17.

Существенное различие гистограмм в первую очередь объясняется тем, что параметры. использованные для построения теоретического распределения, не являются оптимальными.

Произведем максимизацию логарифма отношения правдоподобия.

Пример параметрической модели классификации.

путем подбора параметров для получения максимально правдоподобных оценок параметров смеси Пример параметрической модели классификации.

Для решения оптимизационной задачи использовалась надстройка MS Excel «Поиск решения». Полученные максимально правдоподобные оценки параметров представлены в табл. 6.9.

Гистограммы эмпирического и начального приближения теоретического распределений.

Рис. 6.17. Гистограммы эмпирического и начального приближения теоретического распределений:

Пример параметрической модели классификации. — теоретическое; Пример параметрической модели классификации. — эмпирическое.

Таблица 6.9

Максимально правдоподобные оценки параметров смеси распределений

Пример параметрической модели классификации.

Пример параметрической модели классификации.

Пример параметрической модели классификации.

Пример параметрической модели классификации.

1.367.

0,442.

0,180.

2,565.

0,333.

0,433.

3,687.

0,241.

0,386.

Результаты расчета теоретической гистограммы приведены в табл. 6.10.

Таблица 6.10

Результаты расчета теоретической гистограммы

Карман.

Частота.

0,01.

0,39.

0,17.

0,78.

1.05.

1,17.

3,14.

1,56.

4,58.

1,95.

4,16.

2,34.

8,02.

2,73.

14,31.

3,12.

8,70.

3,51.

7,79.

3,9.

16,69.

4.29.

5,21.

На основе полученных оценок строится модель смеси логарифмически нормальных распределений. Для этого формируется массив значений логарифма ВВП на душу населения по ППС с одинаковыми интервалами между соседними значениями. Число значений должно обеспечить необходимое качество графика плотности вероятности. Выберем сетку значений аргумента In хс шагом 0.0625.

Рассчитаем значения теоретической плотности вероятности, используя команду.

Пример параметрической модели классификации.

График плотности вероятности, рассчитанный для созданного массива значений ln х, представлен на рис. 6.18. На нем же отображены и графики взвешенных плотностей вероятностей компонентов смеси — слагаемых приведенной выше формулы.

Модель распределения стран мира по размеру ВВП на душу населения по ППС и ее декомпозиция.

Рис. 6.18. Модель распределения стран мира по размеру ВВП на душу населения по ППС и ее декомпозиция:

Пример параметрической модели классификации.

В общей совокупности стран мира можно выделить три страты: страны с низким ВВП надушу населения, со средним ВВП надушу населения и с высоким ВВП на душу населения, доли которых составляют соответственно 6,8, 54.0 и 39,2%. При строгом решающем правиле условные границы классов для отнесения произвольного наблюдения к одной из выделенных страт определим как абсциссы точек пересечения взвешенных плотностей вероятности соседних страт. Их значения ВВП на душу населения, меньшие ехр (1,9125) = 3,295, следует отнести к категории с низким ВВП на душу населения (третья страта). Со средним ВВП на душу населения следует признать страны с ВВП на душу населения от 3,295 тыс. до 24.594 тыс. долл. США (вторая страта), с высоким ВВП на душу населения — страны, у которых ВВП на душу населения составляет более 24,594 тыс. долл. США (первая страта).

В первую страту вошли 29 стран: Новая Зеландия, Исландия, Корея, Кипр, Италия, Испания, Ирландия, Бахрейн, Франция, Япония, Соединенное Королевство. Финляндия, Канада и др. Все страны, входящие в первую страту, относятся к группам стран с высоким уровнем жизни населения.

Во вторую страту входят 40 стран: Молдова, Индия, Боливия. Марокко, Египет, Украина, Грузия, Армения, Китай, Таиланд, Доминика, Албания, Перу, Колумбия и др. В данную страту входят страны в основном со средним уровнем жизни населения.

В третью страту (самая маленькая страта, удельный вес от общей совокупности 6,8%) вошли пять стран: Гана, Тринидад и Тобаго, Пакистан, Узбекистан, Конго. Эти страны относятся к странам со средним и низким уровнем жизни населения.

Показать весь текст
Заполнить форму текущей работой