Помощь в учёбе, очень быстро...
Работаем вместе до победы

Ф2. 2. Центр и рассеяние: формулировки

РефератПомощь в написанииУзнать стоимостьмоей работы

Ответ. Разброс данных Х= {1, 1, 5, 3, 4, 1,2} по определению равен Т (Х) = I2 + + I2 + 52 + З2 + 42 + I2 + 22 = 1 + 1 + 25 + 9 + 16 + 1 + 4 = 57. Согласно материалу раздела Ф.2.2, объясненная часть разброса равна Nx2= 7 • (2,4286)2 = 41,2857, где х — среднее значение X. Таким образом, среднее для этих данных объясняет 41,2857 / 57 = 0,724, т. е. 72,4% разброса данных. Для проверки можно… Читать ещё >

Ф2. 2. Центр и рассеяние: формулировки (реферат, курсовая, диплом, контрольная)

Существует два принципиально разных взгляда на методы суммаризации и коррелирования данных. Согласно одному взгляду, наиболее четко выраженному в классической математической статистике, данные порождены неким вероятностным механизмом, поэтому их используют для восстановления механизма или хотя бы некоторых его свойств. С точки зрения подхода анализа данных вероятностный механизм не существует или не интересен, а главная задача — это поиск закономерностей в самих данных как они есть.

Ф2.2.1. Подход анализа данных

Пусть дано множество наблюденных значений признака X = {х{,…, xN). Задача — представить это множество в «сжатом» виде некой центральной точкой а. Эта центральная точка а должна минимизировать среднее индекса расстояния от нес до всех наблюденных значений:

Ф2.2. Центр и рассеяние: формулировки.

В зависимости от того, как определен индекс расстояния d (xi} а)} оптимальными могут быть разные значения а. Например, естественно определить d (xit а) = = xj — а|р для некоторого вещественного положительного/? (правило Минковского). К сожалению, нет единого простого метода минимизации (2.1) для произвольного р. Впрочем, для трех значений р = 1, 2 и °° (бесконечность) можно указать простые правила вычисления оптимального а.

Рассмотрим сначала принцип наименьших квадратов, соответствующий р = 2. Согласно этому принципу индекс расстояния — это квадрат разности, d (x, а) = = х — а|2. Тогда минимум среднего расстояния (2.1) достигается в точке а, равной среднему арифметическому значению с. Это доказывается приравниванием нулю производной от выражения (2.1) при квадратах разностей, подставленных вместо d (xv а). Среднее арифметическое значение определяется выражением.

Ф2.2. Центр и рассеяние: формулировки.

Следовательно, среднее расстояние D (X, с) (2.1) в этом случае не что иное, как.

Ф2.2. Центр и рассеяние: формулировки.

Эта величина часто называется дисперсией среднего значения.

Если определить индекс расстояния более традиционным способом просто как величину отклонения d (x, а) = х — а|, т. е. р = 1 в формуле (2.1), то нетрудно доказать, индукцией, но N, что оптимальное значение а (центр) при минимизации.

(2.1) — это медиана, ms, a D (X, а) — в этом случае — среднее абсолютное отклонение от медианы Ф2.2. Центр и рассеяние: формулировки.

На самом деле, медиана — единственный оптимум только при нечетном N. Если же N четное, то оптимальной будет любая величина между двумя числами, Хдг/2 и xN/2+, находящимися в середине упорядоченного ряда элементов X, включая медиану.

Если расстояние D (X, а) в формуле (2.1) определено не как среднее, а как максимум из расстояний, D (X, а) = vmx{d (x}, a), d (x2, а),…, d{xN, а)}, то минимум (2.1) достигается на середине размаха тг. Вместе с тем само правило взятия максимума величин d (xv а) может рассматриваться как предельный случай минимизации суммы (2.1) по правилу Минковского при р => °°.

Рассмотренные выше утверждения объясняют связь между характеристиками центра и характеристиками разброса, приведенными в табл. 2.1 и 2.2. Каждая из характеристик центра минимизирует соответствующую ей меру разброса.

Задача минимизации среднего индекса расстояния, особенно в форме Минковского, может быть представлена в рамках подхода восстановления данных, который позволяет развить для аппроксимационной задачи минимизации (2.1) некоторое подобие теории. Согласно этому подходу любой метод анализа данных перекодирует данные к более простому, в какой-то мере «идеальному», виду. В частности, в задачах вычисления центральной величины, все наблюденные значения рассматриваются как «зашумленные» реализации некого неизвестного значения а, так что имеют место равенства.

Ф2.2. Центр и рассеяние: формулировки.

где ei — аддитивные, т. е. суммируемые, остатки, которые необходимо минимизировать, чтобы обеспечить наилучшсс качество восстановления данных в случае их утери — замену каждого значением а. Чтобы не связываться с совершенно неясной проблематикой минимизации всех остатков одновременно, используется какой-либо интегральный критерий. Существует достаточно общее семейство таких критериев — критерий Минковского, математически называемый также нормой Lf). Норма Минковского для многомерного набора остатков определяется как.

Ф2.2. Центр и рассеяние: формулировки.

где р — некоторое положительное число.

При разных значениях р задача минимизации Lp или, эквивалентно, ее р-й степени LpPy будет давать разные решения. Самые часто используемые значения р = 1, 2, и °° (бесконечность) как раз и дают вышеупомянутые критерии:

(1) Принцип наименьших квадратов: минимизировать L22 = e{2 + е22 + … + е^2, при р = 2.

Минимизация L22 по неизвестному а эквивалентна задаче минимизации среднего квадрата отклонений ех = хх — а. Оптимальное а в этой задаче — среднее значение.

(2) Принцип наименьших модулей: минимизировать L{ = ех + е2 + … + |^jV|, при р = 1.

Минимизация L{ по неизвестному а эквивалентна задаче минимизации среднего абсолютного отклонения. Оптимальное значение а в этой задаче — медиана, а = ms.

(3) Принцип наименьшего максимума (Чебышева) L^ = maxdej, е2, … |ejV|), при р = °°.

Минимизация Lпо неизвестному а эквивалентна задаче минимизации максимального отклонения. Оптимальное значение а в этой задаче — середина размаха, а = тг.

Может показаться, что критерий Минковского LpP для модели (2.5) является всего лишь тривиальной переформулировкой критерия минимизации расстояния.

(2.1). Как говорится, старое вино в новой упаковке. По это не так. Дело в том, что уравнение (2.5) позволяет не только оценить расстояние, но и разложить разброс данных на «объясненную» и «необъясненную» составляющие.

Особенно просто это можно сделать для принципа наименьших квадратов. Величина критерия в точке а, равной среднему значению с, равна L22 = (х{ — с)2 + + 2 — с)2 + … + (Ху — с)2. Раскроем скобки в этом выражении, приведем подобные и получим, что L22 = хх2 + х22 + … + згу2 — 2с (хх + х2 + … + xN) + Nc2 = х{2 + + х22 + … + хЛг — Nc2 = Т (Х) — Nc2, где Т (Х) — квадратичный разброс данных, который определяется как сумма квадратов наблюденных значений Т (Х) = хх2 + + х22 + … + xj .

Таким образом, квадратичный разброс данных согласно модели (2.5) равен.

Ф2.2. Центр и рассеяние: формулировки.

т.с. состоит из двух частей: первая, Nc2, характеризует ту часть разброса, которая объясняется моделью (2.5), а вторая — ту, которая остается необъясненной, L22. Поскольку разброс данных — константа, минимизация L22 эквивалентна максимизации Nc2. Разложение разброса данных на две составляющие позволяет оценить адекватность модели (2.5) не только с помощью дисперсии, усредненного квадратичного критерия, но и с помощью относительной величины объясненной части Ь22/ Т (Х). Похожее разложение может быть найдено и для принципа наименьших модулей Lx [16].

Вопрос 2.5. Какую часть разброса данных объясняет модель (2.5) для данных вопроса из рабочего примера 2.1?

Ответ. Разброс данных Х= {1, 1, 5, 3, 4, 1,2} по определению равен Т (Х) = I2 + + I2 + 52 + З2 + 42 + I2 + 22 = 1 + 1 + 25 + 9 + 16 + 1 + 4 = 57. Согласно материалу раздела Ф.2.2, объясненная часть разброса равна Nx2= 7 • (2,4286)2 = 41,2857, где х — среднее значение X. Таким образом, среднее для этих данных объясняет 41,2857 / 57 = 0,724, т. е. 72,4% разброса данных. Для проверки можно рассчитать необъясненную часть разброса непосредственно L22=(x -1)2+(Т -1)2+(Т — 5)2 + (х -3)2+(х — 4)2 + (х — 1)2+  — 2)2= 2,04 + 2,04 + 6,61 + 0,33 + + 2,47 + 2,04 + 0,18 = 15,71. Ее доля составляет 15,71 / 57 = 0,276, т. е. 27,6%, что дополняет предыдущий результат до 100% и этим подтверждает правильность вывода.

Вопрос 2.6. Рассмотрим не аддитивную, как в выражении (2.5), а мультипликативную модель ошибки хг- а (1 + е}), предполагая, что ошибки ^ пропорциональны величинам хКаков будет центр а но принципу наименьших квадратов для этой модели?

Ответ. Согласно принципу наименьших квадратов центр должен минимизировать сумму квадратов ошибок. По модели каждая ошибка может быть выражена как ех = хх/ а — 1 = (х, — а) / а. Следовательно, критерий записывается как L22 = = е{2 + ех2 + … + вдг2 = 1 — I)2 + 2 — I)2 + … + (xN/a — I)2. По условию оптимальности первого порядка найдем производную L22 по а и приравняем ее нулю. Производная равна 22)' = -(2 3)Х;(хх — а) хх. Допустим, что оптимальное значение а отлично от нуля, тогда условие первого порядка эквивалентно перепишется как Iхх — а) х, = 0, так что а = I.ixi2/'Lixi = (SXx^/N)/(ZjXj/N). Здесь знаменатель — это среднее значение с, а числитель может быть выражен через дисперсию 52, так как имеет место соотношение s2 = T. jXj2/N — IjXj/N, которое нс сложно доказать. После преобразований получим, что оптимальное a = s2/c + 1. В статистике часто рассматривается близкая величина, коэффициент вариации s/с.

Заметим, что и стандартное отклонение, и абсолютное отклонение не превышают половины размаха признака. Этот факт может быть доказан математически [17].

Таблица 23

Центры Минковского для признака «Ширина чашелистика» из данных об Ирисах при разных р

р

р-центр

Нсобъясненный р-разброса, %.

0,5.

28,40.

3(медиана).

10,82.

3,057 (среднее).

1,98.

3,083.

0,44.

3,103.

0,11.

3,120.

0,01.

Задание 2.1. Величину с назовем р-центр Минковского, если она минимизирует среднее расстояние Минковского (2.1) с показателем степени р. Докажите, что относительное положение центра Минковского не меняется при изменении масштаба.

Задание 2.2. Для признака «Ширина чашелистика» из данных об Ирисах вычислите центр Минковского при р = 0,5; 1; 2; 3; 4; 5.

Ответ. Решение приведено в табл. 2.3. Оно получено с помощью программы cm. m, разработанной в рамках проекта 2.1.

Задание 2.3. Докажите, что р-центр Минковского возрастает с ростом р.

Показать весь текст
Заполнить форму текущей работой