О скорости сходимости статистик критериев согласия со степенными мерами расхождения к хи-квадрат распределению
Необходимо отметить, что результат Хаксли не имеет прямого обобщения на случай множеств произвольной размерности, поскольку используемая им техника существенно использует тот факт, что мы находимся на плоскости. Поэтому при последующем исследовании многомерного случая был выбран другой результат из теории чисел. В виду больших технических сложностей, связанных с необходимостью проверять все… Читать ещё >
Содержание
На протяжении многих десятилетий критерии согласия, предназначенные для проверки соответствия имеющихся выборочных данных заданному распределению, не теряют своей значимости в математической статистике. Выдающиеся результаты, полученные в этом направлении, связаны с именами А. Н. Колмогорова, Н. В. Смирнова, К. Пирсона. Один из подходов состоит в следующем: данные выборки группируются на основе попадания в непересекающиеся подмножества (ячейки) области возможных значений элементов выборки, с тем чтобы затем сопоставить частоты попадания в эти подмножества с теоретическими вероятностями, которые могут быть вычислены. При этом проверка соответствия выборки исходному распределению заменяется проверкой соответствия сгруппированных данных полиномиальному распределению. Несомненное достоинство такого подхода состоит в его универсальности.
Классический критерий согласия, предложенный К. Пирсоном и основанный на вышеупомянутой методологии, использует так называемую статистику %2 (см. [26]). Эта статистика имеет простой вид и удобна в применении. Вместе с тем, для получения хорошей точности с помощью этого критерия необходимо иметь достаточно большой объем входных данных (в сумме и по отдельности в каждой ячейке). Кроме того, на практике чаще всего приходится заменять распределение статистики асимптотическим. Точность этой аппроксимации зависит от числа ячеек, а величина ошибки чаще всего неизвестна. Непонятно и то, является ли статистика х2 оптимальной на малых объемах выборки.
В связи с этим многие ученые исследовали другие подходы к построению критериев согласия с целью найти наиболее эффективный в том или ином статистическом смысле. Здесь можно упомянуть работы С. Е. Фейнберга [23], X. О. Ланкастера [42], Д. С. Мура [43], Г. С. Вотсона [53]. Неплохой сводный анализ различных альтернатив приведен в работе С. Хорна [34]. Особое место в этих исследованиях принадлежит работам Н. Крисси [20] и Т. Рида [47]. Эти авторы ввели в употребление и произвели первичный анализ семейства степенных статистик согласия, предназначенного для построения критериев согласия по сгруппированным данным с использованием степенных мер расхождения между эмпирическими частотами и теоретическими вероятностями. Семейство параметризовано вещественным параметром А, при этом как собственно статистика х2 > так и часто используемые статистики являются частными случаями.
Хотя при фиксированной процедуре группировки и неизменном количестве ячеек все статистики семейства асимптотически эквивалентны (имеют одинаковое предельное хи-квадрат распределение), между ними можно провести ряд разграничений на конечных объемах выборки. Например, в работе [20] вычисляются асимптотические разложения моментов статистик семейства при справедливой основной гипотезе. Оказывается, что моменты наиболее близки к моментам хи-квадрат распределения при, А = 1 и, А = 2/3. Значение 1 ожидаемо, поскольку соответствует хи-квадрат критерию, однако второе значение появляется достаточно неожиданно. Также, в статье [48] показывается, что относительно симметричной основной гипотезы (равновероятное попадание в любую из ячеек) и определенным образом заданных альтернативных гипотез оптимальность в терминах мощности на малых объемах выборки достигается при Л 6 [1/3,2/3], то есть хи-квадрат критерий в этой постановке не является оптимальным. В статьях [20], [48], а также в книге [21] статистика, соответствующая Л = 2/3, выделяется отдельно и рекомендуется к применению на основании проведенного в этих работах сравнительного анализа с другими членами семейства.
Таким образом, в определенных ситуациях вопрос использования альтернативных представителей семейства может быть решен положительно. При этом для практической реализации альтернативных критериев (например, при вычислении критических значений и доверительных интервалов) необходимо четко понимать, насколько хороню статистики семейства аппроксимируются предельным хи-квадрат распределением, и как это соотносится с точностью аппроксимации для статистики х2 ¦ В связи с этим актуальной является задача исследования степенных статистик согласия на предмет скорости их [слабой] сходимости к хи-квадрат распределению (при выполнении основной гипотезы и фиксированном количестве полиномиальных ячеек).
Из работ [25], [52] известны оценки скорости сходимости в частном случае статистики х2 j также в работах [47], [49] (с использованием [52]) получены различные асимптотические разложения функции распределения произвольной статистики из семейства степенных статистик согласия. Тем не менее, ни одна из этих работ не позволяет построить оценки скорости сходимости произвольных степенных статистик согласия.
В настоящей работе для всех статистик семейства вне зависимости от числа ячеек группировки впервые получены оценки скорости слабой сходимости к хи-квадрат распределению, имеющие степенной порядок по объему выборки п. По порядку эти оценки соответствуют наилучшим из имеющихся оценок для статистики хи-квадрат (кроме результатов работ [18], [24] и [25], накладывающих ограничения на число ячеек группировки). Дополнительно для случая трех ячеек группировки получены более точные оценки скорости сходимости, превосходящие ранее известные оценки для статистики хи-квадрат. В процессе работы разработан новый метод построения оценок скорости сходимости степенных статистик согласия, основанный на сведении исходной задачи к задаче о приближении числа точек решетки в заданном выпуклом множестве его нормированным объемом (в дальнейшем обобщенная задача Гаусса).
С методологической точки зрения необходимо отметить, что хотя тема исследования происходит из проблем математической статистики, в процессе решения задачи среди прочих были использованы методы теории оптимального управления, тензорного исчисления, а также дифференциальной геометрии. В процессе научного поиска автору было необходимо так или иначе касаться и других областей математики.
Работа состоит из введения, двух глав, заключения и
приложения. Во введении в более технических терминах обсуждается постановка задачи, проводится краткий анализ имеющихся результатов, формулируются основные идеи и методы доказательства. В главе 1 рассматривается частный случай, когда число ячеек группировки равно трем. В этом контексте мы получаем верхнюю оценку скорости сходимости к предельному распределению для произвольных статистик семейства, которая близка к нижней оценке, построенной в [28], [29] и [30]. Кроме того, отрабатывается методология (в частности связь с теорией чисел), которая затем используется в общем случае. В главе 2 ограничение на количество ячеек группировки снимается. Мы получаем новые оценки скорости сходимости, справедливые в самом общем случае. Наконец в
приложение выведены некоторые вспомогательные результаты технического характера.
Работа докладывалась на научно-исследовательском семинаре кафедры математической статистики факультета ВМиК МГУ (20 марта 2009 г.), на Российско-японском симпозиуме [Математического Института им В. А. Стеклова РАН] «Стохастический анализ сложных статистических моделей"(15−17 сентября 2009 г.), а также принята к докладу на 28-й Конференции Европейских Статистиков (17−22 августа 2010 г., Университет Пирея. Греция). Основные результаты были опубликованы в журналах «Теория вероятностей и ее применения», «Обозрение прикладной и промышленной математики» и в Hiroshima Mathematical Journal.
Автор выражает благодарность своему научному руководителю доктору физ.-мат. наук и профессору МГУ Ульянову Владимиру Васильевичу. Его оптимизм, редкая интуиция в науке и в жизни, а также прекрасное отношение к студентам вызывают интерес и искреннее уважение. Я хотел бы поблагодарить его за дельные советы и в особенности за его настойчивость, без которой эта диссертация, возможно, никогда бы не была написана.
Я хотел бы также поблагодарить своих друзей и одногруппников с кафедры Математической Статистики ВМиК МГУ за совместно проведенные годы учебы в Московском Университете. Без них я бы пропустил немало приятных минут общения в кругу умных, творчески настроенных сверстников, многим из которых суждено добиться значительных высот в жизни. В особенности я хотел бы выразить благодарность Семену Гавриленко за мою первую написанную совместно с ним научную работу. Я думаю, что этот первый опыт был исключительно важен для нас обоих.
Я посвящаю эту работу моим родителям и брату Денису, чья поддержка вот уже на протяжении многих лет придает мне уверенности в своих силах.
Список условных обозначений
1.Х — произвольный вектор.
2. (-)т — транспонирование вектора.
3. Md — Евклидово пространство размерности d.
4. Bi — сечение множества В по координате с номером I.
5. [a-J — целая часть х.
6. — определитель матрицы А.
7. А- обратная матрица к матрице А.
8. Si (x) = х — [х — I
9. Ст — класс гладкости функций, имеющих непрерывные производные вплоть до порядка т.
10. С°° - класс функций, имеющих производные всех порядков.
11. д-^гс) производная функции / по направлению е.
12. haus (yi, В) — расстояние между множествами, А и В в метрике Хаусдорфа.
13. В© (или Вх) -множество {Та (ж) < с}
14. Bi — проекция множества Вх на ось х = 0.
15. sign (x) — <
1 x > О О х = О -1 х < 0. h (xb. ., xi-i, Xi (x*), xi+i,. ., xr).
1 Трехмерный случай
1.1 Основной результат и структура доказательства.
1.2 Редукция члена J2.
1.3 Применение теоремы Хаксли к последовательности множеств Вх (п)
1.4 Получение итоговой формулировки результата.
2 Общий случай
2.1 Формулировка результата и структура доказательства
2.2 Редукция члена J2.
2.2.1 Некоторые вспомогательные факты из дифференциальной геометрии.
2.2.2 Предварительные леммы
2.2.3 Преобразование исходного вида члена J2 к упрощенному виду.
2.3 Применимость теоремы Э. Главки к последовательности множеств Вх (п)
2.3.1 Выпуклость Вх
2.3.2 Достаточные условия для применимости теоремы
Э. Главки.
2.3.3 Выполнение достаточных условий для множеств Вх{п)
2.4 Получение итоговой формулировки результата.
Список литературы
- Асылбеков Ж. А., Зубов В. Н., Ульянов В. В. Асимптотические свойства почти квадратичных форм, Теория вероятн. и ее применен, т. 55, вып. 3, 2010.
- А. Бикялис. Асимптотические разложения для распределений сумм независимых одинаково распределенных решетчатых случайных векторов. Теория вероятностей и ее применения. 14, 3, 499−507, 1969.
- М. М. вайнберг, в. А. Треногин. Теория ветвления решений нелинейных уравнений. Москва: изд. Наука, 1969.
- И. м. виноградов. к вопросу о числе целых точек в шаре. Известия Академии Наук СССР, 27, 957−968, 1963.
- А. Н. Колмогоров, С. В. Фомин. Элементы теории функций и функционального анализа. Москва: изд. Наука, 1976.
- Мищенко А. С., Фоменко А. Т. Курс дифференциальной геометрии и топологии. Изд. Факториал Пресс, 2000.
- ПЕТРОВ В. В. Суммы независимых случайных величии. Изд. Наука, 1972.
- Д. А. Попов. О числе целых точек в трехмерных телах вращения. Известия РАН, 64, 2, 121−140, 2000.14. тайманов И. А. Лекции по дифференциальной геометрии. м. Ижевск: НИЦ «Регулярная и хаотическая динамика" — Институт компьютерных исследований, 2006.
- V. Bentkus, F. Gotze. On the lattice point problem for ellipsoids. Acta Arithmetica. 80, 101—125, 1997.
- T. bonnesen, W. Fenciiel. Theorie der konvexen korper. Springer Verlag, Berlin. 1934.
- N. A. C. CRESSIE, T. R. C. Read. Multinomial goodness-of-fit tests, Journal of the Royal Statistical Society, Series B, 46, No. 3, 440 -464, 1984.
- N. A. c. cressie, T. R. c. Read. Goodness-of-fit Statistics for Discrete Multivariate Data. Springer, New York, 1988.
- C. G. ESSEEN. Fourier analysis of distribution functions. Acta Mathematica, 77, 1−125, 1945.
- S. E. FlENBERG. The use of Chi-squared statistics for categorical data problems. Royal Statistical Society B, 41, 54−64, 1979.
- F. Gotze. Lattice point problems and values of quadratic forms. Inventiones Mathematical, 157, 195 226, 2004.
- F. gotze, V. V. Ulyanov. On approximations for a distribution of a sum of lattice random vectors and its statistical applications. Hiroshima Statistical Research Group. Technical Report, 2003, 10 pp.
- P. E. Greenwood, M. S. Nikulin. A Guide to Chi-squared Testing. Wiley, New York, 1996.
- A. I vie, E. KrAtzel, M. Kuhleitner, and W. G. Nowak. Lattice points in large regions and related arithmetic functions: recent development in a very classic topic, Conference on Elementary and Analytic Number Theory, 89−128, 2006.
- J. L. HAFNER. New omega results for two classical lattice point problems, Invent. Math. 63, 181−186, 1981.
- G. h. hardy. On Dirichlet’s divisor problem, Proceedings of London Mathematical Society, 2, 15, 1−25, 1916.
- G. h. hardy On the expression of a number as the sum of two squares, Quart. J. Math. 46, 263 283, 1915.
- J. H. HEINBOCKEL. Introduction to Tensor Calculus and Continuum Mechanics. Trafford Publishing, 1996.
- E. HLAWKA. Uber integrale auf konvexen korpern I. Mh Math 54, 1−36, 1950.
- E. hlawka. Uber integrale auf konvexen korpern II. Mh Math 54, 81−99, 1950.
- S. HORN. Goodness-of-Fit tests for discrete data: a review and an application to a health impairment scale. Biometrics, 33, 1, pp. 237 247, 1977.
- M. N. HUXLEY. Exponential sums and lattice points, Proceedings of London Mathematical Society, 3, 60, 471−502, 1990.
- M.N. HUXLEY. Exponential sums and the Riemann zeta function V, Proceedings of London Mathematical Society, 3, 90, 1−41, 2005.
- M.N. Huxley. Exponential sums and lattice points II, Proceedings of London Mathematical Society, 3, 66, 279−301, 1993.
- M. N. huxley. Exponential sums and lattice points III, Proceedings of London Mathematical Society, 3, 87, 591−609, 2003.
- E. Kratzel, W. nowak. Effektive Abschatzungen fur den Gitterrest gewisser ebener und dreidimensionaler Bereiche, Monatshefte fur Mathematik, 146, 21−35, 2005.
- E. kratzel, W. nowak. Lattice points in large convex bodies, Monatshefte fur Mathematik, 112, 61−72, 1991.
- E. KrAtzel, W. NOWAK. Lattice points in large convex bodies II, Acta Arithmetica, 62, 285−295, 1992.
- H. O. Lancaster. The Chi-squared Distribution. New York: Wiley. 1969.
- D. S. moore. Recent developments in chi-square tests for goodness-of-fit. Mimeograph series 459, Department of Statistics, Purdue University. 1976.
- W. Muller. Lattice points in large convex bodies. McGraw-Hill Math, 128, 315−330, 1999.
- W. nowak. A mean-square bound for the lattice discrepancy of bodies of rotation with flat points on the boundary. Acta Arithmetica, 127, 285−299, 2007.
- R. Rao. Some problems in probability theory. Ph.D. disseration, Calcutta University. Abstract in Bulletin of American Mathematical Society, 67, 359−361, 1961.
- T. R. C. Read. Closer asymptotic approximations for the distributions of the power divergence goodness-of-fit statistics., The Annals of Mathematical Statistics, 36, Part A, 59−69, 1984.
- T. R. C. read. Small sample comparisons for the power divergence goodness-of-fit statistics, Journal of the American Statistical Association, 79, 388, pp. 929−935, 1984.
- M. slotani and Y. fujikoshi. Asymptotic approximations for the distributions of multinomial goodness-of-fit statistics, Hiroshima
- V. V. Ulyanov, V. n. Zubov. Refinement on the convergence of one family of goodness-of-fit statistics to chi-squared distribution. Hiroshima Mathematical Journal, 39, 1, 133−161, 2009.
- J. K. YARNOLD. Asymptotic approximations for the probability that a sum of lattice random vectors lies in a convex set, The Annals of Mathematical Statistics, 43, No. 5, 1566−1580, 1972.