В настоящей диссертации строятся и исследуются критерии согласия и симметрии, основанные на характеризационных свойствах распределений, а также вычисляется их асимптотическая относительная эффективность для ряда альтернатив.
Построение статистических критериев и изучение их асимптотических свойств является одной из важнейших задач математической статистики. При проверке простой гипотезы против простой альтернативы задача решается с помощью леммы Неймана-Пирсона, которая, как известно, дает оптимальный (наиболее мощный) критерий в классе всех критериев заданного уровня. Это критерий отношения правдоподобия.
Однако для более трудных и важных для практики задач проверки гипотез, связанных либо с проверкой сложных гипотез, либо с рассмотрением сложных альтернатив, равномерно наиболее мощные критерии существуют редко, а роль критерия отношения правдоподобия существенно меняется. Статистику отношения правдоподобия обычно не удается вычислить в явном виде, она теряет свойство оптимальности, а ее распределение неустойчиво к изменениям статистической модели. Более того, статистик часто вообще не может определить вид альтернативы, без чего построение параметрических критериев теряет смысл.
Поэтому одним из путей развития проверки статистических гипотез стал путь «эмпирического» построения критериев, когда конструируемая статистика критерия основана на определенном принципе, остроумной идее или здравом смысле, но оптимальность ее не гарантирована.
Типичными примерами таких статистик являются статистика знаков, статистика х2 Пирсона (1900), статистика Колмогорова (1933), измеряющая равномерное расстояние между эмпирической и истинной функцией распределения, ранговый коэффициент корреляции Кендалла (1938) или статистика Бикела-Розенблатта (1973), основанная на квадратичном риске ядерной оценки плотности [29]. В настоящее время математическая статистика располагает многими десятками «эмпирических» статистик для проверки гипотез согласия, симметрии, однородности, случайности и независимости, и в литературе постоянно предлагаются все новые и новые статистики такого типа. Огромная литература посвящена изучению их точных и предельных распределений, оценкам скорости сходимости, большим уклонениям, асимптотическим разложениям и т. д.
Для того, чтобы оправдать применение подобных статистик при проверке гипотез против определенного класса альтернатив, чаще всего методом статистического моделирования вычисляют их мощность. Однако для любого состоятельного критерия мощность с ростом объема выборки стремится к единице, и потому не всегда информативна. Более глубокий анализ сравнительных свойств статистик может быть осуществлен на основе понятия асимптотической относительной эффективности (АОЭ). Различные подходы к вычислению АОЭ предлагались Э. Питменом, Дж. Ходжесом и Э. Леманом, Р. Бахадуром, Г. Черновым и В. Калленбергом в середине XX в., результаты развития теории АОЭ к середине 90-х годов подведены в монографии [12]. Общепринято мнение, что синтез новых критериев должен сопровождаться не только анализом их свойств, но и вычислением АОЭ для того, чтобы оценить их качество и дать обосно ванные рекомендации по их использованию на практике.
В настоящей работе используется идея построения критериев на основе характеризации распределений свойством равнораспределенности. Ха-рактеризационная теория берет свое начало из работы [60] Д. Пойа, опубликованной в 1923 г. Затем она развивалась в работах И. Марцинкевича, С. Н. Бернштейна, Э. Лукача, Ю. В. Линника, A.A. Зингера, Ж. Дармуа, В. П. Скитовича, С.Р. Pao, A.M. Кагана, Я. Галамбоша, С. Котца, Л. Б. Клебанова и многих других математиков.
Литература
по этому вопросу велика, и в настоящее время существует несколько монографий, посвященных характеризациям, например, [7], [52], [45], [36], [1], [30], [17].
Идея построения статистических критериев на основе характериза-ций свойством равнораспределенности принадлежит Ю. В. Линнику [10], [11]. В конце обширной работы [11] он писал: «. можно поставить вопрос о построении критериев согласия выборки со сложной гипотезой, основанных на одинаковой распределенности двух соответствующих статистик gi (xi> .хг) и д2{х, ¦¦¦хг) и на сведении, таким образом, вопроса к критерию однородности.» .
Вернемся к классической теореме Пойа [60], чтобы объяснить на конкретном примере, как может действовать такой подход. В простейшем варианте эта теорема формулируется следующим образом.
Теорема Пойа. Пусть X и Y две независимые и одинаково распределенные центрированные с. в. Тогда с. в. (X + Y)//2 и X одинаково распределены в том и только том случае, когда закон распределения X нормальный.
Предположим, что мы имеем выборку из центрированных независимых наблюдений Xi, ., Хп и хотим проверить (сложную) нулевую гипотезу о принадлежности распределения этой выборки к нормальному закону со средним 0 и некоторой дисперсией. Построим по нашей выборке обычную эмпирическую функцию распределения (ф.р.) п.
Fn (t) = п-^ВД.
Gn (t) = п~2? ВД + Xj < iv^}, t <= R1. i, j=l.
В силу теоремы Гливенко-Кантелли, справедливой и для V-статисти-ческих эмпирических ф.р. [44], при больших п функция Fn (t) равномерно сближается с ф.р. F (t) = Р (Х < t), а функция Gn (t) равномерно сближается с G (t) = ЦХ + У < tV2). Поскольку при нулевой гипотезе F = G, то Fn (t) близка к Gn (t), и критерий значимости можно основывать на подходящем функционале Тп от разности Fn (t) — Gn (t). Напротив, при альтернативе (то есть при нарушении нормальности) по теореме Пойа F ф G, что приводит к большим значениям Тп и позволяет отвергнуть нулевую гипотезу, обеспечивая состоятельность критерия.
Однако эта конструкция, основывающаяся на идее Ю. В. Линника, почти не получила развития, возможно, ввиду технических трудностей при построении и анализе получающихся критериев. Другая причина состоит, вероятно, в том, что характеризации распределений свойством равнораспределенности немногочисленны и редко встречаются.
Нам известны лишь немногие работы, посвященные в той или иной мере развитию идеи Ю. В. Линника. Это работы Барингхауза и Хенце [25] и Мульере и Никитина [56], о которых будет сказано ниже. Имеются и работы, в которых критерии согласия для конкретных распределений также строятся на основе характеризаций, но не на основе равнораспределенности, например, [32], [39], [40], [47], [51], [54], [55], [57].
Наиболее часто в литературе встречается использование характериза-ции экспоненциального распределения различными вариантами свойства отсутствия памяти [18], [19], [27], [28], [43], [48], [58].
Следует отметить, что почти во всех этих работах (кроме разве лишь [56] и [58]) АОЭ рассматриваемых критериев не вычисляется и не обсуждается. В настоящей диссертации мы не только исследуем асимптотические свойства известных и предлагаемых нами критериев, основанных на характеризациях, но и вычисляем их локальную точную (или приближенную) АОЭ по Бахадуру.
Дадим теперь определение понятию АОЭ. Пусть {Тп} и {1^} - две последовательности статистик, построенные по выборке Х,., Хп с распределением Рд, где в € 0 С Я1, и проверяется нулевая гипотеза, Но: 9 € во С в против альтернативы, А: в € ©-х = ©-6о. Пусть Мт (а, Р,0) — минимальный объем выборки Х[,., Хп, для которого последовательность {Тп} с заданным уровнем значимости, а > 0 достигает мощности /3 < 1 при альтернативном значении параметра в € (c)1- Аналогично вводится в). Относительной эффективностью критерия, основанного на статистике Тп, по отношению к критерию, основанному на Уп, называется величина равная обратному отношению указанных выборочных объемов:
Поскольку относительная эффективность как функция трех аргументов не поддается вычислению в явном виде даже для самых простых статистик, то принято рассматривать пределы:
Птет, у (а,/?, 0), Нтет, у (а,/3,0).
В первом случае получается АОЭ по Бахадуру, второй предел определяет АОЭ по Ходжесу-Леману, а третий приводит к определению АОЭ по Питмену. Поскольку в практических приложениях наиболее интересны именно случаи малых уровней значимости, высоких мощностей и близких альтернатив, то все три определения представляются обоснованными и естественными.
В данной работе для сравнения критериев мы будем пользоваться АОЭ по Бахадуру. Для этого есть несколько причин. Во-первых, питме-новская эффективность пригодна в основном для асимптотически нормальных статистик, и при этом условии совпадает с локальной баха-дуровской эффективностью [23], [12]. Мы же рассматриваем не только асимптотически нормальные статистики, но и статистики квадратичного типа, для которых предельное распределение при нулевой гипотезе резко отличается от нормального, так что питменовская эффективность неприменима. Во-вторых, АОЭ по Ходжесу-Леману непригодна для исследования двусторонних критериев [12], [46], поскольку все они оказываются асимптотически оптимальными, а для односторонних критериев эта АОЭ обычно локально совпадает с бахадуровской АОЭ [12]. В третьих, недавно был достигнут значительный прогресс в области больших уклонений для тестовых статистик, что является решающим при вычислении АОЭ по Бахадуру. Мы имеем в виду большие уклонения и— и V—статистик, описанные в недавних работах [13] и [14].
Перейдем теперь к обзору содержания диссертации. Первая глава носит вспомогательный характер. В ней излагаются необходимые теоретические и технические сведения из теории 11-статистик, теории больших уклонений и теории асимптотической эффективности по Бахадуру.
Глава 2 посвящена построению и исследованию критериев для проверки гипотезы симметрии. Барингхауз и Хенце в [25] предложили идею построения критериев симметрии, основанных на следующей элементарной характеризации.
Пусть X и У — н.о.р.с.в., имеющие непрерывную ф.р. Тогда |Х| и |тах (Х, У)| одинаково распределены тогда и только тогда, когда X и У симметрично распределены относительно нуля.
Эту характеризацию мы используем для построения новых критериев симметрии. Вспомним, что несколько классических критериев симметрии (см. [12], гл.4) основаны на характеризации симметрии еще более простым свойством равнораспределенности X и —X.
Вернемся к характеризации Барингхауза-Хенце. Пусть Х, ., Хп наблюдения, имеющие непрерывную ф.р. <7. Рассмотрим проверку гипотезы симметрии:
Н0: ОД = 1 — <3(-:г) V я (Е Я1. Это сложная гипотеза, поскольку вид С? не уточняется. В качестве альтернатив мы рассмотрим параметрическую альтернативу сдвига, т. е. G (x-0) = F (x — в), в > 0- скошенную (skew) альтернативу [22], т. е. д (х-в) = 2f (x)F ($x), в > 0- лемановскую альтернативу [50], т. е. G (x-, 6) = F1+e (x), 6 > 0 и альтернативу загрязнения [50], т. е. G{x-6) = (1 — 6) F{x) + 6Fr+1(x), в > 0, г > 0, где F (x) и f (x) являются ф.р. и плотностью некоторого симметричного распределения.
В соответствии с указанной выше характеризацией строится эмпирическая ф.р., основанная на |Xj|,., Хп, п.
Qn (t)=n-1Y^4Xi.
Hn (t) = n~2 J2 Цтах (Х^Хк)<�г}. На основе этих функций составляются статистики: лоо [Hn (t)-Qn (t))dQn (t) J о и.
J poo [Hn (t) — Qn (t)}2dQn (t). о.
Здесь уместно обсудить вид этих статистик. Они имеют довольно сложную структуру. Первая из них сводится к невырожденной, а вторая к вырожденной V-статистике, что позволяет воспользоваться теорией функционалов Мизеса. Статистика не является состоятельной против любых альтернатив, однако это компенсируется ее относительно простой структурой, напоминающей интегральное представление Чернова-Сэвиджа для знаково-ранговой статистики Вилкоксона (см. [3]). Статистика Бп устроена гораздо сложнее, вычисление ее больших уклонений и АОЭ связано со значительными трудностями.
В дальнейшем и в других задачах мы будем строить и изучать интегральные статистики, аналогичные и Это направление исследований близко к работам М. Денкера (см., например, [31]), начавшего изучать линейные ранговые статистики £7—статистической структуры.
Статистики Колмогорова типа зир4 |ЯП (£) — (Эп (1) в диссертации не рассматриваются, поскольку нам не удалось найти метод для изучения их больших уклонений. Впрочем, статистики типа Колмогорова обычно проигрывают интегральным статистикам по асимптотической эффективности при стандартных альтернативах [24], [37], [12], [41], [35].
Оказывается, что статистики и являются свободными от распределения, что облегчает вычисление АОЭ по Бахадуру. Для них в диссертации находятся предельные распределения.
Теорема 2.2.1 Для статистики 5* при п —" оо справедливо:
Теорема 2.3.1 Для статистики при п—>оо выполняется оо 1 где Тх независимые стандартные нормальные с.в., А* = о щ являются положительными нулями бесселевской функции 4.
Далее для статистики вычисляется локальная точная бахадуров-ская АОЭ и изучаются условия локальной асимптотической оптимальности, т. е. ищется то семейство ф.р. для которого локальная АОЭ оказывается равной 1. Для статистики мы вычисляем приближенную бахадуровскую эффективность.
Следующие три главы относятся к исследованию критериев согласия.
В главе 3 строятся критерии для проверки экспоненциальности. Экспоненциальный закон является одним из центральных законов теории вероятностей, а модели, предполагающие экспоненциальное распределение наблюдений, часто появляются при решении прикладных статистических задач, например, при изучении времени наработки прибора до отказа. Поэтому проверка гипотезы об экспоненциальности имеет важное значение в статистике.
Литература
по этому вопросу велика и отражена в таких обзорных работах и монографиях, как [21], [27], [34], [63], [7].
Несмотря на множество характеризаций экспоненциального закона [1], [36], существует немного исследований, в которых критерии экспоненциальности строились бы на основе таких характеризаций.
Самой знаменитой характеризацией экспоненциального распределения является свойство отсутствия памяти. Пусть Р — ф.р. невырожденной неотрицательной с.в., обозначим для краткости Р — 1 — .Р. Тогда уравнение.
Р (х + у) = Р{х)Р{у) Ух, у> 0 (0.0.1) выполняется тогда и только тогда, когда 1 — ехр (-Аа-), х ^ 0, А > 0, т. е. только для экспоненциального распределения. Критерии экспоненциальности, основанные на этом свойстве, построены в [43], [48] и [18]. Упрощенный вариант свойства отсутствия памяти получается, если положить в (0.0.1) х = у:
F (2x) = F2(X) Vrr^O. (0.0.2).
Уравнение (0.0.2) при слабых дополнительных условиях снова связано с характеризацией экспоненциального распределения [19], [38]. Интересно, что это свойство можно переписать в терминах равнораспределенности статистик 2тт (Х!, Х2) и Х в выборке Х, Хъ объема 2. Некоторые критерии экспоненциальности, основанные на этой характеризации, строились и изучались в [19] и [58].
Мы построим критерии экспоненциальности, основанные на двух обобщениях характеризации (0.0.2). Первое из них хорошо известно (см., например, [30, Теорема 3.4.1]):
Пусть X uY — неотрицательные и невырожденные н.о.р.с.в., имеющие дифференцируемую в нуле ф.р. F, и пусть 0 < а < 1. Тогда X и min (^, •—) одинаково распределены тогда и только тогда, когда F есть ф.р. экспоненциального закона.
Помимо построения самого критерия согласия и изучения его асимптотических свойств, представляют интерес вычисление АОЭ нового критерия и исследование ее зависимости от параметра а.
Второе обобщение этой характеризации принадлежит Дезу [33]. Мы сформулируем его на основе более поздних работ [38], [1, § 5 ]:
Пусть Xi, ., Хт, т ^ 2 — неотрицательные и невырожденные н.о.р. с.в., имеющие дифференцируемую в нуле ф.р. F. Тогда статистики Х и т minpfi, ., Хт) одинаково распределены тогда и только тогда, когда F есть ф.р. экспоненциального закона.
Пусть Хх,., Хп — независимые наблюдения, имеющие ф.р. Основываясь на сформулированных выше характеризациях, мы можем проверить гипотезу экспоненциальности Но, которая состоит в том, что (7 есть ф.р. экспоненциального закона .Р, против альтернативы Н, состоящей в том, что С Ф? при слабых дополнительных условиях.
В соответствии с данными характеризациями строятся эмпирическая ф.р. п = пВД < О (°-0−3) 1 и-статистические ф.р. п-2 ± (* ^ < 4} + ^{тш (?, < «}), 1 П.
1.¿-Ш=1.
Мы предлагаем основывать критерии для проверки экспоненциаль-ности на статистиках: пкп = - с&bdquo-(*)] аоп{1).
В качестве альтернатив мы выбираем стандартные альтернативы, используемые в литературе по проверке экспоненциал ьности: альтернативу Вейбулла с д{х) = (в + 1) хеехр (—х1+в), х ^ 0- альтернативу Макехама с д{х) = (1 + 0(1 — ехр (—х))) ехр (—х — 0(ехр (-х) — 1 + х)), х ^ 0- альтернативу линейности функции интенсивности отказов с д (х) = (1 + вх) ехр[—ж — ^вх2], х^О.
Для предложенных выше двух статистик выписываются предельные распределения при нулевой гипотезе:
Теорема 3.2.1 Для статистики И£ при п —* оо имеет место соотношение где Дз (а) определена в (3.2.2). Теорема 3.3.1 Для статистики п при п —> оо имеет место соотношение.
Щ0,(т + 1)2А1(т)), где Д4 (т) определена в (3.3.6).
Поскольку обе статистики зависят от параметров, а и т, то мы устанавливаем, при каких значениях параметров АОЭ по Бахадуру достигают своих максимумов и находим эти значения. Кроме того, мы строим альтернативу, при которой максимум достигается в точке, а ф ½.
Четвертая глава посвящена проверке гипотезы о нормальности. Существует множество характеризаций нормального закона как одного из центральных законов теории вероятностей и математической статистики, и две монографии, посвященные исключительно этому вопросу [30], [52]. Мы рассмотрим слегка упрощенный вариант известной характери-зации из [7] и [45]:
Пусть Хг, Х2, ., Хт — центрированные н.о.р.с.в., имеющие ф.р. о константы а, а-2,., ат таковы, что 0 < а* < 1 и = 1. Тогда статистики Х и одинаково распределены тогда и только тогда, когда F (x) = Ф (х/а), то есть F — ф.р. нормального закона с нулевым средним и некоторой дисперсией, а > 0.
Пусть Х, ., Хп выборка с ф.р. G. Основываясь на этой характериза-ции, мы можем проверить основную гипотезу Я0, которая состоит в том, что G есть ф.р. нормального закона Фа (х) = Ф (х/а), против альтернативы Hi, состоящей в том, что G ф Фа. Строится обычная эмпирическая ф.р. Gn и V-статистическая ф.р. п ^.
Bm, n (t) = п~т (Е 1 + - + < *}),.
1.¿-т=1 с.
Здесь и в дальнейшем символ, а означает суммирование по всем перестановкам индексов. Критерии для проверки нормальности могут быть основаны на следующих статистиках:
В, п = Г [S2,n (i) — Gn (t)]dGn (t), J —00 оо.
BmAt)-Gn (t)]dGn (t), оо.
Bin = Г [B2,n (t) — Gn{t)fdGn{t). J —оо.
Для этих статистик находятся предельные распределения:
Теорема 4.2.1 Для статистики Вп при п —"• оо справедливо: где (о) определена в (4−2.2).
Теорема 4.3.1 Для статистики В}пп при п —* оо справедливо: где Д2(то) определена в (4−3.5).
Теорема 4.4.1 Для статистики при п оо имеет место слабая сходимость где f? i (a) — собственные числа интегрального оператора с ядром Фa{s, t) из (4−4-9), действующего из L2(R}) в L2(Rl).
Вычисляется АОЭ по Бахадуру этих статистик, находятся параметры, а и то, для которых она достигает своего максимума, а также значения этих максимумов.
В заключительной пятой главе мы строим критерии согласия для симметричного распределения Коши, основываясь на следующих харак-теризациях. Первая из них принадлежит Б. Арнольду [20] и формулируется так:
Пусть X и Y — н.о.р.с.в., имеющие непрерывную ф.р. F. Тогда X и одинаково распределены тогда и только тогда, когда F есть ф.р. Коши с плотностью f (x) = (7г (1 + х2))-1.
Вторая характеризация восходит к работе Рамачандрана и Pao [61], см. также [7], § 13.7. Ее упрощенная формулировка такова:
Пусть Xi,., Xm, то ^ 2 — н.о.р.с.в., имеющие ф.р. F, а постоянные а,., ат таковы, что a? ф 0 и YllLi! aii = 1″ причем хотя бы два числа из чисел — ln г = 1,., то несоизмеримы. Статистики Х и одинаково распределены тогда и только тогда, когда Р есть симметричная ф.р. Коши с произвольным параметром масштаба.
Пусть Х,., Хп н.о.р.с.в., имеющие ф.р. (7. Основываясь на первой характеризации, мы можем проверить простую основную гипотезу Яо> которая состоит в том, что (7 есть ф.р. Коши .Р с плотностью /, против альтернативы Н, состоящей в том, что й Ф Р. Вторая характеризация позволяет проверить сложную гипотезу Н'0 о том, что распределение выборки принадлежит симметричному семейству Коши с произвольным масштабом против альтернативы Н[, состоящей в том, что распределение выборки не принадлежит этому семейству.
В соответствии с этими характеризациями, строим эмпирическую ф.р. ??" (см.(0.0.3)) и У-статистические ф.р.:
Критерии для проверки распределения Коши могут быть основаны на статистиках.
Для введенных статистик доказана асимптотическая нормальность: Теорема 5.2.1 Для статистики при п —* оо справедливо: 1.
Мт, п{1) = пт? — (? Ца^Х, +. + а^Х^ < ?}) п.
1I Ы X.
1>—|"т=1 <�Г.
Теорема 5.3.1 Для статистики М* при п—* оо справедливо:
-^(о.ЭДУа)), где А10 (а) определена в (5.3.2).
Для обеих статистик далее находится локальная АОЭ по Бахадуру. Полученные нами результаты позволяют дать рекомендации по использованию предложенных статистик на практике.
Результаты диссертации докладывались автором на Восьмой Всероссийской школе — коллоквиуме по стохастическим методам (Йошкар-Ола, 1−6 декабря 2001), на Восьмой международной конференции по теории вероятностей и математической статистике (Вильнюс, 23−29 июня 2002), на семинаре Института математической стохастики Геттингенского университета под руководством проф. М. Денкера (февраль 2001), а также на семинаре по теории вероятностей и математической статистике в ПО-МИ РАН под руководством академика И. А. Ибрагимова (апрель 2004). Они опубликованы в пяти работах [64] - [68].
Заключение
.
Полученные в работе результаты вкратце таковы. Предложено и изучено несколько новых статистик для проверки согласия и симметрии, основанных на идеях характеризации. Для всех рассматриваемых статистик найдено предельное распределение, что позволяет строить асимптотические критерии значимости. Вычислена локальная бахадуровская эффективность всех изучаемых статистик при разнообразных альтернативах, она представлена аналитически и в виде графиков.
Статистики «первого порядка» более просты по конструкции, имеют в пределе нормальное распределение, причем, как оказалось, их эффективность выше или сравнима с эффективностью сложных и громоздких статистик «второго порядка» для рассматриваемого класса альтернатив. Это позволяет рекомендовать для статистической практики в первую очередь статистики «первого порядка.» .
Отметим, что статистики для проверки симметрии, нормальности и распределения Коши оказались весьма эффективными для рассмотренных альтернатив. Почти все наши статистики зависели от параметров, поэтому и эффективность вычислялась в зависимости от этих параметров. Для практического использования статистик приведены те значения параметров, которые мы рекомендуем для применения.
Напротив, новые критерии экспоненциальности оказались не слишком эффективными для стандартных альтернатив. Мы рекомендуем использовать вместо них классический тест Джини, эффективность которого значительно выше.