Непараметрический медианный доверительный интервал

МГУ имени , факультет ВМК (г. Москва)

В экспериментальной практике при оценке наибольшего сосредоточения («центра») распределения наблюдаемых значений случайной величины (с. в.) часто вместо среднего значения (математического ожидания) используют медиану. В данной работе выводится непараметрический доверительный интервал для медианы, являющийся альтернативой известным параметрическим его аналогам, приводятся модельные расчеты.

Пусть порядковые статистики выборки с. в. , имеющей абсолютно непрерывное  распределение с функцией распределения (ф. р.) и медианой . Рассмотрим с. в. , которая для любого действительного числа равна числу элементов выборки , значения которых не превосходит , где — индикаторная функция множества . Как известно[1,с.130], с. в. распределена по биномиальному закону . Тогда событие , что не менее элементов выборки имеют значения, не превосходящие , эквивалентно событию . С учетом последнего факта справедливы следующие равенства

где — обозначает число сочетаний из по , Таким образом, для заданных можно рассчитать значение , такое что

                               (1)

Величина является доверительной вероятностью медианного доверительного интервала (1). Для вычисления при различных значениях можно применить рекуррентное соотношение

Справедливость последнего следует из очевидной рекуррентной формулы и последовательности следующих равенств:

НЕ нашли? Не то? Что вы ищете?

Для примера в таблице ниже приведены несколько рассчитанных начальных значений

k\n

0

1

2

3

4

5

6

7

0

0

1.0

1.0

1.0

1.0

1.0

1.0

1.0

1

0

0

0.5

0.75

0.875

0.9375

0.9688

0.9844

2

0

0

0

0.25

0.5

0.6875

0.8125

0.8906

3

0

0

0

0

0.125

0.3125

0.5

0.6563

4

0

0

0

0

0

0.0625

0.1875

0.3438

5

0

0

0

0

0

0

0.0313

0.1094

6

0

0

0

0

0

0

0

0.0156

7

0

0

0

0

0

0

0

0

Как видно из таблицы, для заданного получаем множество симметричных медианных -доверительных интервалов. Чем больше величина , тем разнообразнее выбор вероятностей, а, следовательно, и интервалов. Так, при имеем три интервала с соответствующими доверительными вероятностями 0.9688, 0.8125, 0.5 покрытия медианы распределения наблюдаемой с. в. , а при имеем четыре интервала с доверительными вероятностями 0.9844, 0.8906, 0.6563, 0.3438.

Как известно[1,с.129], существует связь между порядковыми статистиками и выборочными -квантилями являющимися выборочными асимптотически нормальными, несмещенными и состоятельными оценками их теоретических аналогов, определяемых как или в нашем случае непрерывной ф. р. . Тогда каждому доверительному интервалу (1) при заданных соответствует множество симметричных интерквантильных интервалов для всех , поскольку, если число дробное, то целая его часть , тогда и . Из этого следует, что с вероятностью в интервал попадают значения с. в. с ф. р. , а вероятность попадания значений с. в. левее этого интервала равна вероятности их попадания правее его и обе равны . В силу этого свойства интерквантильный размах часто используется в практике как мера разброса с. в. . Для однозначного определения значения из интервала разумно взять среднее значение . Тем самым, для любого заданного можно рассчитать последовательность значений порядков симметричных квантилей , интервал между которыми с вероятностью покрывает медиану. В следующей таблице представлены значения для некоторых начальных .

k\n

1

2

3

4

5

6

7

1

0.5

0.25

0.167

0.125

0.10

0.083

0.071

2

0

0

0.5

0.375

0.30

0.250

0.214

3

0

0

0

0

0.5

0.416

0.357

4

0

0

0

0

0

0

0.5

В приведенной ниже таблице на примере стандартного нормального распределения , для которого медиана равна среднему, показаны результаты модельных расчетов доверительного интервала (1) и соответствующих ему характеристик при различных значениях и объемах сгенерированных выборок, чтобы значения были близки к 0.95. Все вычисления были проведены в пакете MATLAB.

n

k

38

14

0.9506

0.3553

-0.6454

0.0250

0.6447

39

14

0.9635

0.3462

-0.6454

0.0579

0.6538

96

40

0.9499

0.4115

-0.2181

0.1662

0.5885

97

40

0.9589

0.4072

-0.2181

0.1662

0.5928

290

131

0.9503

0.45

-0.1182

0.1041

0.55

291

131

0.9558

0.4485

-0.1411

0.1041

0.5515

1000

474

0.9501

0.4735

-0.0541

0.0696

0.5265

1001

474

0.9532

0.4730

-0.0541

0.07

0.527


Таким образом, полученный непараметрический медианный доверительный интервал (1) характеризует не только вероятность покрытия медианы, но и долю содержащихся и не содержащихся в нем выборочных значений наблюдаемой с. в. . С другой стороны, по заданному объему выборки можно рассчитать квантилей с заданными порядками, которые характеризуют не только соответствующее долевое разбиение распределения значений с. в. , но и вероятность покрытия медианы любым из образованных интерквантильных отрезков.

Литература:

1.Ивченко, Г. И., Медведев, в математическую статистику: Учебник. М.: Издательство ЛКИ, 2010. — 600 с.