ПОСТРОЕНИЕ ОПТИМАЛЬНЫХ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ ДЛЯ ПАРАМЕТРОВ ПОЛОЖЕНИЯ

И МАСШТАБА РАСПРЕДЕЛЕНИЙ

Пермский филиал Государственного университета

Высшая школа экономики, г. Пермь

Аннотация. Для построения доверительных интервалов для неизвестных параметров существует много различных методов. Одним из них является точный метод, основанный на центральных функциях истинного закона распределения. В работе рассмотрены основные понятия построения доверительных интервалов минимальной длины, указан алгебраический метод нахождения центральных функций, являющихся основой построения доверительных интервалов фиксированного размера для параметров масштаба и положения, доставляющих максимум доверительной вероятности, а также связанный с ним метод нахождения доверительных границ. Показано, что построение доверительных интервалов заданного размера, максимизирующих доверительную вероятность, сводится к проблеме нахождения экстремума определенного функционала при некотором ограничении. Приведено много иллюстрационных примеров построения доверительных интервалов параметров положения и масштаба фиксированного размера.

Основы доверительного оценивания и построения наилучших доверительных интервалов

Пусть - независимая повторная выборка из некоторой совокупности с параметрами

Доверительный интервал для некоторого параметра функции распределения есть, нестрого говоря [3], интервал в параметрическом пространстве, определяемый какой-либо парой статистик наблюденной выборки накрывающий «истинную» параметрическую точку с вероятностью не меньшей заданного значения . Величину называют доверительной вероятностью.

НЕ нашли? Не то? Что вы ищете?

В тех случаях, когда существует возможность нахождения функции от результатов наблюдения , закон распределения которой не зависит от оцениваемого параметра, наиболее распространенным подходом в построении доверительных интервалов является точный метод.

Например, статистика имеет распределение Стьюдента с степенями свободы [4]. Поэтому, двусторонний доверительный интервал для параметра нормальной совокупности имеет вид:

где - односторонний квантиль распределения Стьюдента с степенью свободы, - выборочное среднее и выборочная дисперсия, соответственно.

Для построения интервальной оценки параметра воспользуемся тем фактом, что статистика имеет распределение Хи-квадрат с степенями свободы [1]. Доверительный интервал для параметра (среднеквадратичного отклонения) имеет вид:

где - квантиль распределения хи-квадрат.

Одной из наиболее широко изучаемых проблем в статистической теории является проблема построения хороших доверительных множеств для параметра , причем как скалярного, так и векторного [3].

При классическом подходе, когда имеет распределение , часто применяется подход, заключающийся в минимизации вероятности накрытия ошибочных значений параметра, если вероятность накрытия истинного значения параметра достаточно велика. Другими словами, желательно найти семейство множеств минимизирующих при ограничении для любого . В литературе такие множества часто называют равномерно наиболее точными доверительными множествами. Но такие доверительные множества часто не существуют даже в классе инвариантных доверительных множеств. Вместо этого часто рассматривается проблема нахождения множества наименьшего размера при ограничении вида для любого .

Такие доверительные интервалы рассматривал Пратт [18,19]. Пратт показал, что минимизация средней длины доверительного интервала связана с минимизацией вероятности накрытия значений параметра, отличных от истинных. Он показал, что в случае двухсторонних доверительных равномерно наиболее точных несмещенных (р. н.т. н.) доверительных интервалов ожидаемая длина интервалов также минимальна. В случае односторонных доверительных интервалов аналогичного заключения сделать нельзя. Этот феномен был проиллюстрирован в работах Пратта [18] и Маданского [16].

Размер доверительного множества измеряется посредством , где - неотрицательная мера, определенная на параметрическом пространстве. В задачах с непрерывным параметром в качестве обычно принимают меру Лебега, а в случае дискретного параметра в качестве может быть взята считающая мера. Такой подход в доверительном оценивании можно встретить в работах Хотеллинга (1939), Брауна (1986), Кохена и Стравдермана (1973), Хванга и Казеллы (1982), Неймана (1986) и Вийсмана (1979), Вайна (1984) и Леманна (1986).

Пусть случайная величина со значениями на отрезке вещественной прямой, плотность распределения которой принадлежит семейству , которое будем называть семейством сдвигов независимо от того один или оба параметра ( – положения, – масштаба) неизвестны. Так как , где имеет плотность распределения , то известный параметр можно просто опускать, полагая, что включает множитель , если он известен, а при известном принять в качестве наблюдаемой величины. С учетом этого, можно охватить все три случая единой записью, используя для обозначения пары символ , а для преобразования . В каждом из трех случаев множество всех преобразований образует группу, символами будем обозначать тождественное преобразование (единицу группы) и преобразование обратное к . Будем предполагать, что для семейств, зависящих только от параметра масштаба и для двух других случаев. При этом общая плотность семейства запишется в виде , где равно .

Рассматривается следующий точный метод построения доверительных множеств: выбирается эквивариантная статистика , а затем ищется множество такое, что , где - доверительная вероятность. Поскольку эквивариантна, вероятность в левой части не зависит от параметра, а ограничение на параметр под знаком этой вероятности определяет доверительное множество. Приведем необходимые далее определения [8,10].

Определение 1. Статистика называется центральной статистикой (или функцией), если она является функцией выборки и ее закон распределения не зависит от параметра .

Определение 2. Статистика является эквивариантной, если она является функцией выборки и удовлетворяет условию для всех и всех .

Определение 3. Интервал назовем оптимальным доверительным интервалом размера , если существуют эквивариантная статистика и непрерывная вещественная функция такие, что и вероятность

(1)

максимальна при любом . Ясно, что для параметра положения это будут интервалы фиксированной длины , а для параметра масштаба – интервалы с фиксированным отношением концов, равным .

Доверительный интервал предпочтительнее интервала , если при всех

Пусть - -алгебра инвариантных подмножеств и - инвариантная мера на , то , тогда в силу формулы усреднения относительно , общий вид которой получен в работе [12] , вероятность запишется в виде

где - индикаторная функция отрезка и и тогда

Поскольку делитель является постоянной функцией, то оптимальная функция при известном удовлетворяет соотношению

(2)

при указанном ранее ограничении на размер. Так как и подынтегральная функция в левой части соотношения непрерывна по , то пара , определяющая оптимальный доверительный интервал, должна быть решением функционального уравнения

(3)

Таким образом проблема построения доверительных интервалов заданного размера, максимизирующих доверительную вероятность, сведена к нахождению экстремума определенного функционала при некотором ограничении.

Центральные функции и их плотность распределения

Для построения интервалов оптимальной длины в смысле определения 3 введем следующие понятия.

Определение 4. Пусть существует нетривиальная достаточная статистика для параметра на основе повторной выборки из совокупности . Если достаточная статистика для и

то будем называть главным фактором критерия факторизации.

Будем предполагать, что преобразованию соответствует следующее преобразование достаточной статистики

(3)

где –вектор, а –матрица, согласованных с размерностей.

Далее введем обозначение и будем предполагать, что содержит открытое подмножество мерного евклидова пространства для любого , это предположение эквивалентно тому, что с ненулевой вероятностью множество значений достаточной статистики содержит подмножество размерности при любом .

Согласно [13], систему множеств будем называть однородной, если для любого и произвольного фиксированного элемента найдется такой элемент , что уравнение

(4)

имеет решение. Ясно, что необходимым условием однородности является следующее неравенство , так как при фиксированном значения функция от в правой части уравнения лежат на некоторой поверхности, размерность которой не больше числа параметров, в то время как размерность достаточной статистики может равняться .

Это решение будем обозначать через . В статье [14] приведен следующий результат:

Теорема. () Если распределение достаточной статистики на основе повторной выборки из совокупности сдвигов абсолютно непрерывно относительно меры Лебега на и система множеств однородна, то плотность распределения этой достаточной статистики определяется формулой

(5)

где константа находится из условия нормировки.

Для экспонентных семейств сдвигов

(6)

и достаточной статистики множества одинаковы для всех , поэтому формула (5) дает следующее выражение для плотности распределения статистики

(7)

Далее, в работе [13] показано, что нормирующая функция экспонентного семейства сдвигов определяется однозначно с точностью до постоянного множителя уравнением

где вектор структурных коэффициентов при известном легко определяется: . При неизвестном вектор находится из уравнений: , где произвольные элементы . Решение этого уравнения при заданном определяется с точностью до некоторых постоянных, которые будем называть параметрами формы.

Лемма 1. При условиях, наложенных выше на , статистика

(8)

является центральной функцией.

Доказательство этого утверждения следует из эквивариантности статистики . Напомним, что статистика называется эквивариантной, если для любого . Решением уравнения

является

С другой стороны, рассматриваемое уравнение можно записать в виде

так что или , и тогда лемма доказана, или , где подмножество элементов из , для которых , то есть являются нулевым вектором и единичной матрицей в соответственно. Нетрудно проверить, что является подгруппой группы . Но из условия следует, что т. е. эквивариантна.

Построение оптимального доверительного интервала постоянной длины

А теперь рассмотрим теорему [9], которая показывает, что для семейств зависящих от параметра положения оптимальный доверительный интервал постоянной длины существует только для 3-ех типов семейств: гипернормального [19], нормального и специфического произведение гипернормальных (назовем его распределением Клебанова - Рухина).

Теорема 1. Если и плотность распределения положительна и непрерывно дифференцируема при всех , то оптимальный доверительный интервал длины для параметра положения существует при любом только тогда, когда плотность имеет один из следующих трех видов:

где параметры указанных плотностей известны.

Доказательство: Полное доказательство этой теоремы рассмотрено в статье [9], здесь же приведено только краткое изложение доказательства.

Пусть - вероятностная плотность, удовлетворяющая условиям теоремы, тогда:

при всех .

Введем обозначения: . Тогда имеем если только . Отсюда выводим:

где функция такова, что . Из существования [8] доказывается монотонность по функции , для любого . Полагая , видим, что

где -некоторая монотонная, вообще говоря, зависящая от . Если и - две такие функции, отвечающие различным значениям , то и, значит, отсюда следует, что . Но из этого соотношения выводим: , так как

Вспоминая определение функции , приходим к уравнению которое нам удобно записать в виде

Решим это уравнение в случае, когда - дважды непрерывно дифференцируемые функции.

Для этого дифференцируем это уравнение по два раза. Получим

Дифференцируя теперь уравнение дважды по переменной , найдем

Отсюда выводим

Положим теперь

Тогда уравнение примет вид

Это уравнение есть линейное дифференциальное уравнение с постоянными коэффициентами. Если характеристическое уравнение

имеет различные корни , то Если же , то Ясно, что . Дифференцируя его по переменной и полагая , находим Отсюда и выводим

или при

В случае кратных корней

причем для следует положить

Нетрудно видеть, что эти решения имеют вероятностный смысл лишь в случае, когда корни уравнения вещественны. Действительно, в случае комплексно сопряженных корней

что не может быть вероятностной плотностью, так как Лебегова мера множества бесконечна. При этом решение также не имеет вероятностного смысла.

Авторское доказательство теоремы 1 является достаточно сложным. Ниже будет показано, что когда семейство сдвигов допускает нетривиальную достаточную статистику те же результаты могут быть получены более простым методом.

В случае параметра положения из условия оптимальности (3) следует, что, если при любом существует оптимальный доверительный интервал длины , то существует нетривиальная достаточная статистика для параметра положения, размерность которой не более двух [9,6]. При этом исходное семейство, ввиду выполнения условия регулярности Дынкина-Брауна [2], является экспоненциальным, те есть

Если , то, не нарушая общности, можно считать, что при ранг достаточной статистики равен [9]. Далее, для всех регулярных семейств со скалярным параметром сдвига, допускающих оптимальные доверительные интервалы для этого параметра, существует эквивалентная достаточная статистика , обладающая следующими свойствами:

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3