Измерительная техника. 2014. №7. С. 7 – 10.

УДК 519.24

Анализ свойств выбора оптимального количества интервалов дискретизации области определения плотности вероятности

1,2, 1,2

1Федеральное государственное бюджетное учреждение науки Институт вычислительного моделирования Сибирского отделения РАН, Красноярск, Россия

2Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Сибирский государственный аэрокосмический университет имени академика », Красноярск, Россия

e-mail: *****@***krasn. ru

Пусть имеется выборка из независимых значений одномерной случайной величины с неизвестной плотностью вероятности .

Разобьем область определения на непересекающихся интервалов длиной и сформируем множества случайных величин . В качестве характеристик примем частоту попадания случайной величины в -й интервал и его центр . На основе полученной информации определим массив данных , составленный из центров введенных интервалов и соответствующих им значений оценок плотности вероятности.

В качестве приближения по эмпирическим данным плотности вероятности примем её непараметрическую оценку [1-4]

, (1)

где положительные и нормированные ядерные функции удовлетворяют условию симметричности относительно значений .

Коэффициенты размытости ядерных функций в выражении (1) характеризуют область их определения. Их оптимальный выбор осуществляется в режиме «скользящего экзамена» их условия минимума относительной ошибки аппроксимации

,

где

.

Из условия минимума асимптотического выражения среднеквадратического отклонения от получена процедура оптимального выбора количества интервалов дискретизации [5, 6]

, , (2)

где ; - длина интервала области определения .

Процедура дискретизации (2) определяется видом восстанавливаемой плотности вероятности, областью её определения и объёмом исходных статистических данных.

В условиях неполной информации о виде плотности вероятности определение коэффициента в процедуре (2) возможно на основе оценивания функционала [7-10] либо зависимости от количественных характеристик закона распределения случайной величины.

НЕ нашли? Не то? Что вы ищете?

В данной работе устанавливается и исследуется зависимость между коэффициентами процедуры дискретизации и контрэксцесса закона распределения случайной величины.

Зависимость процедуры оптимального выбора количества интервалов дискретизации от вида плотности вероятности. Определим значения коэффициента процедуры дискретизации для ряда законов распределения случайных величин. Полученные результаты сравнивним с характеристиками законов распределения: коэффициенты эксцесса, контрэксцесса и асимметрии.

Контрэксцесс определяется выражением

,

где - параметр эксцесса, определяемый как . Здесь - среднеквадратическое отклонение, а - четвёртый центральный момент случайной величины .

Значение коэффициента асимметрии рассчитывается как отношение

центрального момента третьего порядка к среднеквадратическому отклонению в третьей степени.

При вычислении коэффициентов , , границы , области определения находятся из условия

.

Выполнение данного положения позволяет обойти проблему вычисления коэффициента при бесконечной области определения и создаёт объективную основу сравнения коэффициентов , , законов распределения.

В качестве примера вычислим значение коэффициента для равномерного закона распределения

. (3)

В этих условиях , а значение . Отсюда следует, что для случайной величины с плотностью вероятности (3) значение коэффициента не зависит от параметров и равно единице. Установленная закономерность свойственна и для других законов распределения, к которым относятся плотности вероятности типа Гаусса, Лапласа и ряда других (см. табл. 1).

Если плотность вероятности случайной величины меняет свой вид при изменении её параметров, то данная тенденция сопровождается изменением значений коэффициента . Например, коэффициент для логнормального закона распределения

не зависит от параметра , но его значения определяются значениями параметра . С ростом значений параметра в интервале значение возрастают с 2.37 до 7.97.

Отмеченная особенность справедлива и для распределения Эрланга

,

где параметр , - натуральное число, а - гамма-функция. Для данного закона распределения коэффициент не зависит от , а его значения определяются параметром .

Симметричные плотности вероятности для и их нормированные фрагменты характеризуются одним и тем же значением коэффициента . Здесь - математическое ожидание случайной величины . Например, плотности вероятности треугольного и линейного вида определяются значением =1.12; законам распределения Лапласа и экспоненциального вида соответствует значение =1.7.

Из анализа информации таблиц 1, 2 следует, что свойства коэффициентов и являются близкими. Поэтому возникает задача оценивания коэффициента по значениям в условиях.

Таблица 1.

Значения коэффициентов эксцесса, контрэксцесса и для симметричных законов распределения случайных величин

Вид распределения

Коэфициенты

эксцесса

контрэксцесса

1. Нормальный

-0,173

0,595

1,294

2. Лапласа

1,788

0,457

1,704

3. Равномерный

-1,195

0,744

0,997

4. Параболический

-0,864

0,684

1,070

5. Кубическая парабола

-0,618

0,648

1,145

6. Треугольный

-0,614

0,647

1,123

Таблица 2.

Значения коэффициентов эксцесса, контрэксцесса и для несимметричных законов распределения случайных величин

Вид распределения

Коэфициенты

эксцесс

контрэксцесс

асимметрия

1. Логнормальный

()

11,913

0,259

2,951

2,378

2. Логнормальный ()

20,448

0,206

3,883

3,217

3. Логнормальный ()

31,651

0,170

4,867

4,506

4. Логнормальный ()

40,278

0,152

5,564

6,158

5. Логнормальный ()

41,582

0,150

5,748

7,977

6. Экспоненциальный

3,139

0,404

1,662

1,704

7. Линейный

-0,627

0,649

0,562

1,123

8. Нормированный фрагмент параболического

()

-0,847

0,681

0,379

1,070

9. Нормированный фрагмент нормального

()

0,360

0,546

0,898

1,294

10. Нормированный фрагмент кубической параболы ()

-0,490

0,631

0,586

1,145

11. Эрланга ()

0,459

0,538

0,759

1,349

12. Эрланга ()

0,916

0,505

0,977

1,362

13. Эрланга ()

1,486

0,472

1,192

1,415

14. Хи квадрат с числом степени свободы =8

0,630

0,525

0,848

1,349

15. Хи-квадрат (=6)

0,917

0,505

0,977

1,363

16. Хи-квадрат (=4)

1,486

0,472

1,192

1,415

17. Хи-квадрат (=2)

3,139

0,404

1,662

1,704

Оценивание по значениям коэффициента контрэксцесса. На основании информации , , представленной в таблице 2, восстановим зависимость для несимметричных законов распределения.

По результатам вычислительных экспериментов установлен вид зависимости

. (4)

Из условия минимума эмпирической ошибки аппроксимации

определим оптимальные параметры =0.16, =0.67, =0.58 зависимости (4). Этим параметрам соответствует значение = 0.047.

Принимая за основу аппроксимацию типа (4), оценим зависимость для симметричных законов распределения. При оптимальных параметрах =0.24, =0.8, =0.15 средняя относительная ошибка аппроксимации =0.013.

Установленная зависимость (4) является устойчивой к изменению количества плотностей вероятности, используемых при её оценивании. Исключим их таблицы 2 информацию о плотностях вероятности с номерамиТогда, при оценивании зависимости (4), её параметры принимают значения =0.14, =0.69, =0.59. Им соответствует относительная ошибка аппроксимации = 0.053.

С ростом коэффициента контрэксцесса значения в формуле (4) уменьшаются. Отметим, что коэффициент косвенно характеризует островершинность плотности вероятности в области её модального значения. Большим значениям коэффициента контрэксцесса свойственны более плоские вершины . В этих условиях уменьшение значений сопровождается снижением количества интервалов дискретизации области определения .

Если >0.5, то коэффициент процедуры дискретизации (2) принимает значения в интервале [1.07; 1.36]. Тогда, при числе наблюдений =100 случайной величины , количество интервалов дискретизации . Этим условиям соответствуют плотности вероятности таблицы 2 под номерами 7-12, 14, 15. Причём увеличение коэффициента асимметрии сопровождается ростом количества интервалов дискретизации области определения .

Данный вывод подтверждается анализом информации таблицы 1.

Рис. 1. Зависимость (4) коэффициента в процедуре дискретизации (2) от контрэксцесса для несимметричных законов распределения. Точки на рисунке соответствуют значениям данных таблицы 2.

Для симметричных законов распределения (=0) значения процедуры дискретизации принадлежат интервалу [1; 1.3]. Исключение составляет закон распределения Лапласа, для которого =1.7, а =0.457. С уменьшением коэффициента контрэксцесса и одновременным увеличением коэффициента асимметрии условия оценивания закона распределения усложняются. Поэтому возникает необходимость повышения количества интервалов дискретизации области значений случайной величины.

Выводы. Коэффициент процедуры оптимального выбора количество интервалов дискретизации определяется нелинейным функционалом от плотности вероятности случайной величины. Для симметричных плотностей вероятности его значения являются постоянными. Например, это характерно для законов распределения Гаусса, Лапласа, равномерного и треугольного. Данная закономерность свойственна также для несимметричных плотностей вероятности, вид которых не зависит от изменения параметров закона распределения (например, линейная и экспоненциальная плотности вероятности). Свойства коэффициентов и контрэксцесса являются близкими. Между ними существует нелинейная зависимость которая позволяет по значениям оценивать значения коэффициента процедуры дискретизации.

При коэффициенте контрэксцесса >0.5 значение коэффициента процедуры дискретизации изменяются в относительно малом интервале. В подобных условиях количество интервалов дискретизации области определения плотностей вероятности отличаются незначительно. С уменьшением значений условия восстановления плотности вероятности усложняются особенно при больших значениях коэффициента асимметрии. При этом значение и количество интервалов дискретизации увеличиваются.

Полученные результаты имеют важное значение в задачах оценивания плотностей вероятности и идентификации законов распределения случайных величин.

Литература

1. , Лапко методики анализа множеств случайных величин // Автометрия. 2003. Т.39, №1. - С.54-61.

2. Lapko A. V., Lapko V. A. Non-parametric Analysis Techniques of Random Values sets // Optoelectronics, Instrumentation and Data Processing. 2003. Т.39, №1. - P.44-50.

3. , Лапко оценка плотности вероятности и её свойства // Системы управления и информационные технологии. 2012. Т.49, №3.1. – С. 152-156.

4. , Лапко доверительных границ для плотности вероятности на основе ее регрессионной оценки // Метрология. 2013. №12. – С. 3-9.

5. , Лапко выбор количества интервалов дискретизации области изменения одномерной случайной величины при оценивании плотности вероятности // Измерительная техника. 2013. №7. – С. 24 – 27.

6. Lapko A. V., Lapko V. A. Optimal selection of the number of sampling intervals in domain of variation of a one-dimensional random variable in estimation of the probability density // Measurement Techniques. 2013. Vol. 56, No. 7. – С. 763 – 767. (DOI: 10.1007/s11018-013-0279-x)

7. , , Егорочкин оценки смеси плотностей вероятности и их применение в задаче распознавания образов // Системы управления и информационные технологии. 2009. Т.35, №1. - С. 60-64.

8. , Лапко структуры смеси непараметрических оценок плотности вероятности многомерной случайной величины // Системы управления и информационные технологию. 2011. Т.43, №1. - С. 12-15.

9. , Лапко дисперсии среднеквадратической ошибки аппроксимации непараметрической оценки плотности вероятности ядерного типа // Информатика и системы управления. 2012. Т. 33, №3. – С. 132-139.

10. , Лапко непараметрической оценки плотности вероятности многомерных случайных величин в условиях больших выборок // Информатика и системы управления. 2012. Т. 32, №2. – С. 121-126.

Домашний адрес:

660036, Красноярск, Академгородок, дом 12 а, .

Дом.

Рабочий адрес:

660036, Красноярск, Академгородок, 50, стр. 44, ИВМ СО РАН

Раб.

21.02.2014

Домашний адрес:

660036, Красноярск, Академгородок, дом 18 д, кв. 63.

Дом.

Рабочий адрес:

660036, Красноярск, Академгородок, 50, стр. 44, ИВМ СО РАН

Раб.

21.02.2014