Пусть компоненты вектора независимые одинаково распределенные случайные величины. Вектор — реализация вектора .

Определение. Случайные величины называются выборочными случайными величинами, наблюдаемые реализации — значениями выборки, множество, содержащее все возможные значения выборки — выборочным пространством, n — объемом выборки, закон распределения случайных величин называется распределением генеральной совокупности.

Обычно закон распределения выборочных случайных величин неизвестен, поэтому вводится понятие эмпирического (выборочного) закона распределения, полагая, что наблюдаемые реализации являются реализациями случайной величины, с равной вероятностью принимающей значения . Это дискретная случайная величина, которая может быть описана плотностью распределения вида:

.

Функция распределения такой случайной величины называется эмпирической функцией распределения.

По эмпирической функции распределения можно определить эмпирические моменты, например, выборочное математическое ожидание и выборочную дисперсию:

.

Пусть выборка содержит k различных чисел, причем встречается ровно раз.. Число называется частотой элемента выборки . Очевидно, что .

Последовательность пар называется статистическим рядом.

Обычно статистический ряд записывается в виде таблицы, первая строка которой содержит элементы , а вторая — их частоты .

Рассмотрим пример, приведенный в [[5]]. Это данные роста рекрутов, призванных в 1913 году. Данные сведены в таблицу 3, представляющую собой статистический ряд.

Таблица 3

Рост (см)

Частота

Рост (см)

Частота

Рост (см)

Частота

147

1

160

30

172

36

148

0

161

35

173

31

149

0

162

43

174

33

150

2

163

48

175

21

151

4

164

47

176

24

152

3

165

60

177

13

153

4

166

63

178

9

154

7

167

74

179

9

155

6

168

60

180

3

156

12

169

64

181

3

157

14

170

47

182

4

159

22

При большом объеме выборки ее элементы объединяются в группы, представляя результат в виде группированного статистического ряда. Для этого интервал, содержащий все элементы выборки, разбивается на m непересекающихся интервалов одинаковой длины. Затем подсчитывается количество элементов выборки, попавших в i‑й интервал. Эта величина также называется частотой элементов выборки. Группированный статистический ряд — это пара , где середина соответствующего интервала группировки.

НЕ нашли? Не то? Что вы ищете?

Построим группированный статистический ряд для данных таблицы 3. Для этого объединим в группы данные, лежащие в интервале длиной 3 см (таблица 4)

Таблица 4

Рост (см)

Частота

Рост (см)

Частота

Рост (см)

Частота

148

1

164

155

179

9

151

9

167

197

180

3

154

17

170

147

181

3

157

48

174

85

182

4

161

108

177

46

Определение. Кусочно-постоянная функция, постоянная на интервале группировки и принимающая на этом интервале значения частоты элементов выборки называется гистограммой частот.

График соответствующей функции приведен на рис. 17.

Рис. 17

Если все частоты поделить на объем выборки, то полученная гистограмма называется гистограммой относительных частот. Относительная частота играет роль эмпирической вероятности попадания случайной величины в соответствующий интервал.

4.2. Оценка параметров распределения по результатам наблюдения случайной величины

Во многих случаях закон распределения наблюдаемой случайной величины известен с точностью до некоторого параметра (или вектора параметров) . То есть плотность распределения наблюдаемой случайной величины зависит от неизвестного параметра , который и надо определить (оценить) по выборке . Такая задача в математической статистике называется задачей оценки параметров распределения.

Очевидно, что оценка параметра зависит от результатов наблюдений: .

Произвольная функция от результатов наблюдений называется статистикой.

Качество оценок характеризуется следующими основными свойствами.

1.  Состоятельность. Оценка называется состоятельной оценкой параметра , если сходится по вероятности к при увеличении объема выборки (). Это означает, что для любого .

2.  Несмещенность. Оценка называется несмещенной оценкой параметра , если ее математическое ожидание равно оцениваемому параметру, т. е. . Для оценки параметра можно предложить несколько несмещенных оценок. Мерой точности несмещенной оценки считают ее дисперсию.

3.  Эффективность. Несмещенная оценка параметра , дисперсия которой достигает своего наименьшего значения называется эффективной оценкой.

Несмещенная оценка называется асимптотически эффективной, если наименьшая дисперсия достигается в пределе при увеличении объема выборки.

Рассмотрим задачу оценки параметров с позиций теории статистических решений.

Обозначим — оценка неизвестного параметра . Очевидно также принадлежит множеству . Оценка отличается от истинного значения параметра. Введем меру различия между оценкой и истинным значением параметра: — функция со значениями на числовой оси. Минимум этой функции будет при , то есть когда оценка совпадает с истинным значением параметра. Таким образом, . В теории статистических решений эта функция называется функцией потерь, или функцией стоимости, или функцией риска. Чем больше истинное значение параметра отличается от его оценки, тем больше должно быть различие между ними и, следовательно, больше должны быть потери.

Ясно, что при нахождении оценки по результатам наблюдений желательно выбрать такую оценку, для которой различие от истинного значения параметра было бы минимальным. То есть оценка должна минимизировать функцию стоимости.

Но результаты наблюдений есть реализации некоторой векторной случайной величины, следовательно оценка также случайная величина. Кроме того сам оцениваемый параметр также может трактоваться как некоторая случайная величина.

Таким образом, функция потерь зависит от случайных величин и сама является случайной величиной.

С математической точки зрения некорректно находить экстремум случайной величины, поэтому поставить задачу нахождения оценки, которая минимизирует функцию стоимости, невозможно.

Можно поставить задачу получения оценки, которая при большой серии испытаний давала бы в среднем наименьшие потери, то есть в среднем наименее отличалась от истинного значения параметра.

Такой подход приводит к задаче минимизации математического ожидания функции потерь (или функции риска).

Оценка, полученная по этому критерию называется оценкой по минимуму среднего риска.

Чтобы получить такую оценку надо знать закон распределения выборочных случайных величин с точностью до оцениваемого параметра, а также закон распределения самого оцениваемого параметра.

Средний риск, как математическое ожидание функции, риска имеет вид:

.

Здесь — совместная плотность распределения выборочных случайных величин и оцениваемого параметра .

Так как — обычная функция со значениями на числовой оси, то можно поставить задачу нахождения оценки, минимизирующей эту функцию:

. (9)

Здесь учтено, что совместная плотность распределения может быть записана через условную и безусловную плотности двумя разными способами.

Заметим, что задача минимизации среднего риска может быть сведена к задаче минимизации условного риска:

Запишем подынтегральное выражение в (9) в следующем виде:

.

Так как — неотрицательная функция, то минимум среднего риска будет достигаться в том случае, если для каждого значения внутренний интеграл будет минимальным. Таким образом, оценка находится из решения следующей экстремальной задачи:

.

Оценка полученная таким образом называется байесовской оценкой.

Рассмотрим задачу оценки для конкретного вида функции потерь (риска).

4.2.1. Квадратичная функция потерь

В случае оценки одного параметра .

Оптимальная оценка находится из решения следующей экстремальной задачи:

.

Здесь первое слагаемое от не зависит и на решение не влияет, а последний интеграл равен единице.

Нетрудно видеть, что минимизируемая функция есть полином второй степени, минимум которого единственный и достигается в точке:

.

Данный интеграл есть условное математическое ожидание оцениваемого параметра .

Таким образом, оптимальной оценкой параметра по критерию минимума среднего риска при квадратичной функции потерь является условное математическое ожидание оцениваемого параметра.

Пример 1

Пусть — выборочный случайный вектор, компоненты которого независимы и одинаково распределены по гауссовскому закону: .

Оцениваемым параметром является математическое ожидание , которое в свою очередь является случайной величиной, распределенной по гауссовскому закону:

.

Найти оптимальную оценку параметра по критерию минимума среднего риска при квадратичной функции потерь.

Решение задачи

Так как оптимальной оценкой в этом случае является условное математическое ожидание случайной величины , при условии, что выборочный вектор , то найдем условную плотность распределения случайной величины .

По определению .

Подставляя плотности распределения по условию задачи, получим:

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7