Партнерка на США и Канаду по недвижимости, выплаты в крипто
- 30% recurring commission
- Выплаты в USDT
- Вывод каждую неделю
- Комиссия до 5 лет за каждого referral
В итоге можно сказать, что от правильного выбора вида средней величины в каждом конкретном случае зависит успешное решение задач статистического исследования. Выбор средней предполагает такую последовательность:
а) установление обобщающего показателя совокупности;
б) определение для данного обобщающего показателя математического соотношения величин;
в) замена индивидуальных значений средними величинами;
г) расчет средней с помощью соответствующего уравнения.
Вопросы для самоконтроля к теме 5
6.
Тема 6. Анализ вариации
6.1.
Понятие вариации. Показатели вариации
Вариацию можно определить как количественное различие значений одного и того же признака у отдельных единиц совокупности. Термин «вариация» имеет латинское происхождение - variatio, что означает различие, изменение, колеблемость. Изучение вариации в статистической практике позволяет установить зависимость между изменением, которое происходит в исследуемом признаке, и теми факторами, которые вызывают данное изменение.
Для измерения вариации признака используют как абсолютные, так и относительные показатели.
К абсолютным показателям вариации относят: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, дисперсию.
К относительным показателям вариации относят: коэффициент осцилляции, линейный коэффициент вариации, относительное линейное отклонение и др.
Размах вариации R. Это самый доступный по простоте расчета абсолютный показатель, который определяется как разность между самым большим и самым малым значениями признака у единиц данной совокупности:
(6.1)
Размах вариации (размах колебаний) - важный показатель колеблемости признака, но он дает возможность увидеть только крайние отклонения, что ограничивает область его применения. Для более точной характеристики вариации признака на основе учета его колеблемости используются другие показатели.
("17") Среднее линейное отклонение d, которое вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности. Эта величина определяется как средняя арифметическая из абсолютных значений отклонений от средней. Так как сумма отклонений значений признака от средней величины равна нулю, то все отклонения берутся по модулю.
Формула среднего линейного отклонения (простая)
(6.2)
Формула среднего линейного отклонения (взвешенная)
(6.3)
При использовании показателя среднего линейного отклонения возникают определенные неудобства, связанные с тем, что приходится иметь дело не только с положительными, но и с отрицательными величинами, что побудило искать другие способы оценки вариации, чтобы иметь дело только с положительными величинами. Таким способом стало возведение всех отклонений во вторую степень. Обобщающие показатели, найденные с использованием вторых степеней отклонений, получили очень широкое распространение. К таким показателям относятся среднее квадратическое отклонение
и среднее квадратическое отклонение в квадрате
, которое называют дисперсией.
Средняя квадратическая простая
(6.4)
Средняя квадратическая взвешенная
(6.5)
Дисперсия есть не что иное, как средний квадрат отклонений индивидуальных значений признака от его средней величины.
Формулы дисперсии взвешенной
и простой
:
(6.6)
Расчет дисперсии можно упростить. Для этого используется способ отсчета от условного нуля (способ моментов), если имеют место равные интервалы в вариационном ряду.
Кроме показателей вариации, выраженных в абсолютных величинах, в статистическом исследовании используются показатели вариации (V), выраженные в относительных величинах, особенно для целей сравнения колеблемости различных признаков одной и той же совокупности или для сравнения колеблемости одного и того же признака в нескольких совокупностях.
Данные показатели рассчитываются как отношение размаха вариации к средней величине признака (коэффициент осцилляции), отношение среднего линейного отклонения к средней величине признака (линейный коэффициент вариации), отношение среднего квадратического отклонения к средней величине признака (коэффициент вариации) и, как правило, выражаются в процентах.
Формулы расчета относительных показателей вариации:
(6.7)
где VR - коэффициент осцилляции;
- линейный коэффициент вариации;
- коэффициент вариации.
Из приведенных формул видно, что чем больше коэффициент V приближен к нулю, тем меньше вариация значений признака.
("18") В статистической практике наиболее часто применяется коэффициент вариации. Он используется не только для сравнительной оценки вариации, но и для характеристики однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределений, близких к нормальному).
6.2.
Виды (показатели) дисперсий и правило их сложения
В статистическом исследовании очень часто бывает необходимо не только изучить вариации признака по всей совокупности, но и проследить количественные изменения признака по однородным группам совокупности, а также и между группами. Следовательно, помимо общей средней для всей совокупности необходимо просчитывать и частные средние величины по отдельным группам.
Различают три вида дисперсий:
- общая; средняя внутригрупповая; межгрупповая.
Общая дисперсия (
) характеризует вариацию признака всей совокупности под влиянием всех тех факторов, которые обусловили данную вариацию. Эта величина определяется по формуле
(6.8)
где -
общая средняя арифметическая всей исследуемой совокупности.
Средняя внутригрупповая дисперсия (
) свидетельствует о случайной вариации, которая может возникнуть под влиянием каких-либо неучтенных факторов и которая не зависит от признака-фактора, положенного в основу группировки. Данная дисперсия рассчитывается следующим образом: сначала рассчитываются дисперсии по отдельным группам (
), затем рассчитывается средняя внутригрупповая дисперсия
:
(6.9)
где ni - число единиц в группе
Межгрупповая дисперсия
(дисперсия групповых средних) характеризует систематическую вариацию, т. е. различия в величине исследуемого признака, возникающие под влиянием признака-фактора, который положен в основу группировки. Эта дисперсия рассчитывается по формуле
(6.10)
где -
средняя величина по отдельной группе.
Все три вида дисперсии связаны между собой: общая дисперсия равна сумме средней внутригрупповой дисперсии и межгрупповой дисперсии:
(6.11)
Данное соотношение отражает закон, который называют правилом сложения дисперсий. Согласно этому закону (правилу), общая дисперсия, которая возникает под влиянием всех факторов, равна сумме дисперсий, которые появляются как под влиянием признака-фактора, положенного в основу группировки, так и под влиянием других факторов. Благодаря правилу сложения дисперсий можно определить, какая часть общей дисперсии находится под влиянием признака-фактора, положенного в основу группировки.
("19") Вопросы для самоконтроля к теме 6
7.
Тема 7. Ряды распределения
7.1.
Ряды распределения и их построение
Важнейшей частью статистического анализа является построение рядов распределения (структурной группировки) с целью выделения характерных свойств и закономерностей изучаемой совокупности. В зависимости от того, какой признак (количественный или качественный) взят за основу группировки данных, различают соответственно типы рядов распределения.
Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по видам труда, по полу, по профессии, по религиозному признаку, национальной принадлежности и т. д.).
Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным. Построить вариационный ряд - значит упорядочить количественное распределение единиц совокупности по значениям признака, а затем подсчитать числа единиц совокупности с этими значениями (построить групповую таблицу).
Выделяют три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.
Ранжированный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.
Другие формы вариационного ряда - групповые таблицы, составленные по характеру вариации значений изучаемого признака. По характеру вариации различают дискретные (прерывные) и непрерывные признаки.
Дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести тарифный разряд, количество детей в семье, число работников на предприятии и т. д. Эти признаки могут принимать только конечное число определенных значений.
Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака.
Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т. д., которые в определенных границах могут принимать любые значения), то для этого признака нужно строить интервальный вариационный ряд.
Групповая таблица здесь также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота).
Частота (частота повторения) - число повторений отдельного варианта значений признака, обозначается fi, а сумма частот, равная объему исследуемой совокупности, обозначается
![]()
где k - число вариантов значений признака
Очень часто таблица дополняется графой, в которой подсчитываются накопленные частоты S, которые показывают, какое количество единиц совокупности имеет значение признака не большее, чем данное значение.
Частоты ряда f могут заменяться частостями w, выраженными в относительных числах (долях или процентах). Они представляют собой отношения частот каждого интервала к их общей сумме, т. е.:
("20")
(7.1)
При построении вариационного ряда с интервальными значениями прежде всего необходимо установить величину интервала i, которая определяется как отношение размаха вариации R к числу групп m:
(7.2)
где R = xmax - xmin ; m = 1 + 3,322 lgn (формула Стерджесса); n - общее число единиц совокупности.
7.2.
Медиана и мода - структурные (распределительные) средние величины
Для определения структуры совокупности используют особые средние показатели, к которым относятся медиана и мода, или так называемые структурные средние. Если средняя арифметическая рассчитывается на основе использования всех вариантов значений признака, то медиана и мода характеризуют величину того варианта, который занимает определенное среднее положение в ранжированном вариационном ряду.
Медиана (Ме) - это величина, которая соответствует варианту, находящемуся в середине ранжированного ряда.
Для ранжированного ряда с нечетным числом индивидуальных величин (например, 1, 2, 3, 3, 6, 7, 9, 9, 10) медианой будет величина, которая расположена в центре ряда, т. е. пятая величина.
Для ранжированного ряда с четным числом индивидуальных величин (например, 1, 5, 7, 10, 11, 14) медианой будет средняя арифметическая величина, которая рассчитывается из двух смежных величин. Для нашего случая медиана равна (7+10) : 2= 8,5.
То есть для нахождения медианы сначала необходимо определить ее порядковый номер (ее положение в ранжированном ряду) по формуле
(7.3)
где n - число единиц в совокупности.
Численное значение медианы определяют по накопленным частотам в дискретном вариационном ряду. Для этого сначала следует указать интервал нахождения медианы в интервальном ряду распределения. Медианным называют первый интервал, где сумма накопленных частот превышает половину наблюдений от общего числа всех наблюдений.
Численное значение медианы обычно определяют по формуле
(7.4)
где xМе - нижняя граница медианного интервала; i - величина интервала; S-1 - накопленная частота интервала, которая предшествует медианному; f - частота медианного интервала.
Модой (Мо) называют значение признака, которое встречается наиболее часто у единиц совокупности. Для дискретного ряда модой будет являться вариант с наибольшей частотой. Для определения моды интервального ряда сначала определяют модальный интервал (интервал, имеющий наибольшую частоту). Затем в пределах этого интервала находят то значение признака, которое может являться модой.
Чтобы найти конкретное значение моды, необходимо использовать формулу
(7.5)
("21") где xМо - нижняя граница модального интервала; iМо - величина модального интервала; fМо - частота модального интервала; fМо-1 - частота интервала, предшествующего модальному; fМо+1 - частота интервала, следующего за модальным.
Мода имеет широкое распространение в маркетинговой деятельности при изучении покупательского спроса, особенно при определении пользующихся наибольшим спросом размеров одежды и обуви, при регулировании ценовой политики.
7.3.
Кривые распределения и критерии согласия
Основной целью анализа вариационных рядов является выявление закономерности распределения, исключая при этом влияние случайных для данного распределения факторов. Этого можно достичь, если увеличивать объем исследуемой совокупности и одновременно уменьшать интервал ряда. При попытке изображения этих данных графически мы получим некоторую плавную кривую линию, которая для полигона частот будет являться некоторым пределом. Эту линию называют кривой распределения.
Иными словами, кривая распределения есть графическое изображение в виде непрерывной линии изменения частот в вариационном ряду, которое функционально связано с изменением вариант. Кривая распределения отражает закономерность изменения частот при отсутствии случайных факторов. Графическое изображение облегчает анализ рядов распределения [Литература: 2. C. 115-119, 138-144].
Известно достаточно много форм кривых распределения, по которым может выравниваться вариационный ряд, но в практике статистических исследований наиболее часто используются такие формы, как нормальное распределение и распределение Пуассона.
Нормальное распределение зависит от двух параметров: средней арифметической
и среднего квадратического отклонения
. Его кривая выражается уравнением
(7.6)
где у - ордината кривой нормального распределения;
- стандартизованные отклонения; е и π - математические постоянные; x - варианты вариационного ряда;
- их средняя величина;
- cреднее квадратическое отклонение.
Если нужно получить теоретические частоты f' при выравнивании вариационного ряда по кривой нормального распределения, то можно воспользоваться формулой
(7.7)
где
- сумма всех эмпирических частот вариационного ряда; h - величина интервала в группах;
- cреднее квадратическое отклонение;
- нормированное отклонение вариантов от средней арифметической; все остальные величины легко вычисляются по специальным таблицам.
При помощи этой формулы мы получаем теоретическое (вероятностное) распределение, заменяя им эмпирическое (фактическое) распределение, по характеру они не должны отличаться друг от друга.
Тем не менее в ряде случаев, если вариационный ряд представляет собой распределение по дискретному признаку, где при увеличении значений признака х частоты начинают резко уменьшаться, а средняя арифметическая, в свою очередь, равна или близка по значению к дисперсии (
), такой ряд выравнивается по кривой Пуассона [Литература: 5. С. 45].
Кривую Пуассона можно выразить отношением
(7.8)
где Px - вероятность наступления отдельных значений х;
- средняя арифметическая ряда.
При выравнивании эмпирических данных теоретические частоты можно определить по формуле
(7.9)
("22") где f' - теоретические частоты; N - общее число единиц ряда.
Сравнивая полученные величины теоретических частот f' c эмпирическими (фактическими) частотами f, убеждаемся, что их расхождения могут быть весьма невелики.
Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия.
Для оценки близости эмпирических и теоретических частот применяются критерий согласия Пирсона, критерий согласия Романовского, критерий согласия Колмогорова.
Наиболее распространенным является критерий согласия К. Пирсона
, который можно представить как сумму отношений квадратов расхождений между f' и f к теоретическим частотам:
(7.10)
Вычисленное значение критерия
необходимо сравнить с табличным (критическим) значением
. Табличное значение определяется по специальной таблице, оно зависит от принятой вероятности Р и числа степеней свободы k (при этом k = m - 3, где m - число групп в ряду распределения для нормального распределения). При расчете критерия согласия Пирсона должно соблюдаться следующее условие: достаточно большим должно быть число наблюдений (n
50), при этом если в некоторых интервалах теоретические частоты < 5, то интервалы объединяют для условия > 5.
Если
, то расхождения между эмпирическими и теоретическими частотами распределения могут быть случайными и предположение о близости эмпирического распределения к нормальному не может быть отвергнуто.
В том случае, если отсутствуют таблицы для оценки случайности расхождения теоретических и эмпирических частот, можно использовать критерий согласия КРом, который, используя величину
, предложил оценивать близость эмпирического распределения кривой нормального распределения при помощи отношения
(7.11)
где m - число групп; k = (m число степеней свободы при исчислении частот нормального распределения.
Если вышеуказанное отношение < 3, то расхождения эмпирических и теоретических частот можно считать случайными, а эмпирическое распределение - соответствующим нормальному. Если отношение > 3, то расхождения могут быть достаточно существенными и гипотезу о нормальном распределении следует отвергнуть.
Критерий согласия
используется при определении максимального расхождения между частотами эмпирического и теоретического распределения, вычисляется по формуле
(7.12)
где D - максимальное значение разности между накопленными эмпирическими и теоретическими частотами;
- сумма эмпирических частот.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 |


