Основы научных исследований (стр. 7 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

1. О форме корреляционной связи между X и Y в виде некоторой функциональной зависимости, которая хотя бы приближенно изображала расплывчатую корреляционную зависимость.

2. Об оценке тесноты корреляционной связи между X и Y, т, е, о степени близости корреляционной зависимости к функциональной.

Регрессии. Эмпирические формулы

Задача о форме корреляционной связи решается с помощью регрессий.

Регрессией Y от X называется функциональная зависимость между значениями х и соответствующими условными средними значениями ух.

В табличном виде регрессия определяется строкой значений X и строкой № 2 таблиц типа табл. 10.14 или 10.16 (с учетом строки № 1).

В случае полной корреляции существует также регрессия X от Y как функциональная зависимость между у и , определяемая столбцом значений Y и столбцом № 2 таблиц типа табл. 10.16 (с учетом столбца № 1).

Регрессии можно представить геометрически в виде ломаных линий, соединяющих или точки или точки .

Эти линии называются эмпирическими (полученными из опыта) ломаными линиями регрессии.

Так, для данных табл. 10.14 имеем ломаную линию регрессии, изображенную на рис. 10.8, а для данных табл. 10.16 – на рис. 10.9.

Регрессии, полученные в виде таблиц или ломаных линий, характеризуют форму корреляционной зависимости между X и Y лишь для выборочных совокупностей. Для генеральной же совокупности они дают приближенную картину этой зависимости. Очевидно, приближение будет тем точнее, чем больше объем выборки п и чем меньше брать частные интервалы Δх и Δу. При этом ломаная линия регрессии будет приближаться к некоторой плавной кривой. Правда, такую плавную кривую можно получить и иначе – если ломаную линию регрессии «сгладить» посредством какой-либо известной линии (прямой, параболы, гиперболы и т. п.).

НЕ нашли? Не то? Что вы ищете?

Рис. 10.8

Рис. 10.9

Уравнение сглаживающей линии даст хотя и приближенно, но зато аналитическое – в виде формулы – выражение регрессии. Подобные формулы называются эмпирическими.

Так, на рис. 10.8 ломаную линию регрессии целесообразно выравнить некоторой параболой у = ах2 + вх + с, а на рис. 10.9 некоторой прямой у = ах + в. В этих уравнениях надо подобрать такие числовые значения параметров а, в и с, чтобы из всех парабол и прямых выбранного типа найти те, которые проходили бы ближе всего к ломаным линиям регрессии.

Из сказанного следует, что задача поиска эмпирической формулы распадается на две:

1) выбор типа линии, выравнивающей ломаную регрессии, т. е. типа линии, около которой группируются экспериментальные точки или точки ;

2) определение параметров, входящих в уравнение линии выбранного типа, таким образом, чтобы из множества линий этого типа взять ту, которая наиболее близко проходит около точек ломаной регрессии.

1) Выбор типа линии, выравнивающей ломаную линию регрессии

Для выбора типа линии, выравнивающей ломаную линию регрессии, необходимо хорошо знать простейшие виды линий и их уравнения.

Прямая, проходящая через начало координат (рис. 10.10). Уравнение этой прямой

y = a·x

(10.9)

Имеем зависимость прямой пропорциональности между у и х.

Линии такого типа выбирают в тех случаях, когда при х = 0 у должен быть равен 0 и экспериментальные точки располагаются приблизительно вдоль прямой. Формула (10.9) содержит лишь один параметр а.

Прямая, не проходящая через начало координат (рис. 10.11).

Уравнение этой прямой

y = a·x + b

(10.10)

Имеем линейную зависимость у от х.

Формула (10.10) содержит два параметра — а и b.

Параболы с вершиной в начале координат, симметричные одной из осей координат (рис. 10.12 и 10.13). Их уравнения

(10.11)

y = a·x2

(10.12)

Здесь одна из величин х или у пропорциональна квадрату другой.

Формулы (10.11) и (10.12) содержат один параметр а.


Рис. 10.10	Рис. 10.11

Рис. 10.12	Рис. 10.13

Рис. 10.14	Рис. 10.15

Парабола, симметричная прямой, параллельной оси 0Y (рис. 10.14 и 10.15). Ее уравнение

y = a·x2 + b·x + c

(10.13)

Направление выпуклости зависит от знака коэффициента а (при а < 0 выпуклость направлена вверх, при а > 0 – вниз).

Линии этого типа выбирают в тех случаях, когда имеется один максимум или один минимум и кривые симметричны относительно прямой, параллельной оси 0Y. Формулы содержат три параметра – a, b, c.

Гипербола, асимптотически приближающаяся к осям координат (рис. 10.16). Ее уравнение

(10.14)

Имеем зависимость обратной пропорциональности между х и у. Формула (10.14) содержит один параметр а.

Рис. 10.16

Гипербола, асимптотически приближающаяся к прямым, параллельным осям координат (рис. 10.17 и 1.18). Уравнение –

(10.15))

Формула содержит три параметра а, b и с, причем параметры а и b – это координаты точки М пересечения асимптот. Знак параметра с зависит от расположения гиперболы относительно асимптот.


Рис. 10.17	Рис. 10.18

Общие степенные кривые (рис. 10.19 и 10.20). Такими кривыми называются кривые, имеющие уравнения вида

(10.16)

где а может быть положительным или отрицательным, целым или дробным, правильной или неправильной дробью. В частности, степенными кривыми являются и параболы (формулы (10.11) и (10.12)) при а = 2 или 1/2, и гиперболы (формула (10.14)) при а = – 1. При других значениях а степенные кривые отличаются от парабол и гипербол лишь степенью крутизны. Формула (10.16) содержит два параметра а и b поэтому ее можно использовать более широко, чем формулы (10.11), (10.12) и (10.14).


Рис. 10.19	Рис. 10.20

Рис. 10.21	Рис. 10.22

Экспоненциальные (показательные) кривые (рис. 10.21 и 10.22).

Уравнения этих кривых

	(10.17)
	(10.18)

Кривая (10.17) асимптотически приближается к оси X, пересекает ось Y и при b > 0 обращена вогнутостью вниз. Кривая, выраженная уравнением (10.18), асимптотически приближается к прямой, параллельной оси X, и при b > 0 обращена вогнутостью вверх. Экспоненциальными функциями типа (10.17) и (10.18) хорошо изображаются различные процессы, затухающие во времени.

Кривые Гаусса (рис. 10.23). Уравнения этих кривых, которые играют особо важную роль в математической статистике,

	(10.19)
	(10.20)

Кривая, уравнение которой (10.19), симметрична относительно оси OY и имеет максимум ymax = 1 при х = 0. Кривая, уравнение которой (10.20), является вытянутой (или сжатой) в вертикальном и горизонтальном направлениях и смещенной на величину а от оси OY.


Рис. 10.23	Рис. 10.24

На практике при нанесении точек, соответствующих экспериментальным данным, отдельные точки или группы точек иногда выходят из общего «строя». Например, на рис. 10.24 все точки расположены приблизительно вдоль параболы, и лишь одна точка А занимает особое положение. Особенность ее положения заставляет предполагать ошибку в наблюдениях. Поэтому при поиске эмпирической формулы подобные точки выбрасывают.

2) Определение параметров, входящих в выбранное уравнение.

Для определения параметров в уравнении выравнивающей линии выбранного типа существует несколько методов:

- метод средних;

- метод проб;

- метод выравненных точек;

- метод наименьших квадратов.

Метод средних и метод проб

Метод средних применяют в тех случаях, когда выбранный тип уравнения выравнивающей линии содержит лишь один параметр а. Метод состоит в том, что параметр а находят как среднюю взвешенную из различных значений а, вычисленных по выбранной формуле после подстановок в нее вместо х и у числовых значений х и из соответствующей таблицы регрессии.

Метод проб используют, когда выбранная формула содержит несколько параметров, например два – а и b. Он заключается в том, что всем параметрам, кроме какого-нибудь одного (наиболее неясного), дают ориентировочные числовые значения, а значение оставшегося неопределенного параметра находят методом средних. Затем можно внести коррективы, фиксировав этот последний параметр, и определить методом средних новое значение другого параметра, которому ранее давалось ориентировочное значение.

Пример 10.23. Найти эмпирическую формулу для статистической зависимости между круткой X и укруткой Y на основании результатов эксперимента, сведенных в табл. 10.14.

Ломаная линия регрессии для этой статистической зависимости изображена на рис. 10.8 Она близка к параболе, симметричной оси ординат с вершиной, смещенной по оси ОY на некоторую величину с; поэтому эмпирическую формулу можно искать в виде квадратической функции (10.13), только без члена bх:

y = a·x2 + c

где с – ордината вершины параболы на оси ординат (при х = 0 у = с). Если приблизительно принять с = 100, то искомая формула примет вид

y = a·x2 + 100

Этот параметр будем определять методом средних.

Подставив в последнюю формулу вместо х его значения из табл. 10.14, т. е. 10; 50; 100; 150 и 200, а вместо у значения равные 100; 99; 98; 95 и 88, получим пять уравнений, из которых находим пять значений а:

Искомое значение а вычисляем как среднее взвешенное:

Итак, эмпирическая формула имеет вид

y = – 0,0002x2 + 100

Для большего уточнения можно было бы теперь в искомой формуле y = a·x2 + 100 положить а = – 0,0002, а с искать методом средних. Но в данном случае это нецелесообразно, так как с = 100, судя по рис. 10.8 и по существу задачи, достаточно достоверно.

Метод выравненных (или выбранных) точек

Метод выравненных (или выбранных) точек состоит в выборе по чертежу нескольких точек (не обязательно совпадающих с точками линии регрессии), через которые проводят выравнивающую линию и определяют ее уравнение по координатам этих выбранных точек.

Метод наименьших квадратов

Предположим, что точки ; ... ; ломаной линии регрессии располагаются вблизи некоторой прямой (рис. 10.25). Следовательно, эмпирическую формулу целесообразно искать в виде

(10.21)

где — текущие ординаты точек искомой прямой. Но так как через обозначаются также ординаты экспериментальных точек регрессии, целесообразно другое написание формулы (10.21):

(10.22)

Метод наименьших квадратов для определения параметров а и b состоит в том, что их находят из условия, чтобы сумма квадратов отклонений ординат прямой (10.22) от соответствующих ординат регрессии была бы наименьшей (отсюда и название метода).

Составим эти отклонения di для всех значений х1, х2, . . . , xk:

…

Рис. 10.25

Казалось бы, что прямая (10.22) пройдет ближе всего от точек регрессии, если сумма всех di, взвешенных по соответствующим численностям mx1, mx2, . . . mxk т. е. была бы наименьшей. Но так как некоторые di могут быть положительными, а другие отрицательными, т. е. точки могут расположиться по обе стороны прямой, возможно, что сумма отклонений di окажется весьма малой, хотя точки будут расположены от прямой далеко. Чтобы избежать подобного положения, надо нейтрализовать влияние знаков отклонений di . Для этого вместо наименьшего значения суммы отклонений следует требовать, чтобы наименьшей была взвешенная сумма квадратов отклонений

Обозначим эту сумму через j:

(10.23)

или более кратко

(10.24)

где знак х над знаком суммы Σ означает, что суммирование распространяется на все ранее фиксированные значения х.

Так как величина j зависит от а и b, то ее можно рассматривать как функцию двух переменных а и b:

j = F(a; b)

Для нахождения ее минимума применяют известный прием дифференциального исчисления, заключающийся в отыскании двух частных производных первого порядка от функции j по а и bt приравнивании их к нулю и в определении критических значений а и b из полученных двух уравнений, а именно

Сократив эти уравнения на 2, раскрыв скобки, просуммировав почленно и вынеся затем а и b за знаки сумм, получим:

(10.25)

Величины mx, x и известны, поэтому имеем систему двух уравнений первой степени относительно неизвестных а и b с коэффициентами и

Решив их относительно а и b, получим следующие готовые формулы:

		(10.26)
	(10.27)

Для облегчения вычисления сумм, входящих в эти формулы, рекомендуется составить дополнительную таблицу (табл. 10.17).

Таблица 10.17

mx	x		mx·x	mx·x2	mx	mx·x
…	…	…	…	…	…	…
			Smx·x	Smx·x2	Smx	Smx·x

Заметим, что формулы (10.26) и (10.27) были выведены в предположении того, что численности mx1,mx2,... mxk значений y для каждого значения х1 х2, . . . , xk отличны друг от друга. Если же они одинаковы и равны mх, то n = kmx и формулы (10.26) и (10.27) значительно упростятся благодаря сокращению числителей и знаменателей на mx·x2. В результате получим частный вид этих формул:

	(10.28)
	(10.29)

В этом случае значительно упростится и вспомогательная таблица. Она примет вид таблицы 10.18.

Таблица 10.18

x		x2	x
…	…	…	…
Sx	S	S x2	S x

Пример 10.24. В таблице 10.19 приведены результаты измерений прочности у образцов льняной пряжи в зависимости от влажности воздуха х; проведено по шесть испытаний пряжи на прочность при одной и той же влажности.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы