Множественная логистическая регрессия

Логистическая регрессия - это разновидность множественной регрессии, общее назначение которой состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами, факторами) и зависимой переменной (переменной отклика).

В основе логистической регрессионной модели лежит следующий принцип: в отличие от линейной регрессионной модели, прогнозируется не само значение переменной отклика (т. е., например, номера класса), а вероятность того, что переменная отклика принимает конкретное значение.

Множественная  (мультиномиальная)  логистическая регрессия (multinomial logistic regression) – это общий случай модели логистической регрессии, в которой зависимая переменная имеет более двух категорий (зависимая переменная не является дихотомической, как при бинарной логистической регрессии).

Зависимая переменная в модели мультиномиальной логистической регрессии может измеряться в порядковой или номинальной шкале. Например, означать политические предпочтения на выборах или выбор торговой марки потребителем. Независимые переменные могут быть категориальными или количественными (то есть иметь номинальную или порядковую шкалу). Категориальные независимые переменные называют факторами. Количественные независимые переменные называют ковариатами (в качестве ковариат допускается применение переменных с интервальной шкалой).

Полезная ссылка  http://www. datuapstrade. lv/rus/spss/section_5/2/

Мультиномиальная логистическая регрессия предназначена для решения задачи классификации.  В данной статье рассматривается вид логистической регрессии, когда категориальная переменная отклика может принимать одно из нескольких (более двух) значений. И мы оцениваем вероятность попадания переменной отклика в определенный класс и используем это для классификации новых объектов.

НЕ нашли? Не то? Что вы ищете?

Предположим, что у нас есть g групп (возможных значений переменной отклика, исходов) {1, 2, . . . , g}, с вероятностями P[y = k] =, k = 1, 2,. . . , g. Вероятности задаются как:

и

Сумма вероятностей равна 1. Здесь мы приняли категорию 1 как эталонную, но вместо нее можно было использовать любую другую категорию.

В модели мультиномиальной логистической регрессии для каждой категории зависимой переменной строится уравнение бинарной логистической регрессии. При этом одна из категорий зависимой переменной становится опорной(эталонной) и все другие категории сравниваются с ней. Уравнение мультиномиальной логистической регрессии прогнозирует вероятность принадлежности к каждой категории зависимой переменной по значениям независимых переменных.

Так как, в данном случае, зависимая переменная включает g категории, то для определения вероятностей отнесения исследуемого объекта к этим g категориям можно сформировать логиты:

Для (эталонная категория) логит будет равен нулю. Пусть решение логита:

= =

Тогда можно сказать, что вероятность включения объекта в класс в раз выше, чем вероятность включения объекта в класс .

Следует отметить, что прямое определение вероятности для g  категорий, интересней, чем соотношение этих вероятностей между собой. Для каждой k-ой категории зависимых переменных эта вероятность может быть вычислена по следующей формуле:

    учитывая, что = 1 (), мы и получим формулу .

Нахождение коэффициентов (называемых параметрическими оценками) и является основной задачей мультиномиальной логистической регрессии. Индекс указывает на номер логита. – константа, за которой далее следует ровно столько коэффициентов,  сколько независимых переменных (факторов) взято в рассмотрение (в нашем случае - один фактор).

Параметры отыскиваются методом максимального правдоподобия.

Подробнее о методе(стр.7): https://edu. kpfu. ru/pluginfile. php/180068/mod_resource/content/3/%D0%9B%D0%BE%D0%B3%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F-2017.pdf

При g = 2 мы возвращаемся к модели логистической регрессии.