Математическая основа логит регрессии

⇐ ПредыдущаяСтр 2 из 5Следующая ⇒

Итак, как уже было сказано, в логит регрессионной модели предсказанные значения зависимой переменной или переменной отклика не могут быть меньше (или равными) 0, или больше (или равными) 1, не зависимо от значений независимых переменных; поэтому, эта модель часто используется для анализа бинарных зависимых переменных или переменных отклика. При этом используется следующее уравнение регреcсии (термин логит был впервые использован Berkson, 1944):

y=exp(b₀+b₁*x₁+...+b_n*x_n)/[1+exp(b₀+b₁*x₁+...+b_n*x_n)]

Легко увидеть, что независимо от регрессионных коэффициентов или величин х, предсказанные значения (у) в этой модели всегда будут лежать в диапазоне от 0 до 1.

Термин логит произошел от того, что эту модель легко линеаризовать с помощью логит преобразования. Предположим, что бинарная зависимая переменная y является непрерывной вероятностью p, лежащей в диапазоне от 0 до 1. Тогда можно преобразовать эту вероятность p следующим образом:

p' = log e {p/(1-p)}

Это преобразование называется логит или логистическим преобразованием.

Заметим, что p' теоретически может принимать любые значения от минус до плюс бесконечности. Поскольку логит преобразование решает проблему 0/1 границ для исходной зависимой переменной (вероятности), то можно использовать эти (логит преобразованные) значения в обычном линейном уравнении регресии.

Фактически, при проведении логит преобразования обеих частей логит регрессионного уравнения, приведенного выше, мы получим стандартную линейную модель множественной регрессии:

p' = b₀+ b₁*x₁+ b₂*x₂+... + b_n*x_n

Подобное уравнение нам уже знакомо. Решив его, мы получим значения регрессионных коэффициентов, по которым затем можно восстановить вероятность р.

Однако, применение логистического преобразования к уравнению логит регрессии порождает определенные проблемы. При решении задачи линейной регрессии мы подгоняли к наблюдаемым значениям некоторую гиперповерхность - прямую в случае простой регрессии, плоскость - в случае двух независимых переменных.

Также мы требуем нормальность и некоррелированность ошибок. При переходе к уравнению логит регрессии подгоняемая поверхность уже не будет иметь такой простой вид.

Также, нас не спасет уже и нормальность ошибок. Все это делает невозможным использования методов оценивания, применяемых для линейных задач.

Например, в случае одной независимой переменной для простой регрессии применялся известный метод наименьших квадратов. В случае простой логит регрессии такой метод уже неприменим. Неприменимыми являются и подобные методы для решения задач с большим числом предикторов.

Поэтому для решения задач логит регрессии используется только метод максимального правдоподобия. Вкратце, процесс оценки регрессионных коэффициентов сводится к максимизации вероятности появления конкретной выборки (при заданных наблюдаемых значениях). Это приводит к часто невысокому проценту корректной классификации. Логит регрессия также слабо устойчива к излишней подгонке.

⇐ Предыдущая 123 4 5 Следующая ⇒

Date: 2015-09-02; view: 558; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (2.494 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию