Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
|
Предпосылки МНКСтр 1 из 2Следующая ⇒
1. Математическое ожидание случайного отклонения εi равно 0 для всех наблюдений (M(εi) = 0). 2. Гомоскедастичность (постоянство дисперсий отклонений). Дисперсия случайных отклонений εi постоянна: D(εi) = D(εj) = S2 для любых i и j. 3. отсутствие автокорреляции. 4. Случайное отклонение должно быть независимо от объясняющих переменных: Yeixi = 0. 5. Модель является линейное относительно параметров. 6. отсутствие мультиколлинеарности. Между объясняющими переменными отсутствует строгая (сильная) линейная зависимость. 7. Ошибки εi имеют нормальное распределение. Выполнимость данной предпосылки важна для проверки статистических гипотез и построения доверительных интервалов.
Эмпирическое уравнение множественной регрессии представим в виде: Y = b0 + b1X1 + b1X1 +... + bmXm + e Здесь b0, b1,..., bm - оценки теоретических значений β0, β1, β2,..., βm коэффициентов регрессии (эмпирические коэффициенты регрессии); e - оценка отклонения ε. При выполнении предпосылок МНК относительно ошибок εi, оценки b0, b1,..., bm параметров β0, β1, β2,..., βm множественной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными (т.е. BLUE-оценками).
Для оценки параметров уравнения множественной регрессии применяют МНК. 1. Оценка уравнения регрессии. Определим вектор оценок коэффициентов регрессии. Согласно методу наименьших квадратов, вектор s получается из выражения: s = (XTX)-1XTY Матрица X
Матрица Y
Матрица XT
Умножаем матрицы, (XTX)
В матрице, (XTX) число 20, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы XT и 1-го столбца матрицы X Умножаем матрицы, (XTY)
Находим обратную матрицу (XTX)-1
Вектор оценок коэффициентов регрессии равен Y(X) = (XTX)-1XTY =
Уравнение регрессии (оценка уравнения регрессии) Y = -480.55-0.44X1 + 0.073X2-14.22X3 + 3.06X4 2. Матрица парных коэффициентов корреляции. Число наблюдений n = 20. Число независимых переменных в модели равно 4, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 6. Матрица, независимых переменных Х имеет размерность (20 х 6). Матрица, составленная из Y и X
Транспонированная матрица.
Матрица ATA.
Полученная матрица имеет следующее соответствие:
Найдем парные коэффициенты корреляции.
Матрица парных коэффициентов корреляции.
Коллинеарность – зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств: r(xjy) > r(xkxj); r(xky) > r(xkxj). Если одно из неравенств не соблюдается, то исключается тот параметр xk или xj, связь которого с результативным показателем Y оказывается наименее тесной. Для отбора наиболее значимых факторов xi учитываются следующие условия: - связь между результативным признаком и факторным должна быть выше межфакторной связи; - связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.; - при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними. Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности. В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы, det(XTX = 0). Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (XTX) близка к вырожденной, т. е. det(XTX ≧ 0) (чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии). Вычисление определителя показано в шаблоне решения Excel В нашем случае rx1 x2 , rx1 x3 , rx1 x4 , rx2 x3 , rx2 x4 , rx3 x4 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа. Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |ryxi| < 0.5 исключают из модели. Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции (по шкале Чеддока): если |r|>0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная. Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми. Рассчитаем наблюдаемые значения t-статистики для ryx1 по формуле:
где m = 1 - количество факторов в уравнении регрессии.
По таблице Стьюдента находим Tтабл tкрит(n-m-1;α/2) = (18;0.025) = 2.101 Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Рассчитаем наблюдаемые значения t-статистики для ryx2 по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Рассчитаем наблюдаемые значения t-статистики для ryx3 по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Рассчитаем наблюдаемые значения t-статистики для ryx4 по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Таким образом, связь между (y и xx1 ), (y и xx2 ), (y и xx3 ), (y и xx4 ) является существенной. Наибольшее влияние на результативный признак оказывает фактор x2 (r = 0.97), значит, при построении модели он войдет в регрессионное уравнение первым. Частные коэффициенты корреляции. Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено. На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.
Теснота связи низкая. Определим значимость коэффициента корреляции ryx1 /x2 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
где k = 1 - число фиксируемых факторов.
По таблице Стьюдента находим Tтабл tкрит(n-k-2;α/2) = (17;0.025) = 2.11 Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим Как видим, связь y и x1 при условии, что x2 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x1 остается нецелесообразным.
Теснота связи сильная Определим значимость коэффициента корреляции ryx1 /x3 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Как видим, связь y и x1 при условии, что x3 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x1 остается нецелесообразным.
Теснота связи сильная Определим значимость коэффициента корреляции ryx1 /x4 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Как видим, связь y и x1 при условии, что x4 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x1 остается нецелесообразным.
Теснота связи сильная Определим значимость коэффициента корреляции ryx2 /x1 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Как видим, связь y и x2 при условии, что x1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2 остается нецелесообразным.
Теснота связи сильная Определим значимость коэффициента корреляции ryx2 /x3 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Как видим, связь y и x2 при условии, что x3 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2 остается нецелесообразным.
Теснота связи сильная Определим значимость коэффициента корреляции ryx2 /x4 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Как видим, связь y и x2 при условии, что x4 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x2 остается нецелесообразным.
Теснота связи низкая. Определим значимость коэффициента корреляции ryx3 /x1 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим Как видим, связь y и x3 при условии, что x1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x3 остается нецелесообразным.
Теснота связи низкая. Определим значимость коэффициента корреляции ryx3 /x2 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим Как видим, связь y и x3 при условии, что x2 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x3 остается нецелесообразным.
Теснота связи умеренная Определим значимость коэффициента корреляции ryx3 /x4 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Как видим, связь y и x3 при условии, что x4 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x3 остается нецелесообразным.
Теснота связи низкая. Определим значимость коэффициента корреляции ryx4 /x1 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим Как видим, связь y и x4 при условии, что x1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x4 остается нецелесообразным.
Теснота связи низкая. Определим значимость коэффициента корреляции ryx4 /x2 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим Как видим, связь y и x4 при условии, что x2 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x4 остается нецелесообразным.
Теснота связи умеренная Определим значимость коэффициента корреляции ryx4 /x3 . Для этого рассчитаем наблюдаемые значения t-статистики по формуле:
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Как видим, связь y и x4 при условии, что x3 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x4 остается нецелесообразным. Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x1, x2, x3, x4. Модель регрессии в стандартном масштабе. Модель регрессии в стандартном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формулам:
где хji - значение переменной хji в i-ом наблюдении.
Таким образом, начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее среднее квадратическое отклонение S. Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением: ty = ∑βjtxj Для оценки β-коэффциентов применим МНК. При этом система нормальных уравнений будет иметь вид: rx1y=β1+rx1x2•β2 +... + rx1xm•βm rx2y=rx2x1•β1 + β2 +... + rx2xm•βm ... rxmy=rxmx1•β1 + rxmx2•β2 +... + βm Для наших данных (берем из матрицы парных коэффициентов корреляции): 0.916 = β1 + 0.947β2 + 0.839β3 -0.874β4 0.975 = 0.947β1 + β2 + 0.856β3 -0.865β4 0.83 = 0.839β1 + 0.856β2 + β3 -0.758β4 -0.832 = -0.874β1 -0.865β2 -0.758β3 + β4 Данную систему линейных уравнений решаем методом Гаусса: β1 = -0.0527; β2 = 1.061; β3 = -0.0105; β4 = 0.0313; Стандартизированная форма уравнения регрессии имеет вид: y0 = -0.0527x1 + 1.061x2 -0.0105x3 + 0.0313x4 Найденные из данной системы β–коэффициенты позволяют определить значения коэффициентов в регрессии в естественном масштабе по формулам:
3. Анализ параметров уравнения регрессии. Перейдем к статистическому анализу полученного уравнения регрессии: проверке значимости уравнения и его коэффициентов, исследованию абсолютных и относительных ошибок аппроксимации Для несмещенной оценки дисперсии проделаем следующие вычисления: Несмещенная ошибка ε = Y - Y(x) = Y - X*s (абсолютная ошибка аппроксимации)
Средняя ошибка аппроксимации
Оценка дисперсии равна: se2 = (Y - X*Y(X))T(Y - X*Y(X)) = 58665.94 Несмещенная оценка дисперсии равна:
Оценка среднеквадратичного отклонения равна (стандартная ошибка для оценки Y):
Найдем оценку ковариационной матрицы вектора k = S • (XTX)-1
Дисперсии параметров модели определяются соотношением S2i = Kii, т.е. это элементы, лежащие на главной диагонали Показатели тесноты связи факторов с результатом. Если факторные признаки различны по своей сущности и (или) имеют различные единицы измерения, то коэффициенты регрессии bj при разных факторах являются несопоставимыми. Поэтому уравнение регрессии дополняют соизмеримыми показателями тесноты связи фактора с результатом, позволяющими ранжировать факторы по силе влияния на результат. К таким показателям тесноты связи относят: частные коэффициенты эластичности, β–коэффициенты, частные коэффициенты корреляции. Частные коэффициенты эластичности. С целью расширения возможностей содержательного анализа модели регрессии используются частные коэффициенты эластичности, которые определяются по формуле:
Частный коэффициент эластичности показывает, насколько процентов в среднем изменяется признак-результат у с увеличением признака-фактора хj на 1% от своего среднего уровня при фиксированном положении других факторов модели.
Частный коэффициент эластичности |E1| < 1. Следовательно, его влияние на результативный признак Y незначительно.
Частные коэффициент эластичности |E2| > 1. Следовательно, он существенно влияет на результативный признак Y.
Частный коэффициент эластичности |E3| < 1. Следовательно, его влияние на результативный признак Y незначительно.
Частные коэффициент эластичности |E4| > 1. Следовательно, он существенно влияет на результативный признак Y. Стандартизированные частные коэффициенты регрессии. Стандартизированные частные коэффициенты регрессии - β-коэффициенты (βj) показывают, на какую часть своего среднего квадратического отклонения S(у) изменится признак-результат y с изменением соответствующего фактора хj на величину своего среднего квадратического отклонения (Sхj) при неизменном влиянии прочих факторов (входящих в уравнение). По максимальному βj можно судить, какой фактор сильнее влияет на результат Y. По коэффициентам эластичности и β-коэффициентам могут быть сделаны противоположные выводы. Причины этого: а) вариация одного фактора очень велика; б) разнонаправленное воздействие факторов на результат. Коэффициент βj может также интерпретироваться как показатель прямого (непосредственного) влияния j -ого фактора (xj) на результат (y). Во множественной регрессии j -ый фактор оказывает не только прямое, но и косвенное (опосредованное) влияние на результат (т.е. влияние через другие факторы модели). Косвенное влияние измеряется величиной: ∑βirxj,xi, где m - число факторов в модели. Полное влияние j-ого фактора на результат равное сумме прямого и косвенного влияний измеряет коэффициент линейной парной корреляции данного фактора и результата - rxj,y. Так для нашего примера непосредственное влияние фактора x1 на результат Y в уравнении регрессии измеряется βj и составляет -0.05272757539468; косвенное (опосредованное) влияние данного фактора на результат определяется как: rx1x2β2 = 0.947429190731 * 1.0607916829853 = 1.005 Сравнительная оценка влияния анализируемых факторов на результативный признак. 5. Сравнительная оценка влияния анализируемых факторов на результативный признак производится: - средним коэффициентом эластичности, показывающим на сколько процентов среднем по совокупности изменится результат y от своей средней величины при изменении фактора xi на 1% от своего среднего значения; - β–коэффициенты, показывающие, что, если величина фактора изменится на одно среднеквадратическое отклонение Sxi, то значение результативного признака изменится в среднем на β своего среднеквадратического отклонения; - долю каждого фактора в общей вариации результативного признака определяют коэффициенты раздельной детерминации (отдельного определения): d2i = ryxiβi. d21 = 0.92 • (-0.0527) = -0.0483 d22 = 0.97 • 1.061 = 1.03 d23 = 0.83 • (-0.0105) = -0.00873 d24 = -0.83 • 0.0313 = -0.026 При этом должно выполняться равенство: ∑d2i = R2 = 0.95 Date: 2015-07-25; view: 835; Нарушение авторских прав |