![]() Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
![]() Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
![]() |
Множественная регрессия⇐ ПредыдущаяСтр 12 из 12
2. Необходимые сведения. Рассмотрим множественную линейную регрессионную модель с двумя объясняющими переменными
где a0, a1, a2 - неизвестные параметры, ε - случайная переменная (случайный член, случайное возмущение), отражающая влияние неучтенных факторов и погрешностей измерения. Нахождение оценок неизвестных параметров в модели с тремя переменными x1, x2, y так же, как и в модели с двумя переменными, основывается на применении метода наименьших квадратов, основные этапы которого в этом случае сводятся к следующему. 1. Используя выборочные наблюдения над тремя переменными x1, x2, y, то есть: (xi1, xi2, yi), i=1, …,n, и уравнение регрессии
2. Определяется сумма квадратов отклонений
которая является некоторой функцией F трех переменных a0, a1, a2, т.е.
3. Оценки a0, a1, a2 неизвестных параметров модели a0, a1, a2 находятся из условия минимума суммы квадратов отклонений, т.е. из условия
4. Для нахождения точки минимума функции
5. Определяются частные производные функции
6. Необходимые условия экстремума записываются еще один раз с учетом найденных выражений для частных производных
7. После элементарных преобразований данная система уравнений записывается в виде так называемой системы нормальных уравнений, представляющую собой систему трех линейных уравнений относительно трех неизвестных a0, a1, a2:
Найдем численные значения оценок a0, a1, a2 в рассматриваемой задаче. Обозначим:
Тогда
Обратим внимание, что почти все элементы матриц в (2.2) мы уже знаем (см. последнюю строку «сумма» таблицы 1.1). Не знаем только Σ xi1 xi2. Система (2.1) в матричном виде запишется, как
Ее решением будет вектор A:
где Решение задачи. Используя последнюю строку «сумма» таблицы 1.1, в которой нами уже рассчитаны значения Σ xi1, Σ x2i1, Σ xi2, Σ x2i2 и др., а также отдельно дополнительно вычислив значение Σ xi1xi2 (в нашем примере оно равно 11095), получим:
Найдем матрицу Определим матрицу алгебраических дополнений
где
Окончательно получим
Составляем так называемую присоединенную матрицу
Отметим, что в данном случае DT=D, так как матрица D симметрична. Наконец,
По формуле (2.3) находим вектор оценок A:
Таким образом,
2.2. Необходимые сведения. Напомним, что важной характеристикой качества подбора уравнения регрессии является коэффициент детерминации R2. Для множественной регрессии R2 рассчитывается по той же формуле (1.9), что и в случае парной регрессии:
Напомним, что здесь Коэффициент детерминации R2, как и выше, определяется по формуле:
Значение R2 характеризует ту долю дисперсии переменной y, которая обуславливается, или которую можно «объяснить» уравнением регрессии Коэффициент детерминации R2 равен квадрату коэффициента множественной корреляции. Коэффициент множественной корреляции R определяется по формуле:
Решение задачи. Для вычисления линии модели
Коэффициент детерминации R2 =0,94. Следовательно, регрессия y на x1 и x2 объясняет 94% колебаний значений y. Это свидетельствует о значительном суммарном влиянии независимых переменных x 1 и x2 на зависимую переменную y. Качество уравнения множественной регрессии, так же, как и парной, оценивает F-тест. Напомним, что он основан на проверке гипотезы H0 о статистической незначимости уравнения регрессии и показателя тесноты связи. Фактическое значение F- статистики Фишера Fф определяется по формуле (1.12) как отношение объясненной суммы квадратов в расчете на одну независимую переменную к остаточной сумме квадратов в расчете на одну степень свободы:
В нашем случае df1 = m =2, df2 = n - m – 1 = 16 – 2 – 1. Поэтому получаем:
При уровне значимости 0,05 и df1 = 2, df2 =13 табличное значение Fт = 3,81. Неравенство Fт < Fф выполняется, гипотеза H0: α1 = α2 =0 отклоняется и признается статистическая значимость уравнения регрессии. 2.3. Проверим полученные результаты с помощью Пакет анализа Microsoft Excel. Зададим необходимые параметров в окне «Регрессия» Пакета анализа, см. рисунок 2.1. Рисунок 2.1 - Задание параметров раздела «Регрессия» Пакета анализа Таблица 2.1 регрессионной статистики подтверждает правильность найденных коэффициентов детерминации R2 и множественной корреляции R. Таблица 2.1 - Регрессионная статистика
В таблице 2.2 дисперсионного анализа, как и в п.2.2, получено: Fф =106,4. Таблица 2.2 - Дисперсионный анализ
Это подтверждает правильность отклонения гипотезы H0: α1 = α2 =0 и статистическую значимость уравнения регрессии. Напомним, что технология расчетов всех чисел в таблице 2.2 пояснена ранее в п. 1.3. В таблице 2.3 показаны оценки коэффициентов регрессии и их статистики, полученные с помощью Пакета анализа Microsoft Excel. Столбец «коэффициенты» убеждает нас в правильности уравнения регрессии (2.5), полученного «вручную» по формуле (2.3). Таблица 2.3 - Коэффициенты
Стандартные ошибки в столбце 3, определяющие доверительные интервалы коэффициентов и необходимые для расчета t -статистик, для множественной регрессии рассчитываются несколько иначе, чем для парной:
Здесь zjj – диагональные элементы обратной матрицы
Анализ t -статистик Стьюдента позволяет отвергнуть нулевые гипотезы H0: α0 =0, H0: α1 =0 H0: α2 =0 для каждого параметра в пользу альтернативной гипотезы. Таким образом, все параметры значимы, и их необходимо включать в модель.
2.4. Под точечным прогнозом среднего значения цены новой партии автомобилей понимается значение Под интервальным прогнозом среднего значения цены автомобилей понимается доверительный интервал цены, который находится по формуле
где
Нахождение интервальных и точечных прогнозов по уравнению множественной регрессии проводится по следующей схеме. Определяем вектор независимых переменных Находим точечный прогноз: Для нахождения интервального прогноза вычислим значения всех параметров, входящих в формулу (2.6)
Тогда Пусть 1- a =0,9. Тогда
Следовательно,
Результаты вычислений целесообразно оформить в виде таблицы 2.4: Таблица 2.4 - Прогноз
2.5. На основании проведенных расчетов и полученных статистических характеристик можно сделать определенные выводы относительно взаимосвязей между исследуемыми экономическими показателями. Рассмотрим вначале зависимость цены от возраста. Так как Коэффициент a0 =16,1 в данном случае имеет экономический смысл. Он формально определяет цену при x1 =0, т.е. цену нового автомобиля. Коэффициент a1 = -1,26 также имеет вполне определенный экономический смысл, поскольку характеризует размер прироста цены, обусловленного приростом возраста на единицу, т.е. при увеличении возраста на 1 год следует ожидать уменьшения цены на 1,26 тыс. у.е. Необходимо особо подчеркнуть, что слова «следует ожидать снижения (прироста)...» в предыдущем предложении нельзя заменить словами «снижение цены составит...», так как уравнение регрессии y от x1 представляет собой лишь некоторую оценку стохастической зависимости между y и x1. Это уравнение характеризует так называемое среднее значение цены в зависимости от возраста автомобиля. Слово «среднее» выражает здесь тот факт, что реальное значение цены yi, соответствующее некоторому реальному возрасту xi1, будет находиться в некоторой окрестности значения Значимое значение В результате исследования зависимости объема цены от двух факторов - возраста и мощности двигателя, получено уравнение множественной регрессии Содержательный смысл найденных коэффициентов уравнения состоит в следующем. Величина a1 = -1,42 показывает, что при увеличении возраста на 1 год и фиксированной (неизменной) мощности двигателя следует ожидать снижения цены автомобиля на 1,42 тыс. у. е. Коэффициент a2 =0,05 показывает, что при увеличении мощности двигателя на 1 л.с. и фиксированном возрасте следует ожидать увеличения цены на 0,05 тыс. у. е. Сравнение результатов, полученных на основе анализа уравнений парной регрессии, с результатами, полученными на основе анализа уравнения множественной регрессии, может создать представление об их противоречивости, поскольку оценки параметров заметно различаются. Однако здесь нет противоречия. Действительно, исследуя зависимость Для более точного описания изменения исследуемого показателя следует включать в эконометрическую модель по возможности большее количество объясняющих переменных (факторов). Вместе с тем, увеличение количества объясняющих факторов должно проводиться достаточно осторожно. С одной стороны, в числе этих факторов может оказаться такой, который не оказывает сколько-нибудь существенное влияние на объясняемую переменную y. С другой стороны, математическая модель может оказаться слишком громоздкой и неудобной для анализа. Существуют различные методы выявления и отбора существенных факторов. Простейший основан на вычислении и анализе коэффициентов парной корреляции Следует помнить, что прежде, чем применять формальные, математические методы отбора и выявления существенных факторов, следует провести тщательный содержательный анализ изучаемого объекта или процесса. Используемое в задачах 1 и 2 понятие доверительной вероятности характеризует степень уверенности в справедливости получаемого результата. Чем ближе к единице значение доверительной вероятности (1- a), тем с большей уверенностью можно утверждать, что прогнозируемое значение результирующего признака будет находиться в найденном доверительном интервале. Следует иметь в виду, что ширина доверительного интервала существенно зависит от значения (1- a): чем ближе к единице величина (1- a), тем шире доверительный интервал и, следовательно, хуже качество прогноза. Очевидно, что достаточно широкий доверительный интервал прогноза не имеет никакого практического значения. Действительно, если мы получим результат типа: «С вероятностью 0,999 среднее значение цены будет находиться в пределах от 0 до 20 тыс. у. е.», то от такого результата нет никакой практической пользы. При этом степень его достоверности оценивается в 99,9%. Поэтому при определении интервального прогноза приходится искать разумный компромисс между качеством прогноза, т.е. шириной доверительно интервала, и его достоверностью, т.е. значением доверительной вероятности.
Date: 2015-11-13; view: 866; Нарушение авторских прав |