Сущность основных характеристик, применяемых в корреляционно-регрессионном анализе и их оценка

⇐ ПредыдущаяСтр 26 из 47Следующая ⇒

Регре́ссия (лат. regressio –обратное движение, отход), в теории вероятностей и математической статистике, зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.

При использовании корреляционно-регрессионного анализа модель выражается в виде уравнения регрессии типа У = f (х), где у – зависимая переменная (результативный признак или функция от ряда факторов-аргументов); х – независимые переменные (факторы-аргументы).

Выделяют два вида регрессии или корреляции:

1) парная корреляция – это зависимость между двумя признаками. т.е. она отображает зависимость между результативным признаком и одним факторным признаком;

2) множественная корреляция – это отображает зависимость между результативным признаком и нескольким факторными признаками.

Простейшим уравнением, характеризующим прямолинейную зависимость между двумя признаками, служит уравнение прямой: У(х) = а + bх, где х и У(х) – соответственно независимый и зависимый признак; а и b – параметры уравнения.

а - свободный член уравнения;

b - коэффициент регрессии, измеряющий среднее отношение

отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его

измерения - вариация у, приходящаяся на единицу вариации х.

В качестве примера можно привести зависимость производительности труда от фондовооруженности. В экономических расчетах предпочтение отдается линейным моделям.

Среднеквадратическое отклонение показывает абсолютное отклонение значений от среднеарифметической.

Коэффициент вариации показывает относительную меру колеблемости в % отдельных значений от среднеарифметической. Если он менее либо равен 10%, то изменчивость вариационного ряда незначительна; если от 10 до 20% включительно – изменчивость средняя; если от 20 до 30% включительно – изменчивость значительна; если коэффициент вариации более 33% - информация неоднородна и ее следует исключить из дальнейших расчетов или отбросить нетипичные наблюдения.

Для выяснения тесноты связи используется коэффициент корреляции.

Коэффициент корреляции по абсолютной величине может принимать значения в пределах от 0 до 1. Если между двумя показателями не существует связи, коэффициент равен 0, если связь тесная – он приближается к 1.

Если коэффициент корреляции равен 1, значит, результативный признак полностью зависит от факторного признака, т.е. по существу корреляционная зависимость совпадает с функциональной. Следовательно, чем ближе коэффициент корреляции к 1, тем теснее связь между явлениями и наоборот.

Расчет параметров и построение регрессионных моделей. Цель этапа – отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин X1, Х2,.... Хп.

Эту меру обобщенно выражают математической моделью линейной множественной регрессионной зависимости:

ЭВМ вычисляет параметры модели: свободный член ао (константа, или пересечение) и коэффициенты bn (коэффициенты регрессии). Величину у называют откликом, аХ1, Х2.,..., Хп -факторами или предикторами.

Осуществление второго этапа сильно зависит от выводов, которые получены при анализе корреляционной матрицы. Можно значительно ускорить проведение регрессионного анализа и снизить затраты на исследование, если принять правильную стратегию поиска наилучшего уравнения. Для этого необходимо знать основные и наиболее эффективные методы поиска наилучшего уравнения, (рассматриваются далее отдельным пунктом).

После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости, поэтому второй этап корреляционно-регрессионного анализа неразрывно связан с третьим. Однако в связи с тем, что расчеты выполняет ЭВМ, а решение на основе оценки значимости уравнения принимает исследователь (принять или отбросить уравнение), условно можно выделить третий этап этой человеко-машинном технологии как интеллектуальный немашинный этап, для которого почти все данные по оценке значимости уравнения подготавливает ЭВМ.

На третьем этапе выясняют статистическую значимость, т. е. пригодность постулируемой модели для использования ее в целях предсказания значений отклика. При этом программа уже рассчитала по модели теоретические значения для ранее наблюденных значений зависимой величины и вычислила отклонения теоретических значений от наблюдаемых значений. На основе этого программа построила также ря,д графиков, в т. ч. график подборки (он иллюстрирует, насколько хорошо подобрана линия регрессии к наблюденным данным) и график остатков. Исследователь должен рассмотреть эти графики. В остатках не должно наблюдаться закономерности, т. е. корреляции с какими-либо значениями (если она есть, то, в модель не включен какой-то закономерно действующий, но не известный, скрытый фактор, о котором нет данных). Для оценки качества полученной модели программа вычислила также целый ряд коэффициентов которые обязан рассмотреть исследователь, сравнивая их с известными статистическими критериями и оценивая модель с точки зрения здравого смысла.

На этом этапе исключительно важную роль играют коэффициент детерминации v F-критерий значимости регрессии.

R Squared (R2) - коэффициент детерминации - это квадрат множественного коэффициента корреляции между наблюдаемым значением У и его теоретически значением, вычисленным на основе модели с определенным набором факторов Коэффициент детерминации измеряет действительность модели. Он может принимать значения от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей модели.

л есть доля вариации прогнозной (теоретической) величины Y относительно наблюденных значений Y, объясненная за счет включенных в модель факторов. Очень хорошо, если R2 > = 80%. Остальная доля теоретических значений У зависит от других, не участвовавших в модели факторов. Задача исследователя - находить факторы, увеличивающие R2, и давать объяснение вариаций прогноза, чтобы получить идеальное уравнение. Однако, коэффициент R2 самое большее может достигнуть величины 1 (или 100%), когда все значения факторов различны. А если в данных есть повторяющиеся опыты, то величина R2 не может достигнуть 1, как бы хороша ни была модель. Поэтому дубликаты данных следует удалять из исходной таблицы до начала расчета регрессии. Некоторые программные пакеты автоматически удаляют дубликат, оставляя лишь уникальные данные. Повторение одинаковых данных снижает надежность оценок модели. R2 = 1 лишь при полном согласии экспериментальных (наблюденных) и теоретических (расчетных) данных, т. е. когда теоретические значения точно совпадают с наблюдаемыми. Однако это считается весьма маловероятным случаем.

Средствами регрессионного анализа, в т. ч. EXCEL, вычисляется F-критерий значимости регрессии для уравнения в целом. Это рассчитанное по наблюденным данным значение Fp (F расчетный, наблюденный) следует сравнивать с соответствующим критическим значением Fk, (F критический, табличный). Fк исследователь выбирает из публикуемых статистических таблиц на заданном уровне вероятности (на том, на каком вычислялись параметры модели, например, 95%).

Если наблюденное значение Fp окажется меньше критического значения Fk, то уравнение нельзя считать значимым. В иной терминологии об этом же может быть сказано: не отвергнута нуль-гипотеза относительно значимости всех коэффициентов регрессии в постулируемой модели, т. е. коэффициенты практически равны нулю.

Электронная технология корреляционно-регрессионного анализа становится абсолютно бесполезной, если расчетные данные будут толковаться не вполне правильно. В связи с этим процитируем здесь одно частное мнение [2, кн. 1, с. 1301: "... чтобы уравнение можно было считать удовлетворительным для целей предсказания (в том смысле, что размах предсказываемых значений отклика будет значительно больше, чем стандартная ошибка отклика), наблюдаемое значение F... должно не просто превышать выбранную процентную точку F-распределения, а превосходить ее примерно в 4 раза. Например, пусть... F(10: 20; 0,95)=2,35. Тогда наблюдаемое значение F-отношения должно превосходить 9,4 для того, чтобы можно было расценивать полученное уравнение как удовлетворительную модель для предсказания".

Мы приводим это высказывание для того, чтобы исследователь, если пожелает, мог использовать его для четырехкратного усиления критерия значимости уравнения в случае особо важных прогнозов.

На четвертом этапе корреляционно-регрессионного исследования, если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.

Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать. Например, с самого начала работы (как бы по умолчанию) строилась и проверялась линейная регрессионная модель. Незначимость ее служит основанием для того, чтобы отвергнуть только линейную форму модели. Возможно, что более подходящей будет нелинейная форма модели.

⇐ Предыдущая 21 22 23 24 252627 28 29 30 Следующая ⇒

Date: 2016-11-17; view: 411; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (0.145 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию