Полезное:

Категории:

Архитектура Астрономия Биология География Геология Информатика Искусство История Кулинария Культура Маркетинг Математика Медицина Менеджмент Охрана труда Право Производство Психология Религия Социология Спорт Техника Физика Философия Химия Экология Экономика Электроника

F-тест на качество оценивания

⇐ ПредыдущаяСтр 5 из 6Следующая ⇒

Даже если между у и х отсутствует зависимость, по любой данной выборке наблюдений может показаться, что такая зависимость существует, возможно и слабая. Только по случайному стечению обстоятельств выборочная ковариация будет в точности равна нулю. Следовательно, только чисто случайно коэффициент корреляции и коэффициент R2 будут в точности равны нулю.

Это представляет для нас проблему. Как узнать, действительно ли полученное при оценке регрессии значение коэффициента R2 отражает истинную зависимость или оно появилось случайно?

В принципе можно было бы принять следующую процедуру. Сформулируем в качестве нулевой гипотезы утверждение, что связь между у и х отсутствует, и найдем значение коэффициента, которое может быть превышено в 5\% случаев. Затем используем эту цифру в качестве критического значения для проверки гипотезы при 5-процентном уровне значимости. Если этот уровень превышается, то мы отклоняем нулевую гипотезу. Если он не превышен, то эта гипотеза принимается.

Такая проверка, подобно /-тесту для коэффициента регрессии, не служит доказательством. Действительно, при 5-процентном уровне значимости имеется риск допущения ошибки I рода (отклонения нулевой гипотезы, когда она истинна) в 5\% случаев, но можно, конечно, снизить этот риск за счет использования более высокого уровня значимости, например в 1\%. Тогда критическое значение может быть случайно превышено только в 1 \% случаев, поэтому оно выше критического значения для проверки гипотезы при 5-процентном уровне значимости.

Каким образом можно определить критическое значение коэффициента R2 при любом уровне значимости? Здесь возникает небольшая проблема. У нас нет таблицы критических значений коэффициента Л2. Традиционная процедура состоит в использовании косвенного подхода и выполнения так называемого ^-теста, основанного на анализе дисперсии (теория, лежащая в основе этого подхода, описывается в работе А. Муда и Ф. Грейбилла [Mood, Graybill, 1963]).

Предположим, что, как и прежде, можно разложить дисперсию зависимой переменной на «объясненную» и «необъясненную» составляющие, воспользовавшись уравнением (2.45):

Var (у) = Var (у) + Var (е). (3.56)

Используя определение выборочной дисперсии и умножив на п обе части уравнения (3.56), можно представить его следующим образом:

Ї(у-У)2 = ї(у-У)2 + І,е2. (3.57)

(Напомним, что е = 0 и выборочное среднее значение у равняется выборочному среднему у.)

Левая часть уравнения представляет собой общую сумму квадратов отклонений (TSS) зависимой переменной от ее выборочного среднего значения. Первый член в правой части уравнения является объясненной суммой квадратов (ESS), а второй член — необъясненной суммой квадратов отклонений (RSS), который может быть просто назван S:

TSS = ESS + RSS. (3.58)

F-статистика для проверки качества оценивания регрессии записывается как отношение объясненной суммы квадратов (в расчете на одну независимую переменную к остаточной сумме квадратов) в расчете на одну степень свободы:

ESS

F =

RSS 9 (3.59)

n-k-l

где k — число независимых переменных.

После деления на TSS числителя и знаменателя соотношения (3.59) /^статистика может быть эквивалентно выражена на основе коэффициента Л2:

F = (ESS/TSS)/k = R2/k

(RSS /TSS)/(n-k-l) (1-Я2)/(я-*-1)" (3-60)

В данном контексте k= 1 и, таким образом, уравнение (3.60) принимает вид:

F =

(1-Д2)/("-2)' (161)

После вычисления критерия F по значению коэффициента R2 вы отыскиваете величину FKpum — критическое значение Ев соответствующей таблице. Если F > F т, то вы отклоняете нулевую гипотезу и делаете вывод о том, что имеющееся «объяснение» поведения величины у лучше, чем можно было бы получить чисто^ случайно.

В табл. А.З представлены критические значения ^при уровнях значимости в 5 и 1\%. В каждом случае критическое значение зависит от числа независимых переменных к, которое находится в верхней строке таблицы, и от числа степеней свободы (п — к — 1), которое включено в ее крайний левый столбец. В данном контексте рассматривается случай парной регрессии, когда к = 1, и мы должны использовать первую колонку таблицы.

В примере с расходами на питание коэффициент R2 составил 0,9775. Поскольку было 25 наблюдений, /^статистика равняется:

R2 /{(-R2)/ 23} = 0,9775 / (0,0225 / 23) = 999,2.

При однопроцентном уровне значимости критическое значение критерия F (первая колонка, ряд 23) составляет 7,88. Поэтому в данном конкретном примере у нас не остается никаких сомнений относительно того, что нулевую гипотезу следует отклонить. Другими словами, полученное значение коэффициента R2 столь высоко, что мы отклоняем предположение о том, что оно могло появиться случайно. На практике /^статистика всегда вычисляется вместе с коэффициентом R2, поэтому нет необходимости использовать уравнение (3.60).

Какие же проблемы возникают при использовании этого косвенного подхода? Почему бы не иметь таблицу критических значений коэффициента Л2? Ответ заключается в том, что таблица значений критерия /'является полезной для многих способов проверки дисперсии, одним из которых выступает расчет коэффициента R2. Вместо специализированной таблицы для каждого конкретного случая намного удобнее (или, по меньшей мере, экономнее) иметь одну обобщенную таблицу, делая при необходимости преобразования типа (3.60).

Конечно, при необходимости можно вывести и критические значения R2. Критическое значение Л2 связано с критическим значением F следующим уравнением:

F = R2Kpum I к

Крит (l-R2Kpum)/(n-k-y (3'62)

из которого следует, что

г) 2 — крит

RKpum = kFKpum + {n-k-iy (3.63)

В примере с расходами на питание критическое значение Fnpn уровне значимости в 1\% составило 7,88. Следовательно, в этом случае при к= 1

В нашем примере величина R2 намного выше 0,26, поэтому непосредственное сравнение величины Л2 с его критическим значением подтверждает вывод о том, что в результате F-тестг мы должны отклонить нулевую гипотезу.

Оценка значимости уравнения регрессии и особенности применения коэффициента детерминации

После того как найдено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров¹³.

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, коэффициент регрессии равен нулю, то есть b=0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части – «объясненную» и «необъясненную» (приложение 2).

Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества причин. Условно всю совокупность причин можно разделить на две группы:

· изучаемый фактор х

· прочие факторы

Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси охи у = ŷ. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, то есть регрессией у по х, так и вызванный действием прочих величин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на результат у. Это равносильно тому, что коэффициент детерминации r²_xyбудет приближаться к единице.

Любая сумма квадратов отклонений связана с числом степеней свободы (df – degrees of freedom), то есть с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных [(y₁-y), (y₂-y),…,(y_n-y)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов ∑(y-y)² требуется (n-1) независимых отклонений.

При расчете объясненной или факторной суммы квадратов ∑(ŷ_x -y)² используются теоретические (расчетные) значения результативного признака ŷ_x, найденные по линии регрессии: ŷ_x=а+b*x.

В линейной регрессии сумма квадратов отклонений, обусловленных линейной регрессией, составит: ∑(ŷ_x -y)²=b²*∑(x –x)².

Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К тому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака у, то есть ŷ_x. Величина ŷ_x определяется по уравнению линейной регрессии: ŷ_x=а+b*x. Параметр а можно определить как: a=y-b*x. Подставив выражение параметра а в линейную модель получим:

ŷ_x= y-b*x+b*x= y-b*(х-х).

Отсюда видно, что при заданном наборе переменных у и х расчетное значение ŷ_x является в линейной регрессии функцией только одного параметра – коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку используется средняя вычисленная по данным выборки, то теряем одну степень свободы, то есть df_общ= n-1.

Итак, имеется два равенства:

∑(у-у)²=∑(ŷ_x –у)²+∑(у- ŷ_x)²,

n-1=1+(n-2).

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.

D_общ=∑(у-у)²/(n-1);

D_факт=∑(ŷ_x –у)²/1;

D_ост=∑(у- ŷ_x)²/(n-1).

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерия):

F= D_факт/ D_ост, где

F – критерий для проверки нулевой гипотезы Н₀: D_факт=D_ост.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н₀ необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различимом числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: F_факт>F_табл. Н₀ отклоняется.

Если же величина окажется меньше табличной F_факт<F_табл, то вероятность нулевой гипотезы выше заданного уровня и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически не значимым. Н₀ не отклоняется.

Оценку качества модели дает коэффициент детерминации. Коэффициент детерминации (R ²) — это квадрат множественного коэффициента корреляции¹⁴. Он показывает, какая доля дисперсиирезультативного признака объясняется влиянием независимых переменных.

Формула для вычисления коэффициента детерминации:

где

y_i — выборочные данные, а f_i — соответствующие им значения модели.

Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

Коэффициент принимает значения из интервала [0;1]. Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть R ² = r ².

Иногда показателям тесноты связи можно дать качественную оценку (шкала Чеддока) (приложение 3).

Функциональная связь возникает при значении равном 1, а отсутствие связи — 0. При значениях показателей тесноты связи меньше 0,7 величина коэффициента детерминации всегда будет ниже 50 %. Это означает, что на долю вариации факторных признаков приходится меньшая часть по сравнению с остальными неучтенными в модели факторами, влияющими на изменение результативного показателя. Построенные при таких условиях регрессионные модели имеют низкое практическое значение.

Выводы:

В настоящее время регрессионный анализ используется как в естественнонаучных исследованиях, так и в обществоведении.

Уравнение регрессии позволяет найти значение зависимой переменной, если величина независимой или независимых переменных известна.

Практически, речь идет о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности точно отражающую заключенную в этом множестве закономерность (тренд, тенденцию), линию регрессии.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.

Решение задач основывается на анализе соответствующих параметров (статистических данных) в которых всегда неизбежно присутствуют отклонения, вызванные случайными ошибками. Поэтому существуют специальные методы оценки как уравнения регрессии в целом, так и отдельных ее параметров.

⇐ Предыдущая 1 2 3 456 Следующая ⇒

Date: 2015-07-25; view: 1400; Нарушение авторских прав

mydocx.ru - 2015-2025 year. (0.016 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию