Теорема Гаусса—Маркова

⇐ ПредыдущаяСтр 3 из 6Следующая ⇒

В обзоре мы рассматривали оценки неизвестного математического ожидания і случайной величины х по данным выборочных наблюдений. Хотя мы интуитивно использовали в качестве оценки для х выборочное среднее х, было показано, что оно является лишь одной из бесконечного числа возможных несмещенных оценок этого параметра. Причина предпочтения выборочного среднего всем другим оценкам состоит в том, что при определенных предположениях оно является наиболее эффективным.

Аналогичные рассуждения применимы и к коэффициентам регрессии. Мы увидим, что оценки по обычному методу наименьших квадратов являются не только несмещенными оценками коэффициентов регрессии, но и наиболее эффективными в том случае, если выполнены условия Гаусса—Маркова. С другой стороны, если условия Гаусса—Маркова не выполнены, то, вообще говоря, можно найти оценки, которые будут более эффективными по сравнению с оценками, полученными обычным методом наименьших квадратов.

В данной работе не приводится общее рассмотрение этих вопросов. Мы дадим лишь иллюстрацию. Предположим, что мы имеем зависимость, заданную уравнением (3.1), и сосредоточим внимание на оценках для р. Человек, не знакомый с регрессионным анализом, увидев диаграмму разброса для выборки наблюдений, может попытаться получить оценку тангенса угла наклона путем простого объединения первого и последнего наблюдений и деления прироста высоты на горизонтальный отрезок между ними, как показано на рис. 3.3. Оценка b в этом случае будет определяться следующим образом:

Ь =

Уп-У

хп - х

(3.30)

ух = сс + рх1

Каковы свойства этой оценки? Сначала мы исследуем, является ли она несмещенной. Используя уравнение, применим к первому и последнему наблюдениям, получим:

Следовательно,

ъ = Р*„ + un - р*! - щ = р | un - щ

хп -х хп- х

(3.33)

Таким образом, мы разложили «наивную» оценку на две составляющие: истинное значение и остаточный член. Это разложение выполнено подобно тому, как это сделано в разделе 3.1 для оценки МНК. Однако остаточный член является другим. Предполагая Е(и) = 0, мы имеем, что математические ожидания, как и{9 так и ип, равны нулю, но тогда математическое ожидание остаточного члена в уравнении (33.3) также равно нулю. Таким образом, несмотря на то что эта оценка столь «наивна», она является несмещенной.

Это, разумеется, не единственная оценка, которая наряду с оценкой, полученной методом МНК, обладает свойством несмещенности. Вы можете получить еще одну оценку такого типа путем объединения двух произвольно выбранных наблюдений, а если вы хотите рассмотреть менее «наивные» процедуры, то здесь открываются поистине безграничные возможности.

Рис. 3.3. «Наивная» оценка b

Интуитивно легко понять, что мы не предпочтем «наивную» оценку типа (3.30) оценке МНК. В отличие от оценки МНК, в которой учитывается каждое наблюдение, в «наивной» оценке берется только первое и последнее наблюдения и не используется большая часть имеющейся в выборке информации. «Наивная» оценка зависит от значений остаточного члена и в данных двух наблюдениях, тогда как оценка по методу наименьших квадратов объединяет все значения остаточного члена и более эффективно использует возможность того, что эти значения в некоторой степени взаимно «погашаются».

При сравнении с менее «наивными» оценками превосходство оценки МНК в эффективности может быть не столь очевидным. Тем не менее в том случае, если условия Гаусса—Маркова для остаточного члена выполнены, коэффициенты регрессии, построенной обычным методом наименьших квадратов, будут наилучшими линейными несмещенными оценками (best linear unbiased estimators, или BLUE): несмещенными, как уже было показано; линейными, так как они являются линейными функциями значений у наилучшими, так как они являются наиболее эффективными в классе всех несмещенных линейных оценок. Теорема Гаусса—Маркова доказывает это (краткое изложение, не использующее матричной алгебры, дано в работе Дж. Томаса [Thomas, 1983, section 8.3]).

Интервальная оценка функции регрессии и её параметров

В прогнозных расчетах по уравнению регрессии определяется предсказываемое (у_р) значение как точечный прогноз ŷ_x при х_р=х_к, то есть путем подстановки в уравнение регрессии ŷ_x=a+b*x соответствующего значения х. однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки ŷ_x, то есть m_ŷx, и соответственно интервальной оценкой прогнозного значения (у^*)

ŷ_x- m_ŷx≤ у^*≤ ŷ_x+m_ŷx

что бы понять, как строится формула для определения величины стандартной ошибки ŷ_x, обратимся к уравнению линейной регрессии: ŷ_x=a+b*x. Подставим в это уравнение выражение параметра а: a=y-b*x, тогда уравнение регрессии примет вид: ŷ_x= y-b*x+b*x=у+ b(x-x).

Отсюда вытекает, что стандартная ошибка m_ŷx зависит от ошибки у и ошибки коэффициента регрессии b, то есть:

m_ŷx²=m_y²+m_b²(x-x)²

Из теории выборки известно, что m_y²= σ²/n. Используя в качестве оценки σ² остаточную дисперсию на одну степень свободы S², получим формулу расчета ошибки среднего значения переменной у:

m_y²= S²/n.

Считая, что прогнозное значение фактора х_з=х_к, получим следующую формулу расчета стандартной ошибки предсказываемого по линии регрессии значения, то есть m_ŷx:

m_ŷx²= S²/n+ S²/∑(x-x)²*(х_к-х)²= S²*(1/n+((x_k-x)²/(∑(x-x)²)))

Рассмотренная формула стандартной ошибки предсказываемого среднего значения у при заданном значении x_k характеризует ошибку положения линии регрессии. Величина стандартной ошибки m_ŷx, как видно из формулы, достигает минимума при х_к=х, и возрастает по мере того, как «удаляется» от х в любом направлении. Иными словами, чем больше разность между х_к и х, тем больше ошибка m_ŷx с которой предсказывается среднее значение у для заданного значения х_к. Можно ожидать наилучшие результаты прогноза, если признак-фактор х находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении х_к от х. Если же значение х_к оказывается за пределами наблюдаемых значений х, используемых при построении линейной регрессии, то результаты прогноза ухудшаются в зависимости от того, насколько х_к отклоняется от области наблюдаемых значений фактора х.

Фактические значения у варьируются около среднего значения ŷ_x. Индивидуальные значения у могут отклоняться от ŷ_x на величину случайной ошибки ε, дисперсия которой оценивается как остаточная дисперсия на одну степень свободы S². Поэтому ошибка предсказываемого индивидуального значения у должна включать не только стандартную ошибку m_ŷx, но и случайную ошибку S.

⇐ Предыдущая 1 234 5 6 Следующая ⇒

Date: 2015-07-25; view: 591; Нарушение авторских прав

mydocx.ru - 2015-2025 year. (0.008 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию