Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
|
Математическая статистика и прогнозированиеСтр 1 из 2Следующая ⇒
Методические указания к выполнению контрольной работы для студентов направления 230400.62 заочной формы обучения
Одобрено редакционно-издательским советом Балаковского института техники, технологии и управления
Балаково 2013 ОСНОВНЫЕ ПОНЯТИЯ 1. Вариационные ряды Генеральной совокупностью называется вся подлежащая изучению совокупность объектов (наблюдений). Выборочной совокупностью, или просто выборкой, называется совокупность случайно отобранных из генеральной совокупности объектов. Объемом совокупности (выборочной или генеральной) называется число объектов в этой совокупности. Различные наблюдаемые значения признака называют вариантами (обозначаются хi). Числа, показывающие, сколько раз встречаются варианты в совокупности, называются частотами (обозначаются ni). Тогда объем выборки можно определить как n=∑ni. Отношение частот к объему выборки wi=ni/n называют относительными частотами. Последовательность вариант, записанных в порядке возрастания или убывания с соответствующими им частотами (или относительными частотами) называется вариационным рядом. Вариационный ряд называется дискретным, если любые его варианты отличаются на постоянную величину, и непрерывным (интервальным), если его значения могут отличаться одно от другого на сколь угодно малую величину. Для наглядности представления вариационного ряда строят различные графики статистического распределения, в частности, полигон и гистограмму. Полигон, как правило, служит для изображения дискретного вариационного ряда, и представляет собой ломаную, в которой концы отрезков имеют координаты (xi, ni) или (xi, wi). Гистограмма служит для изображения интервальных вариационных рядов и представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака (x i–1, xi), и высотами, равными частотам ni (или относительным частотам wi) интервалов. Если соединить середины верхних оснований прямоугольников отрезками прямой, то можно получить полигон того же распределения.
2. Точечные и интервальные оценки параметров распределения Статистической оценкой
Генеральной средней
Если значения признака x1, x2,..., xk имеют соответственно частоты n1, n 2,..., n k, причем n = ∑ ni, то
В качестве характеристики разброса значений количественного признака X вокруг своего среднего значения используется дисперсия. В случае конечной генеральной совокупности генеральной дисперсией D = σ2 называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения Если все значения x 1, x 2,..., x n признака выборки объема n различны, то
Если значения признака x1, x2,..., xk имеют соответственно частоты n1, n 2,..., n k, причем n = ∑ ni, то
Несмещенной оценкой генеральной дисперсии является исправленная выборочная дисперсия
Если в качестве оценки параметра предлагается число – точка на координатной оси, то оценка называется точечной. Оценки, рассмотренные выше – точечные. Интервальной оценкой параметра θ называют числовой интервал Границы доверительного интервала и его длина находятся по выборочным данным, и являются случайными величинами. Величина доверительного интервала уменьшается с ростом объема выборки n и увеличивается с ростом доверительной вероятности γ. Если количественный признак генеральной совокупности X имеет нормальное распределение, то доверительный интервал для математического ожидания имеет вид
В случае, когда генеральная дисперсия D = σ2 является известной величиной, то точность оценки δ находится по формуле
где число t определяется из равенства Φ(t) = γ/2, т.е. по таблице функции Лапласа (приложение 1) находят значение аргумента t, которому соответствует значение функции Лапласа γ/2. В случае, когда генеральная дисперсия неизвестна, а известна лишь ее исправленная выборочная оценка
где значение числа T(1 – γ; n –1) определяется по таблице критических точек распределения Стьюдента (приложение 2) при уровне вероятности α=1– γ и числе степеней свободы n–1. Доверительный интервал для среднеквадратического отклонения σ нормального распределения имеет вид
где значения χ12, χ22 находятся по таблице критических точек распределения χ2 (приложение 3) при числе степеней свободы n–1 и уровнях вероятности (1 + γ) /2 и (1 – γ) /2 соответственно. 3. Проверка гипотез. Статистической гипотезой называется любое предположение о виде неизвестного распределения или о параметрах закона распределения. Выдвинутуюгипотезу называют нулевой (основной) гипотезой Н0. Если выдвинутая гипотеза Н0 будет отвергнута, то имеет место противоречащая ей гипотеза Н1, которая называется конкурирующей (альтернативной). Для проверки нулевой гипотезы используют специально подобранную случайную величину (статистический критерий). После выбора критерия множество всех его возможных значений разбивают на два подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается (критическая область), а другое содержит те значения критерия, при которых гипотеза принимается (область принятия гипотезы). Если наблюдаемое значение критерия принадлежит критической области, то нулевую гипотезу отвергают в пользу конкурирующей гипотезы; если наблюдаемое значение критерия принадлежит области принятия гипотезы, то нулевую гипотезу принимают. Критическими точками Ккр называют точки, отделяющие критическую область от области принятия гипотезы. Рассмотрим способы проверки некоторых наиболее часто встречающихся гипотез. 3.1. Гипотеза о равенстве генеральной средней нормальной совокупности заданному числовому значению. Пусть генеральная совокупность Х распределена нормально, причем имеются основания предполагать, что генеральная средняя этой совокупности Предполагаем, что дисперсия генеральной совокупности D = σ2 известна (например, может быть найдена теоретически, или вычислена по выборке большого объема). Кроме того, по произведенной выборке объема n найдена выборочная средняя
1) При конкурирующей гипотезе Н1: 2) При конкурирующей гипотезе Н1: 3) При конкурирующей гипотезе Н1: Предположим теперь, что дисперсия генеральной совокупности D = σ2 неизвестна, а известна только ее исправленная выборочная оценка
1) При конкурирующей гипотезе Н1: 2) При конкурирующей гипотезе Н1: 3) При конкурирующей гипотезе Н1: 3.2 Гипотеза о равенстве двух средних нормальных генеральных совокупностей. Пусть генеральные совокупности Х1 и Х2 распределены нормально, причем генеральные средние этих совокупностей Предполагаем, что дисперсии обеих генеральных совокупностей известны, и равны
1) При конкурирующей гипотезе Н1: 2) При конкурирующей гипотезе Н1: 3) При конкурирующей гипотезе Н1: Предположим теперь, что дисперсии обеих генеральных совокупностей неизвестны, а известны только их исправленные выборочные оценки
1) При конкурирующей гипотезе Н1: 2) При конкурирующей гипотезе Н1: 3) При конкурирующей гипотезе Н1: 4. Регрессионный и корреляционный анализ. Зависимость между переменными величинами, когда каждому значению одной переменной может соответствовать множество значений другой переменной, имеющее определенное распределение, называется статистической. Статистические связи между переменными изучаются методами корреляционного и регрессионного анализа. Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными, корреляционного анализа – выявление связи между случайными переменными и оценка ее тесноты. В регрессионном анализе рассматривается зависимость случайного результативного признака y от неслучайных факторных признаков x1, x2,..., xn. В случае единственного факторного признака x различают следующие виды регрессий: линейную, гиперболическую, показательную, степенную, логарифмическую, параболическую и т.д. Предположим, что для оценки параметров регрессии взята выборка, содержащая n пар значений (xi, yi), где i = 1, 2, …, n. Оценкой предложенных выше уравнений регрессии являются выборочные уравнения регрессии: - линейное - гиперболическое - показательное - степенное - логарифмическое - параболическое где параметры a0, a1, a2 являются точечными оценками соответствующих параметров исходного уравнения и могут быть найдены на основе метода наименьших квадратов. Сущность метода наименьших квадратов заключается в нахождении параметров модели a0, a1, при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выборочному уравнению регрессии
Для нахождения параметров a0, a1 линейного уравнения регрессии
Для параболического уравнения регрессии
Все предложенные выше виды нелинейных регрессий (кроме параболической) могут быть сведены к линейной путем какой-либо замены переменной. Для гиперболической регрессии вводится переменная x′= 1/x, для логарифмической регрессии x′= lnx, уравнения показательной и степенной регрессии предварительно логарифмируют. Регрессионную модель удобно представлять графически. Для этого на координатной плоскости откладываются точки Pi (xi, yi), (i = 1, 2, …, n) (рис. 4.1). Полученный график называется диаграммой рассеивания.
Рис. 4.1. Диаграмма рассеивания
Построив диаграмму рассеяния, можно подобрать вид уравнения регрессии. На рис. 4.1 для одних и тех же экспериментальных точек построены линейная и показательная регрессии. Видим, что экспериментальные точки располагаются ближе к линии Однако по графику можно только приближенно сделать вывод о качестве той или иной модели. Для более точной оценки адекватности (значимости) уравнения регрессии на уровне значимости α вычисляют наблюдаемое значение случайной величины
где остаточная дисперсия
Далее находим критическое значение критерия F(α, 1; n – 2) по таблице критических точек распределения Фишера (приложение 4) при k1=1, k2 = n – 2 степенях свободы и уровне значимости α. Если Fнабл > F(α; 1; n – 2), то уравнение регрессии признается значимым, в противном случае уравнение регрессии признается незначимым, т.е. статистически подтверждается отсутствие линейной связи между факторным и результативным признаком. Рассмотрим более подробно линейное уравнение регрессии. В качестве универсального показателя тесноты связи между величинами x и y используется выборочный линейный коэффициент корреляции
Здесь sx и sy – средние квадратические отклонения соответствующих признаков (факторного и результативного). Линейный коэффициент корреляции изменяется в пределах –1 ≤ r ≤ 1. Если r > 0, то связь между переменными x и у прямая, если r < 0, то связь между переменными x и у обратная. При r = 0 связь между переменными отсутствует. При |r| = 1 связь между x и у функциональная, т.е. наблюдаемые значения располагаются точно на прямой. Пусть вычисленное значение r≠ 0. Проверим гипотезу H0 об отсутствии линейной корреляционной связи между переменными, т.е. H0: ρ= 0 при альтернативной гипотезе H1: ρ ≠ 0. Для проверки этой гипотезы на уровне значимости α вычисляют наблюдаемое значение критерия
Критическое значение критерия T(1–α, n–2) находят по таблице критических точек распределения Стьюдента (приложение 2) для числа степеней свободы n – 2 и уровня значимости α. Если Tнабл < T(α, n – 2), то гипотеза H0 принимается, в противном случае гипотеза H0 отвергается, т.е. коэффициент корреляции признается существенно отличающимся от нуля. По уравнению линейной регрессии можно получить точечный и интервальный прогнозы. Точечный прогноз заключается в получении прогнозного значения уp, которое определяется путем подстановки в уравнение регрессии
Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin, уpmax интервала, содержащего точную величину для прогнозного значения
где затем строится доверительный интервал прогноза, т. е. определяются нижняя
где 5. Моделирование временных рядов и прогнозирование Временным рядом (рядом динамики, динамическим рядом) называется упорядоченная во времени последовательность численных показателей{(yi,ti), i=1,2,...,n}, характеризующих уровни развития изучаемого явления в последовательные моменты или периоды времени. Величины yi называются уровнями ряда, а ti – временными метками (моменты или интервалы наблюдения). Обычно рассматриваются временные ряды с равными интервалами между наблюдениями, в качестве значений ti берутся порядковые номера наблюдений и временной ряд представляется в виде последовательности Целью исследования временного ряда является выявление закономерностей в изменении уровней ряда и построении его модели в целях прогнозирования и исследования взаимосвязей между явлениями. Моделирование тенденции временного ряда начинается с проверки наличия тенденции. Для этого наиболее широко применяются метод сравнения средних и метод Фостера-Стюарта. Для получения ряда с меньшим разбросом уровней, что в ряде случаев позволяет на основе визуального анализа сделать вывод о наличии тенденции, применяется сглаживание временного ряда. Сглаживание временного ряда по методу скользящей средней заключается в замене исходных уровней ряда yt сглаженными значениями y′t, которые получаются как среднее значение определенного числа уровней исходного ряда, симметрично окружающих значение yt. В результате получается временной ряд y′t, меньше подверженный колебаниям. Для вычисления сглаженных значений y′t по методу простой скользящей средней используются следующие формулы: 1) Нечетный интервал сглаживания g = 2p+1 (интервал сглаживания – количество исходных уровней ряда (yt), используемых для сглаживания):
где уt – фактическое значение уровня исходного ряда в момент t; y′t – значение скользящей средней в момент t; 2р+1- длина интервала сглаживания. Формула (5.5) при интервалах сглаживания g = 3 и g = 5 принимает вид
2) Четный интервал сглаживания g = 2p:
Формула (5.6) при интервалах сглаживания g = 2 и g = 4 принимает вид
При использовании скользящей средней с длиной активного участка g = 2p+1 первые и последние р уровней ряда сгладить нельзя, их значения теряются. Для восстановления потерянных значений временного ряда можно использовать следующий прием: а) Вычисляется средний прирост ∆у на последнем активном участке
где g – длина активного участка. б) Определяются значения последних р=(g–1)/2 уровней сглаженного временного ряда с помощью последовательного прибавления среднего абсолютного прироста ∆у к последнему сглаженному значению y′n–p
Аналогичная процедура применяется для восстановления первых р уровней временного ряда. Аналитическим выравниванием временного ряда называют нахождение аналитической функции ŷ = f(t), характеризующей основную тенденцию изменения уровней ряда с течением времени. Сама функция f(t) носит название кривой роста. Чаще всего в качестве кривой роста применяются следующие функции: - линейная - парабола второго и более высоких порядков - - гиперболическая - экспонента - показательная - степенная Построение таких функций аналогично построению уравнений парной регрессии (линейной или нелинейной) с учетом того, что в качестве зависимой переменной используются фактические уровни временного ряда yt, а в качестве независимой переменной моменты времени t = 1,2,..., n.
СОДЕРЖАНИЕ КОНТРОЛЬНОЙ РАБОТЫ Контрольная работа состоит из трех заданий, выполняемых по индивидуальному варианту. Во всех заданиях значение N1-последняя цифра зачетной книжки, N2-предпоследняя цифра зачетной книжки. Задача 1. Размер обработанных на некотором станке деталей может быть рассмотрен как случайная величина Х, распределенная по нормальному закону. Для контроля качества деталей было произведено 50 измерений. Результаты измерений приведены в табл. 1 1) Провести группировку данных, разбив варианты на 8 интервалов. 2) Для сгруппированного ряда построить гистограмму частот. 3) Найти выборочную среднюю, выборочную дисперсию, исправленную выборочную дисперсию, исправленное выборочное среднеквадратическое отклонение случайной величины Х. 4) Построить доверительный интервал для генеральной средней и генерального среднеквадратического отклонения с заданным уровнем доверительной вероятности γ=0,95. 5) Проектный размер детали должен быть равен а (табл. 2). При уровне значимости α=0,05 проверить утверждение производителя о совпадении размера произведенных деталей с проектным размером. Таблица1
Таблица 2
Задача 2 Была исследована зависимость случайной величины Y от величины Х. В результате 10 испытаний были получены следующие результаты (табл. 3). По этим данным: 1) Построить диаграмму рассеяния. 2) Построить линейное уравнение регрессии. 3) Построить показательное уравнение регрессии. 4) Для построенных моделей проверить адекватность по F-критерию. 5) По модели с наименьшей остаточной дисперсией вычислить прогнозируемое значение y* при заданном значении x* (табл. 4). 6) Вычислить выборочный линейный коэффициент корреляции. 7) При уровне значимости α=0,05 проверить значимость коэффициента корреляции. Таблица 3
Таблица 4
Задача 3. На основе приведенных в таблице 5 данных о производстве продукции (в млн. руб.): 1. Проведите сглаживание уровней ряда с помощью трехчленной скользящей средней. 2. Проведите аналитическое выравнивание и выразите общую тенденцию роста каждого вида продукции соответствующими математическими уровнями, определите выровненные уровни ряда динамики и нанесите их на график с фактическими данными. 3. По построенному тренду сделайте прогноз по выпуску продукции на 2013 год. Таблица5
ТЕХНОЛОГИЯ ВЫПОЛНЕНИЯ КОНТРОЛЬНОЙ РАБОТЫ
Задача 1. Некоторый технологический процесс характеризуется выходным параметром, который может быть рассмотрен как случайная величина Х. Было проведено 50 измерений этого параметра (табл. 6). 1) Провести группировку данных, разбив варианты на 8 интервалов. 2) Для сгруппированного ряда построить гистограмму частот. 3) Найти выборочную среднюю, выборочную дисперсию, исправленную выборочную дисперсию, исправленное выборочное среднеквадратическое отклонение случайной величины Х. 4) Построить доверительный интервал для генеральной средней и генерального среднеквадратического отклонения с заданным уровнем доверительной вероятности γ = 0,95. 5) При уровне значимости α = 0,05 проверить утверждение, что среднее значение величины Х соответствует проектному значению a = 25.
Таблица 6
Решение 1. Проведем группировку исходных данных. Найдем разность между наибольшим и наименьшим значениями признака xmax – xmin = 30,39 – 19,71 = 10,68. Тогда длина интервала составит h = 10,68/8 = 1,335 ≈ 1,4. Выберем границы интервалов (табл. 7). Таблица 7
2. Построим для сгруппированного ряда гистограмму частот.
3. Найдем выборочную среднюю
Найдем выборочную дисперсию Dв по формуле (2.4)
Найдем исправленную выборочную дисперсию по формуле (2.5)
Найдем исправленное выборочное среднеквадратическое отклонение случайной величины Х
4. Построим доверительный интервал для генеральной средней с уровнем доверительной вероятности γ = 0,95. Так как значение генеральной дисперсии неизвестно, пользуемся формулой (2.10). Найдем значение t1–γ,n–1 = t0,05;49 по таблице критических точек распределения Стьюдента (приложение 2) при уровне вероятности α = 0,05 и числе степеней свободы k = n – 1 = 49. Получаем t0,05;49 = 2,01. Далее находим точность оценки
Согласно (2.8), доверительный интервал для генеральной средней имеет вид Построим доверительный интервал для генерального среднеквадратического отклонения с заданным уровнем доверительной вероятности γ = 0,95. Найдем значение
Подставляя значения, получаем, что с вероятностью 0,95 выполнено или 5. При уровне значимости α = 0,05 проверим утверждение, что среднее значение величины Х соответствует проектному значению a = 25. Так как выборка имеет большой объем (n = 50 > 30), то для проверки нулевой гипотезы Н 0: x = а в качестве критерия проверки можно принять случайную величину U, определенную по формуле (3.1). При этом в качестве генерального среднеквадратического отклонения σ можно принять выборочное значение s. Вычислим наблюдаемое значение критерия
Конкурирующей является гипотеза Н 1: x ≠ а, поэтому критическую точку U кр находим по таблице функции Лапласа (приложение 1) из условия Φ(U кр) = (1 – α)/2 = 0,475. Получаем U кр=1,96. Так как | U набл| < U кр, то нет оснований отвергнуть нулевую гипотезу. Следовательно, утверждение, что среднее значение выходного параметра Х соответствует проектному значению, является статистически обоснованным.
Задача 2 Была исследована зависимость случайной величины Date: 2016-08-30; view: 565; Нарушение авторских прав |