Полезное:

Категории:

Архитектура Астрономия Биология География Геология Информатика Искусство История Кулинария Культура Маркетинг Математика Медицина Менеджмент Охрана труда Право Производство Психология Религия Социология Спорт Техника Физика Философия Химия Экология Экономика Электроника

Выборка. Эмпирическая функция распределения. Гистограмма

⇐ ПредыдущаяСтр 9 из 12Следующая ⇒

В математической статистике имеют дело со стохастическими экспериментами, состоящими в проведении n повторных независимых наблюдений над некоторой случайной величиной X ={x_i}=x₁, x₂, x_n, имеющей неизвестное распределение вероятностей, т.е. неизвестную функцию распределения F_x (х) = F (х).

В этом случае множество X возможных значений наблюдаемой случайной величины Х называют генеральной совокупностью, имеющей функцию распределения F (х).

Числа х₁,,…,x_n, x_i Î X, i = , являющиеся результатом n независимых наблюдений над случайной величиной X, называют выборкой из генеральной совокупности или выборочными (статистическими) данными. Число n называется объемом выборки.

В таблице 1 приведены обозначения параметров выборки для выборочных значений.

Таблица 1 – Параметры выборки

Параметр	Обозначение	Определение
Выборочные данные	x_i, где i = 1,... n	Наблюденные значения случайной величины
Объем выборки	n	Количество случайных чисел в выборке

Выборка является исходной информацией для статистического анализа и принятия решений о неизвестных вероятностных характеристиках наблюдаемой случайной величины X. Однако на основе конкретной выборки обосновать качество статистических выводов невозможно. Для этих целей на выборку следует смотреть априори как на случайный вектор (Х ₁, …, X_n), координаты которого являются независимыми, распределенными так же как и X, случайными величинами, и который еще не принял конкретного значения в результате эксперимента. Существует несколько способов представления статистических данных. Простейший из них – в виде статистического ряда:

Номер наблюдения i	1 2 … n
Результат наблюдения x_i	x₁ x₂ … x_n

Если среди выборочных значений имеются совпадающие, то статистический ряд удобнее записывать в виде следующей таблицы 2.

Таблица 2 – Статистический ряд

Выборочные значения y_i	y₁	y₂	…	y_r
Частоты m_i	m₁	m₂	…	m_r
Относительные частоты p_i* = m_i/n	m₁/n	m₂/n	…	m_r/n

Здесь (у₁, …,y_r) (r < n) – различные значения среди х₁, …,x_n; m_i –частота значения у_i, p_i *= m_i / n - относительная частота значения y_i. Очевидно, что

Совокупность пар называют иногда эмпирическим законом распределения, а саму таблицу 2 – таблицей частот. Выборочные значения х₁, …,x_n, упорядоченные по возрастанию, носят название вариационного ряда:

x_{(1 )}£ x₍₂₎£…£ x₍_n₎,

где x ₍₁₎ =min{ x₁,…,x_n }, x ₍ _n ₎ =max{ x₁,…,x_n }.

Величина называется размахом выборки.

Эмпирической функцией распределения, соответствующей выборке х_1,…, x_n, называется функция

где I (A)–индикатор множества A, а – число выборочных значений, не превосходящих x. Для каждой выборки х₁, …, x_n функция F_n *(х) является неубывающей и непрерывной слева. Ее график имеет ступенчатый вид:

_-если все значения х₁, …, x_n различны, то F_n *(х)= i/n при x Î[ x ₍ _i _), x ₍ _i+1 ₎), x ₍₀₎ =- ¥, x ₍ _n+1 ₎ = ¥;

- если y₁, …,y_r –различные значения среди х₁, …,x_n, то .

Эмпирическая функция распределения F_n *(х) служит статистическим аналогом (оценкой) неизвестной функции распределения F (x), которую называют при этом теоретической. Если х₁, …, x_n – выборка объема n из генеральной совокупности, имеющей непрерывное распределение с неизвестной плотностью вероятностей f _x(x)= f (x), то для получения статистического аналога f (х) следует произвести группировку данных. Она состоит в следующем:

1. По данной выборке х₁, …, x_n строят вариационный ряд x ₍₁₎ £x ₍₂₎ £…£x ₍ _n _).

2. Промежуток [ x ₍₁₎, x ₍ _n ₎] разбивают точками u₀ = х ₍₁₎, u₁, …, u_L = x₍_n): u₀ < u₁ <…< u_L на L непересекающихся интервалов J_k = [ u_k_–1, u_k) (на практике L << n).

3. Подсчитывают частоты ν_k попадания выборочных значений в k -ый интервал J_k_.

4. Полученную информацию заносят в таблицу, которую называют интервальным статистическим рядом (таблица 3).

Таблица 3 – Интервальный статистический ряд

Интервалы J_k	[ u₀, u₁)	[ u₁, u₂)	…	[ u_L–1, u_L ]
Частоты ν_k	ν₁	ν₂	…	ν_L
Относительные частоты	n₁ / n	ν₂ / n	…	n_L / n

Очевидно, что . Поэтому совокупность пар

называют иногда эмпирическим законом распределения, полученным по сгруппированным данным. Далее в прямоугольной системе координат на каждом интервале J_k как на основании длины ∆ u_k = u_k – u_k_-1 строят прямоугольник с высотой . Получаемую при этом ступенчатую фигуру называют гистограммой. Поскольку при больших n выполняется , то верхнюю границу гистограммы можно рассматривать как оценку неизвестной плотности f (x).

Ломаная с вершинами в точках называется полигоном частот и для гладких плотностей является более точной оценкой, чем гистограмма.

На практике при группировке данных обычно берут интервалы одинаковой длины ∆ u =соnst, а число интервалов группировки определяют с помощью так называемого правила Стаджерса, согласно которому полагается

L = [1+3,32 ln(n)]+1,

или следующими рекомендациями:

при n≥1000 L=11…15;

n≥400 L=10;

n≥200 L=9;

100<n<200 критерий применяют в исключительных случаях с числом интервалов L=7…9.

Если интервалы выбраны одинаковой длины, то ширина их равна .

Располагая только сгруппированными данными, можно определить аналог эмпирической функции распределения следующим образом:

Статистическим аналогом (оценкой) теоретической числовой характеристики

является выборочная (эмпирическая) числовая характеристика g *, определяемая как среднее арифметическое значений функции g (х) для элементов выборки х₁, …, x_n:

В частности, k -й выборочный момент есть величина

При k = 1 величину α * ₁ называют выборочным средним и обозначают :

При k =2 величину μ₂ * называют выборочной дисперсией и обозначают s ²:

Между выборочными начальными и выборочными центральными моментами сохраняются те же соотношения, что и между теоретическими. Например, справедливо равенство

являющееся аналогом известного равенства μ₂ = DX = α ₂– α₁² = М{X} ²–(М{X})². Для вычисления выборочных моментов k -го порядка по сгруппированным данным используются формулы:

В частности, выборочное среднее и выборочная дисперсия по сгруппированным данным определяются с помощью формул

⇐ Предыдущая 3 4 5 6 7 8910 11 12 Следующая ⇒

Date: 2015-07-17; view: 1743; Нарушение авторских прав; Помощь в написании работы --> СЮДА...

mydocx.ru - 2015-2024 year. (0.006 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию