Полезное:

Категории:

Архитектура Астрономия Биология География Геология Информатика Искусство История Кулинария Культура Маркетинг Математика Медицина Менеджмент Охрана труда Право Производство Психология Религия Социология Спорт Техника Физика Философия Химия Экология Экономика Электроника

Таблицы и выборочные характеристики

⇐ ПредыдущаяСтр 26 из 51Следующая ⇒

Исходные статистические данные могут быть достаточно обширными. В качестве примера приведем результаты экспертного опроса, проведенного Институтом высоких статистических технологий и эконометрики в 1994 г. (табл.1). В первом столбце приведены номера экспертов, в остальных четырех – четыре прогнозных значения, полученных от каждого эксперта. Отметим, что эксперт №28 не ответил на вопрос об инфляции. В таблицах реальных данных приходися сталкиваться с пропусками.

Таблица 1.

Прогнозы экспертов на 8 декабря 1994 г. (сделаны 19.10.1994)

№ п/п	Курс доллара США, руб.	Инфляция (%) за период прогноза	Цена батона белого хлеба, руб.	Цена 1 л молока, руб.
		4,0 2,8 17,0 16,0 16,0 5,0 3,5 62,0 54,0 10,0 54,0 54,0 9,0 54,0 40,0 13,0 15,0 2,5 200,0 6,0 3,0 12,0 11,0 54,0 62,0 73,0 54,0 - 38,0 38,0 2,0 46,0 92,0

Описание данных - это первичное сжатие информации с целью сделать ее более обозримой, легкой для восприятия. Самый древний способ – это составление различных таблиц, вторичных по отношению к таблицам исходных данных.

Например, рассмотрим последний столбец табл.1. Для лучшего восприятия прогнозов экспертов о цене 1 л молока сгруппируем данные по интервалам, как это сделано в табл.2.

Таблица 2.

Прогнозируемая цена молока

№ п/п	Интервал, руб.	Число ответов
	700 – 799 800 – 899 900 – 999 1000 – 1099 1100 – 1199 1200 – 1299 1300 – 1399 1400 – 1499 1500 – 1599 Всего

Группировка данных в табл.2 по 10 интервалам может показаться слишком дробной. Нетрудно объединить градации и получить, например, табл.3.

Таблица 3.

Прогнозируемая цена молока (крупные градации)

№ п/п	Интервал,руб.	Число ответов
	700 – 999 1000 –1299 1300 –1599 Всего

Сколько использовать градаций (т.е. строк в таблице)? Общих рекомендаций дать нельзя. Ответ зависит от цели статистического исследования, от структуры конкретных данных.

Табличный материал может быть выражен в виде различных диаграмм, в том числе круговых и столбчатых. Несколько десятков лет назад были популярны гистограммы – столбчатые диаграммы, для которых интервалы группирования имеют одинаковую длину.

В настоящее время гистограммы рассматривают как устаревшие инструменты статистического анализа. Для описания массива данных рекомендуется использовать вариационные ряды, эмпирические функции распределения (см. главу 1.2) и – особенно настоятельно – непараметрические оценки плотности (см. подраздел 2.1.6). Кроме того, целесообразно рассчитывать и приводить в документации в разделе «Описание данных» выборочные характеристики:

- выборочное среднее арифметическое;

- выборочную дисперсию;

- выборочное среднее квадратическое отклонение;

- коэффициент вариации

- медиану;

- минимум (первый член вариационного ряда);

- максимум (последний член вариационного ряда);

- размах

- моду и амплитуду моды;

- верхний квартиль;

- нижний квартиль;

- межквартильное расстояние.

Определения всех этих выборочных характеристик даны выше в главе 1.2. В настоящем подразделе сведены вместе наиболее распространенные приемы описания числовых данных.

Шкалы измерения, инвариантные алгоритмы и средние величины

Инвариантные алгоритмы и средние величины. Основное требование к алгоритмам анализа данных формулируется в теории измерений (см. главу 1.1) так: выводы, сделанные на основе данных, измеренных в шкале определенного типа, не должны меняться при допустимом преобразовании шкалы измерения этих данных. Другими словами, выводы должны быть инвариантны по отношению к допустимым преобразованиям шкалы.

Таким образом, одна из основных целей теории измерений - борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в аршинах, метрах, микронах, милях, парсеках и других единицах измерения. Массу (вес) - в пудах, килограммах, фунтах и др. Цены на товары и услуги можно указывать в юанях, рублях, тенге, гривнах, латах, кронах, марках, долларах США и других валютах (при фиксированных курсах пересчета). Подчеркнем очень важное, хотя и вполне очевидное обстоятельство: выбор единиц измерения зависит от исследователя, т.е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую единицу измерения предпочтет исследователь, т.е. когда они инвариантны относительно допустимого преобразования шкалы.

Оказывается, сформулированное условие является достаточно сильным. Из многих алгоритмов анализа статистических данных ему удовлетворяют лишь некоторые. Покажем это на примере сравнения средних величин.

Пусть Х ₁, Х ₂ ,…, Х_n - выборка объема n. Часто используют среднее арифметическое

Использование среднего арифметического настолько привычно, что второе слово в термине часто опускают. И говорят о средней зарплате, среднем доходе и других средних для конкретных экономических данных, подразумевая под "средним" среднее арифметическое. Такая традиция может приводить к ошибочным выводам. Покажем это на примере расчета средней заработной платы (среднего дохода) работников условного предприятия (табл.4).

Таблица 4.

Численность работников различных категорий, их заработная плата

и суммарные доходы (в условных единицах).

№ п/п	Категория работников	Число ра-ботников	Заработ-ная плата	Суммарные доходы
	Низкоквалифицированные рабочие
	Высококвалифицированные рабочие
	Инженеры и служащие
	Менеджеры
	Генеральный директор (владелец)
	Всего

Первые три строки в табл.4 вряд ли требуют пояснений. Менеджеры - это директора по направлениям, а именно, по производству (главный инженер), по финансам, по маркетингу и сбыту, по персоналу (по кадрам). Владелец сам руководит предприятием в качестве генерального директора. В столбце "заработная плата" указаны доходы одного работника соответствующей категории, а в столбце "суммарные доходы" - доходы всех работников соответствующей категории.

Фонд оплаты труда составляет 40000 единиц, работников всего 100, следовательно, средняя заработная плата составляет 40000/100 = 400 единиц. Однако эта средняя арифметическая величина явно не соответствует интуитивному представлению о "средней зарплате". Из 100 работников лишь 5 имеют заработную плату, ее превышающую, а зарплата остальных 95 существенно меньше средней арифметической. Причина очевидна - заработная плата одного человека - генерального директора - превышает заработную плату 95 работников - низкоквалифицированных и высококвалифицированных рабочих, инженеров и служащих.

Ситуация напоминает описанную в известном рассказе о больнице, в которой 10 больных, из них у 9 температура 40 ⁰С, а один уже отмучился, лежит в морге с температурой 0⁰С. Между тем средняя температура по больнице равна 36⁰С - лучше не бывает!

Сказанное показывает, что среднее арифметическое можно использовать лишь для достаточно однородных совокупностей (без больших выбросов в ту или иную сторону). А какие средние целесообразно использовать для описания заработной платы? Вполне естественно использовать медиану. Для данных табл.4 медиана - среднее арифметическое 50-го и 51-го работника, если их заработные платы расположены в порядке неубывания. Сначала идут зарплаты 40 низкоквалифицированных рабочих, а затем - с 41-го до 70-го работника - заработные платы высококвалифицированных рабочих. Следовательно, медиана попадает именно на них и равна 200. У 50-ти работников заработная плата не превосходит 200, и у 50-ти - не менее 200, поэтому медиана показывает "центр", около которого группируется основная масса исследуемых величин. Еще одна средняя величина - мода, наиболее часто встречающееся значение. В рассматриваемом случае это заработная плата низкоквалифицированных рабочих, т.е. 100. Таким образом, для описания зарплаты имеем три средние величины - моду (100 единиц), медиану (200 единиц) и среднее арифметическое (400 единиц). Для наблюдающихся в реальной жизни распределений доходов и заработной платы справедлива та же закономерность: мода меньше медианы, а медиана меньше среднего арифметического.

Для чего в технических, экономических, медицинских и иных исследованиях используются средние величины? Обычно для того, чтобы заменить совокупность чисел одним числом, чтобы сравнивать совокупности с помощью средних.

Пусть, например, Y ₁, Y ₂ ,...,Y_n - совокупность оценок экспертов, "выставленных" одному объекту экспертизы (например, одному из вариантов стратегического развития фирмы), Z ₁, Z ₂ ,...,Z_n - второму (другому варианту такого развития). Как сравнивать эти совокупности? Очевидно, самый простой способ - по средним значениям.

А как вычислять средние? Известны различные виды средних величин: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое. Напомним, что общее понятие средней величины введено французским математиком первой половины ХIХ в. академиком О. Коши. Оно таково: средней величиной является любая функция f (X ₁, X ₂ ,...,X_n) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X ₁, X ₂ ,...,X_n, и не больше, чем максимальное из этих чисел. Все перечисленные выше виды средних являются средними по Коши.

При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой - меньше, не должны меняться (в соответствии с требованием инвариантности выводов, принятом как основное требование в теории измерений). Сформулируем соответствующую математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы.

Пусть f (X ₁, X ₂ ,...,X_n) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:

f (Y ₁, Y ₂ ,...,Y_n) < f (Z ₁, Z ₂ ,...,Z_n).

Тогда согласно теории измерений для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g из группы допустимых преобразований в соответствующей шкале было справедливо также неравенство

f (g (Y ₁), g (Y ₂) ,...,g (Y_n)) < f(g (Z ₁), g (Z₂), ...,g(Z_n)),

т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть верно для любых двух совокупностей Y ₁, Y ₂ ,...,Y_n и Z ₁, Z ₂ ,...,Z_n. И, напомним, для любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, назовем допустимыми (в соответствующей шкале). Согласно теории измерений только такими средними можно пользоваться при анализе мнений экспертов и иных данных, измеренных в рассматриваемой шкале.

С помощью математической теории, развитой в монографии [7], удается описать вид допустимых средних в основных шкалах. Сразу ясно, что для данных, измеренных в шкале наименований, в качестве среднего годится только мода.

Средние величины в порядковой шкале. Рассмотрим обработку, для определенности, мнений экспертов, измеренных в порядковой шкале. Справедливо следующее утверждение.

Теорема 1. Из всех средних по Коши допустимыми средними в порядковой шкале являются только члены вариационного ряда (порядковые статистики).

Теорема 1 справедлива при условии, что среднее f (X ₁, X ₂ ,...,X_n) является непрерывной (по совокупности переменных) и симметрической функцией. Последнее означает, что при перестановке аргументов значение функции f (X ₁, X ₂ ,...,X_n)не меняется. Это условие является вполне естественным, ибо среднюю величину мы находим для совокупности (множества), а не для последовательности. Множество не меняется в зависимости от того, в какой последовательности мы перечисляем его элементы.

Согласно теореме 1 в качестве среднего для данных, измеренных в порядковой шкале, можно использовать, в частности, медиану (при нечетном объеме выборки). При четном же объеме следует применять один из двух центральных членов вариационного ряда - как их иногда называют, левую медиану или правую медиану. Моду тоже можно использовать - она всегда является членом вариационного ряда. Но никогда нельзя рассчитывать среднее арифметическое, среднее геометрическое и т.д.

Приведем численный пример, показывающий некорректность использования среднего арифметического f (X ₁, X ₂) = (X₁ + X ₂)/2 в порядковой шкале. Пусть Y ₁= 1, Y ₂ = 11, Z ₁= 6, Z ₂= 8. Тогда f (Y ₁, Y ₂) = 6, что меньше, чем f (Z ₁, Z₂) = 7. Пусть строго возрастающее преобразование g таково, что g (1) = 1, g (6) = 6, g (8) = 8, g (11) = 99.Таких преобразований много. Например, можно положить g (x) = x при x, не превосходящих 8, и g (x)= 99(x -8)/3 + 8 для х, больших 8. Тогда f (g (Y ₁), g (Y₂))= 50, что больше, чем f (g (Z ₁), g (Z₂)) = 7. Как видим, в результате допустимого, т.е. строго возрастающего преобразования шкалы упорядоченность средних величин изменилась.

Таким образом, теория измерений выносит жесткий приговор среднему арифметическому - использовать его с порядковой шкале нельзя. Однако же те, кто не знает теории измерений, используют его. Всегда ли они ошибаются? Оказывается, можно в какой-то мере реабилитировать среднее арифметическое, если перейти к вероятностной постановке и к тому же удовлетвориться результатами для больших объемов выборок. В монографии [7] получено также следующее утверждение.

Теорема 2. Пусть Y ₁, Y ₂ ,..., Y_m - независимые одинаково распределенные случайные величины с функцией распределения F (x), а Z ₁, Z ₂ ,..., Z_n - независимые одинаково распределенные случайные величины с функцией распределения H(x), причем выборки Y ₁, Y ₂ ,..., Y_m и Z ₁, Z ₂ ,..., Z_n независимы между собой и МY ₁ > MZ₁. Для того,чтобы вероятность события

стремилась к 1 при для любой строго возрастающей непрерывной функции g, удовлетворяющей условию

необходимо и достаточно, чтобы при всех x выполнялось неравенство F (x) < H (x), причем существовало число x ₀, для которого F (x ₀)< H (x ₀).

Примечание. Условие с верхним пределом носит чисто внутриматематический характер. Фактически функция g - произвольное допустимое преобразование в порядковой шкале.

Согласно теореме 2 средним арифметическим можно пользоваться и в порядковой шкале, если сравниваются выборки из двух распределений, удовлетворяющих приведенному в теореме неравенству. Проще говоря, одна из функций распределения должна всегда лежать над другой. Функции распределения не могут пересекаться, им разрешается только касаться друг друга. Это условие выполнено, например, если функции распределения отличаются только сдвигом, т.е.

F (x) = H (x+b)

при некотором b. Последнее условие выполняется, если два значения некоторой величины измеряются с помощью одного и того же средства измерения, у которого распределение погрешностей не меняется при переходе от измерения одного значения рассматриваемой величины к измерению другого.

Средние по Колмогорову. Естественная система аксиом (требований к средним величинам) приводит к так называемым ассоциативным средним. Их общий вид нашел в 1930 г. А.Н.Колмогоров [8]. Теперь их называют «средними по Колмогорову». Они являются обобщением нескольких из перечисленных выше средних.

Для чисел X ₁, X ₂ ,...,X_n среднее по Колмогорову вычисляется по формуле

G {(F (X ₁) + F (X ₂)+... + F (X_n)) /n },

где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая), G - функция, обратная к F. Среди средних по Колмогорову - много хорошо известных персонажей. Так, если F (x) = x, то среднее по Колмогорову - это среднее арифметическое, если F(x) = ln x, то среднее геометрическое, если F(x) = 1 /x, то среднее гармоническое, если F(x) = x ², то среднее квадратическое, и т.д. (в последних трех случаях усредняются положительные величины). Среднее по Колмогорову - частный случай среднего по Коши. С другой стороны, такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову. В монографии [7] доказаны следующие утверждения.

Теорема 3. При справедливости некоторых внутриматематических условий регулярности в шкале интервалов извсех средних п Колмогоров допустимым является только среднее арифметическое.

Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия), потенциальных энергий или координат точек не имеют смысла. В качестве среднего надо применять среднее арифметическое. А также можно использовать медиану или моду.

Теорема 4. При справедливости некоторых внутриматематических условий регулярности в шкале отношений из всех средних по Колмогорову допустимыми являются только степенные средние с F (x) = x^с, и среднее геометрическое.

Замечание. Среднее геометрическое является пределом степенных средних при

Есть ли средние по Колмогорову, которыми нельзя пользоваться в шкале отношений? Конечно, есть. Например, с F (x) = e^x.

Аналогично средним величинам могут быть изучены и другие статистические характеристики - показатели разброса, связи, расстояния и др. (см., например, [7]). Нетрудно показать, например, что коэффициент корреляции не меняется при любом допустимом преобразовании в шкале интервалов, как и отношение дисперсий. Дисперсия не меняется в шкале разностей, коэффициент вариации - в шкале отношений, и т.д.

Приведенные выше результаты о средних величинах широко применяются, причем не только в экономике, менеджменте, теории экспертных оценок или социологии, но и в инженерном деле, например, для анализа методов агрегирования датчиков в АСУ ТП доменных печей. Велико прикладное значение теории измерений в задачах стандартизации и управления качеством, в частности, в квалиметрии. Здесь есть и интересные теоретические результаты. Так, например, любое изменение коэффициентов весомости единичных показателей качества продукции приводит к изменению упорядочения изделий по средневзвешенному показателю (эта теорема доказана проф. В.В. Подиновским).

При подготовке и принятии решений необходимо использовать только инвариантные алгоритмы обработки данных. В настоящем подразделе показано, что требование инвариантности выделяет из многих алгоритмов усреднения лишь некоторые, соответствующие используемым шкалам измерения. Инвариантные алгоритмы в общем случае рассматриваются в математической теории измерений [9]. Нацеленное на прикладные исследования изложение теории измерений дается в монографиях [7, 10].

⇐ Предыдущая 21 22 23 24 252627 28 29 30 Следующая ⇒

Date: 2016-05-23; view: 513; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (0.146 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию