МЕТОДОЛОГИЧЕСКИЕ основы вариационной статистики

⇐ ПредыдущаяСтр 3 из 66Следующая ⇒

Общие положения

Вариационная статистика - раздел математической статистики, изучающий распределение количественных признаков в статистических совокупностях. В однородных совокупностях имеются признаки, изменяющиеся от одной единицы к другой (диаметр отдельных деревьев в древостое, прирост высоты саженцев в лесных культурах одного года посадки и т.д.). Группировка единиц по величине варьируемого признака дает вариационные ряды, которые составляют предмет вариационной статистики. Для этих рядов вычисляются: средняя величина, среднее квадратическое отклонение, показатели меры косости и крутости, мода, медиана и др. Вариационная статистика рассматривает вопросы построения теоретических распределений, измерения связи между варьирующими признаками, количественные критерии оценки достоверности полученных показателей. В целом вариационная статистика применяется при математической обработке результатов наблюдений и дает методы объективной обработки информации для лесоводства, лесной таксации и др. В свою очередь вариационная статистика опирается на эти дисциплины, т.к. имеет дело с варьирующими признаками.

Основные понятия статистики

Одно из основных понятий статистики - переменные - это то, что можно измерять, контролировать или что можно изменять в исследованиях. Переменные отличаются многими аспектами, особенно той ролью, которую они играют в исследованиях, шкалой измерения и т.д.

Независимыми переменными называются переменные, которые варьируются исследователем, тогда как зависимые переменные - это переменные, которые измеряются или регистрируются. Другими словами, зависимость проявляется в ответной реакции исследуемого объекта на посланное на него воздействие. Отчасти в противоречии с данным разграничением понятий находится использование их в исследованиях, где вы не варьируете независимые переменные, а только приписываете объекты к "экспериментальным группам", основываясь на некоторых их априорных свойствах.

В исследовании корреляций (зависимостей, связей) вы не влияете (или, по крайней мере, пытаетесь не влиять) на переменные, а только измеряете их и хотите найти взаимосвязь между некоторыми измеренными переменными, например, между высотой и диаметром дерева. В экспериментальных исследованиях, напротив, вы варьируете некоторыми переменными и измеряете воздействия этих изменений на другие переменные. Например, исследователь может искусственно отбирает деревья определенной высоты, а затем для определенных уровней высот измерить диаметр деревьев. Анализ данных в экспериментальном исследовании также приходит к вычислению "корреляций" (зависимостей) между переменными, а именно, между переменными, на которые воздействуют, и переменными, на которые влияет это воздействие. Тем не менее, экспериментальные данные потенциально снабжают нас более качественной информацией. Только экспериментально можно убедительно доказать причинную связь между переменными. Например, если обнаружено, что всякий раз, когда изменяется переменная x, изменяется и переменная y, то можно сделать вывод - "переменная x оказывает влияние на переменную y ", т.е. между переменными x и y имеется причинно-следственная связь.

Переменные различаются также тем "насколько хорошо" они могут быть измерены или, другими словами, как много измеряемой информации обеспечивает шкала их измерений. Очевидно, в каждом измерении присутствует некоторая ошибка, определяющая границы "количества информации", которое можно получить в данном измерении. Другим фактором, определяющим количество информации, содержащейся в переменной, является тип шкалы, в которой проведено измерение. Различают следующие типы шкал:

· номинальная;

· порядковая (ординальная);

· интервальная;

· относительная (шкала отношения).

Соответственно, имеем четыре типа переменных:

· Номинальные переменные используются только для качественной классификации. Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым, существенно различным классам; при этом вы не сможете определить количество или упорядочить эти классы. Типичные примеры номинальных переменных - порода, тип почвы, цвет, и т.д.

· Порядковые переменные позволяют ранжировать (упорядочить) объекты, указав какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать "на сколько больше" или "на сколько меньше". Типичный пример порядковой переменной - бонитет древостоя.

· Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выразить и сравнить различия между ними. Например, диаметр, измеренный в сантиметрах или метрах, образует интервальную шкалу. Здесь можно сказать, что дерево диаметром 40 см больше, чем диаметром 30 см, но и что увеличение диаметра с 20 до 40 см вдвое больше увеличения диаметра от 30 до 40 см.

· Относительные переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие определенной точки абсолютного нуля, таким образом, для этих переменных являются обоснованными предложения типа: x в два раза больше, чем y. Типичными примерами шкал отношений являются измерения времени или пространства. Например, температура по Кельвину образует шкалу отношения, и вы можете не только утверждать, что температура 200 градусов выше, чем 100 градусов, но и что она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Заметим, что в большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения.

Независимо от типа, две или более переменных связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом. Например, переменная высота дерева связана с его диаметром, потому что обычно высокие особи толще низких и т.д.

Конечная цель всякого исследования или научного анализа состоит в нахождение связей (зависимостей) между переменными. Философия науки учит, что не существует иного способа представления знания, кроме как в терминах зависимостей между количествами или качествами, выраженными какими-либо переменными. Таким образом, развитие науки всегда заключается в нахождении новых связей между переменными. Исследование корреляций по существу состоит в измерении таких зависимостей непосредственным образом. Тем не менее, экспериментальное исследование не является в этом смысле чем-то отличным. Назначение статистики состоит в том, чтобы помочь объективно оценить зависимости между переменными.

Можно отметить два самых простых свойства зависимости между переменными:

· Величина зависимости. Например, если любая сосна в вашей выборке имеет значение высоты выше чем любая ель, то вы можете сказать, что зависимость между двумя переменными (порода и высота) очень высокая. Другими словами, вы могли бы предсказать значения одной переменной по значениям другой.

· Надежность ("истинность"). Надежность говорит нам о том, насколько вероятно, что зависимость, подобная найденной вами, будет вновь обнаружена (иными словами, подтвердится) на данных другой выборки, извлеченной из той же самой генеральной совокупности. Следует помнить, что конечной целью почти никогда не является изучение данной конкретной выборки; выборка представляет интерес лишь постольку, поскольку она дает информацию обо всей генеральной совокупности. Если ваше исследование удовлетворяет некоторым специальным критериям, то надежность найденных зависимостей между переменными вашей выборки можно количественно оценить и представить с помощью стандартной статистической меры.

Величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна. Это можно объяснить следующим образом. Если предполагать отсутствие зависимости между соответствующими переменными в генеральной совокупности, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в генеральной совокупности, из которой она извлечена.

Величина зависимости тесно связана с понятием статистическая значимость результата, которое представляет собой оцененную меру уверенности в его "истинности" - a -уровень - это показатель, находящийся в убывающей зависимости от надежности результата. Более высокий a -уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, a -уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю генеральную совокупность. Например, a -уровень = 0.05 показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Другими словами, если данная зависимость в генеральной совокупности отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между переменными. Однако указанная связь между зависимостью и значимостью имеет место только при фиксированном объеме выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высоко значимой, так и незначимой вовсе.

Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить. Необходимый минимальный размер выборки возрастает, когда степень эффекта, который нужно доказать, убывает. Когда эффект близок к 0, необходимый объем выборки для его отчетливого доказательства приближается к бесконечности. Другими словами, если зависимость между переменными почти отсутствует, объем выборки, необходимый для значимого обнаружения зависимости, почти равен объему всей генеральной совокупности, который предполагается бесконечным. Статистическая значимость представляет вероятность того, что подобный результат был бы получен при проверке всей генеральной совокупности в целом. Таким образом, все, что получено после тестирования всей генеральной совокупности было бы, по определению, значимым на наивысшем, возможном уровне и это относится ко всем результатам типа "нет зависимости".

Статистиками разработано много различных мер взаимосвязи между переменными. Выбор определенной меры в конкретном исследовании зависит от числа переменных, используемых шкал измерения, природы зависимостей и т.д. Большинство этих мер, тем не менее, подчиняются общему принципу. Обычный способ выполнить такие оценки заключается в том, чтобы посмотреть как варьируются значения переменных и затем подсчитать, какую часть всей имеющейся вариации можно объяснить наличием "общей" ("совместной") вариации двух (или более) переменных. Другими словами, вы сравниваете то "что есть общего в этих переменных", с тем "что потенциально было бы у них общего, если бы переменные были абсолютно зависимы".

Конечная цель большинства статистических критериев (тестов) состоит в оценивании зависимости между переменными. Эти тесты представляют собой отношение изменчивости, общей для рассматриваемых переменных, к полной изменчивости. Это отношение обычно называется отношением объясненной вариации к полной вариации. В статистике термин объясненная вариация не обязательно означает, что вы даете ей "теоретическое объяснение". Он используется только для обозначения общей вариации рассматриваемых переменных, иными словами, для указания на то, что часть вариации одной переменной "объясняется" определенными значениями другой переменной и наоборот.

Предположим, вы уже вычислили меру зависимости между двумя переменными. Следующий вопрос, стоящий перед вами: "насколько значима эта зависимость?" Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ: "в зависимости от обстоятельств". Именно значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между "величиной" и "значимостью" зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно "насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в генеральной совокупности такой зависимости нет". Другими словами, эта функция давала бы уровень значимости (a -уровень), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в генеральной совокупности. Эта "альтернативная" гипотеза (состоящая в том, что нет зависимости в генеральной совокупности) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.

Распределение многих статистик является нормальным или может быть получено из нормальных с помощью некоторых преобразований. Рассуждая философски, можно сказать, что нормальное распределение представляет собой одну из эмпирически проверенных истин относительно общей природы действительности и его положение может рассматриваться как один из фундаментальных законов природы. Точная форма нормального распределения (характерная "колоколообразная кривая") определяется только двумя параметрами: средней величиной (М) и стандартным отклонением (s).

Характерное свойство нормального распределения состоит в том, что 68% всех его наблюдений лежат в диапазоне ±1 стандартное отклонение от среднего, а диапазон ±2 стандартных отклонения содержит 95% значений. Другими словами, при нормальном распределении, стандартизованные наблюдения, меньшие -2 s или большие +2 s, имеют относительную частоту менее 5%. (Стандартизованное наблюдение означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение (корень из дисперсии)).

Все ли статистики критериев нормально распределены? Не все, но большинство из них либо имеют нормальное распределение, либо имеют распределение, связанное с нормальным и вычисляемое на основе нормального, такое как t, F или хи-квадрат. Обычно эти критериальные статистики требуют, чтобы анализируемые переменные сами были нормально распределены в совокупности. Многие наблюдаемые переменные действительно нормально распределены, что является еще одним аргументом в пользу того, что нормальное распределение представляет "фундаментальный закон". Проблема может возникнуть, когда пытаются применить тесты, основанные на предположении нормальности, к данным, не являющимся нормальными. В этих случаях вы можете выбрать одно из двух. Во-первых, вы можете использовать альтернативные "непараметрические" тесты. Однако это часто неудобно, потому что обычно эти критерии имеют меньшую мощность и обладают меньшей гибкостью. Как альтернативу, во многих случаях вы можете все же использовать тесты, основанные на предположении нормальности, если уверены, что объем выборки достаточно велик. Последняя возможность основана на чрезвычайно важном принципе, позволяющем понять популярность тестов, основанных на нормальности. А именно, при возрастании объема выборки, форма выборочного распределения приближается к нормальной, даже если распределение исследуемых переменных не является нормальным.

⇐ Предыдущая 1 234 5 6 7 8 9 10 Следующая ⇒

Date: 2016-07-25; view: 535; Нарушение авторских прав

mydocx.ru - 2015-2025 year. (0.014 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию