Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Стандартизация теста





Стандартизация (от англ. standard – типовой, нормальный) – унификация, регламентация, приведение к единым нормативам процедуры и оценок теста.

Методику, отвечающую требованиям валидности, надежности и дифференцированности, необходимо стандартизировать относительно выборки, на которой ее будут применять. При этом объективность психологического теста в целом означает, что первичные показатели, их оценка и интерпретация не должны зависеть от поведения и субъективных суждений экспериментатора. Добиться объективности психологического теста можно при выполнении следующих условий:

1) единообразие процедуры проведения теста для получения сравнимых с нормой результатов;

2) единообразие оценки выполнения теста;

3) определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования (см. “третий этап стандартизации”).

Таким образом, различаются две формы стандартизации.

Первая связана с регламентацией процедуры обследования, унификацией инструкции, бланков обследования, способов регистрации результатов, условий проведения обследования, характеристик контингентов испытуемых.

Стандартизация психологического теста в данном случае включает определение и учет следующих элементов диагностической ситуации:

1) Условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.

2) Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте “10 слов” каждое слово должно предъявляться через определенный интервал времени в секундах.

3) Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные – с определенной цветовой гаммой и цветовыми оттенками.

4) Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5) Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки.

6) Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение, тестовая тревожность – т.е. состояние, обусловленное действием мотива экспертизы и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7) Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка “правильного ответа” и др.

8) Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

9) единообразие оценки выполнения теста: стандартной интерпретации полученных результатов (это предполагает сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже).

Во втором случае стандартизация психологического теста состоит в определении норм выполнения теста, а также преобразовании нормальной (или искусственно нормализованной) шкалы оценок в новую шкалу, основанную уже не на количественных эмпирических закономерностях, а на его относительном месте в распределении результатов в выборке испытуемых[4] .

Нормы разрабатываются для различных возрастов, профессий, пола и пр. Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой. Нормы необходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования. Например, в тестах интеллекта получаемый первичный показатель IQ соотносится с нормативным IQ (43, 44, 45 баллов в тесте Равена). Если полученный IQ респондента выше нормативного, равен 60 баллам (в тесте Равена), можно говорить об уровне развития интеллекта этого респондента как высоком. Если полученный IQ ниже, то низком; если полученный IQ равен 43, 44 или 45 баллам, то среднем.

Определение норм для теста.

На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений (см. схему 2: зона средних значений – 43, 44, 45 баллов). Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

1) выборка стандартизации должна состоять из респондентов, на которых в принципе ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста;

2) выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимается, например, группа дошкольников 6–7 лет, руководителей, подростков и т.д.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения. Этот график показывает, какие значения первичных показателей входят в зону средних значений (в зону нормы), а какие выше и ниже нормы. Например, на схеме 2 изображена кривая нормального распределения для теста “Прогрессивные матрицы Равена”.

Схема 2. Кривая нормального распределения для теста “Прогрессивные матрицы Равена”

 

 

Оценки первичные (“сырые” баллы) – оценки, полученные испытуемым на начальном этапе обработки результатов тестовой методики. Обычно это сведения о количестве правильно решенных задач, числе попыток при их решении, реже – о времени выполнения заданий. Получение первичных оценок – формализованная процедура, заключающаяся обычно в подсчете совпадений с имеющимся кодом (ключом).

Иной тип оценок – профильные оценки – способ представления количественных результатов психодиагностической методики, при котором оценки по отдельным группам заданий, субтестам с помощью специальных приемов приводятся к соизмеримым единицам (единой шкале оценок) и отображаются на графике. Соизмеримость оценок достигается с помощью выравнивающих коэффициентов, унификации первичных оценок, преобразования стандартизированных оценок в шкалу с едиными значениями М и s.

Чаще всего в руководствах к тому или иному тесту можно встретить выражения нормы не в виде сырых баллов, а в виде стандартных производных показателей. То есть нормы к данному тесту могут быть выражены в виде Т-баллов, децилей, процентилей, станайнов, стандартных IQ и др. Перевод сырых значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой.

Дело в том, что первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

Стандартизация первичных, или “сырых” психологических показателей по какой-либо из методик осуществляется их преобразованием в стандартную шкалу. Производные показатели получаются путем математической обработки первичных показателей, а способ оценки результатов теста конкретным испытуемым путем установления его места на специальной шкале называется шкальными оценками. Шкала содержит данные о внутригрупповых нормах выполнения данной методики в выборке стандартизации.

Наиболее распространенными преобразованиями первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений.

Под центрированием понимается линейная трансформация величин признака, при котором средняя величина распределения становится равной нулю. Так, если при обследовании группы испытуемых с помощью вновь разрабатываемого теста получено значение средней арифметической 17 “сырых” баллов, то это величина может быть выбрана в качестве центра отсчета шкалы, в обе стороны от которой симметрично располагаются показатели х < хср
и х > хср.

Процедура нормирования заключается в переходе к другому масштабу (единицам) измерения, который осуществляется по формуле:

где f (x) – теоретические частоты в эмпирической выборке, n – число членов выборки стандартизации, h – ширина интервала группирования данных в эмпирическом распределении, s – стандартное отклонение в выборке, f (l) – функция нормирования значений xi.

В качестве функции нормирования обычно выступает z – показатель (стандартный показатель), выражающий отклонение индивидуального результата xi в единицах, пропорциональных стандартному отклонению единичного нормального распределения.

Основными формами оценки результатов теста путем соотнесения с групповыми данными являются процентили, стандартные показатели, Т-показатели, станайны, стэны.

Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату. 50-й процентиль (Р50) соответствует медиане распределения результатов, Р>50 и Р<50 соответственно представляют ранги результатов выше и ниже среднего уровня результата. Ранги Р1 и Р100 получают соответственно самый низкий (но, отнюдь не нулевой) и самый высокий результаты. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами (например, разница в первичных показателях, соответствующая интервалу Р70 – Р80, может составить 10 баллов, а различие в интервале рангов Р50 – Р60 – лишь 1-3 балла).

Более широкое распространение в психодиагностике имеют стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком подсчете проводится z-преобразование оценок. Чтобы определить z-стандартный показатель, определяют разность между индивидуальным первичным результатом и средним значением для нормальной группы, а затем делят эту разность на s нормативной выборки. Полученная таким образом шкала z имеет среднюю точку М = 0, отрицательные значения обозначают результаты ниже среднего и убывают по мере удаления от нулевой точки; положительные значения обозначают соответственно результаты выше среднего. Единица измерения (масштаб) в шкале z равна 1s стандартного (единичного) нормального распределения.[5]

Использование той или иной шкалы зависит от размаха распределения первичных показателей. Например, если опросник содержит 200 вопросов, то перевод “сырых” баллов в стэны будет являться сильным “ужатием”, что крайне неоправданно. Надо всегда стремиться в соразмерности “сырых” и стандартных баллов.

Переход от одной шкалы к другой или разработка новых шкал осуществляется через накопленную частоту или среднее арифметическое (х) и стандартное отклонение (s).

Простейшая линейная стандартизация тестового балла производится по формуле

где Z – стандартный балл на шкале Z (с центром 0 и отклонением 1s), Х – сырой балл по тесту, Хср. – средний балл по выборке стандартизации, Sx – стандартное отклонение по выборке стандартизации.

После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике. Например, перевод в шкалу IQ переводится по формуле

IQ = Z...15 + 100.

Напомним, что в шкале IQ центр равен 100, а отклонение равно 15.

Если перевод требуется в шкалу “ стенов ” (от английского “standart ten” – стандартная десятка), то формула пересчета из шкалы Z выглядит так:

Sten = Z..2 + 5.5,

так как в шкале стенов центр равен 5.5, а отклонение равно 2.

Обобщенная формула перевода сырого балла в заданную стандартную шкалу имеет вид:

Y = Ss * Z + M,

где Y – стандартный балл по произвольной шкале с центром М и отклонением Ss.

Для серьезных профессиональных тестов вместо линейной стандартизации используется более сложная процедура нелинейной нормализации (форсированный переход к нормальному распределению). В результате этой, более точной процедуры тест, как правило, снабжается “конверсионной таблицей” для перевода сырых баллов в стандартные баллы по заданной шкале. В ней приводится полный перечень соответствий между интервалами сырой шкалы и интервалами стандартной.

 

Таблица 1. Пример фрагмента конверсионной таблицы для перевода сырых баллов в стены

 

Сырой балл 0-6 7-8 8-9 10-13 14-16 17-19 20-22 23-24   26-30
Стены                    

 

После того, как балл по тесту стандартизирован, можно выносить диагностическое заключение. Общее правило таково: если стандартный балл Y превышает единицу “верхней” (или “высокой”) группы M+Ss, то данному испытуемому приписывается повышенное значение измеренного психического свойства. Например, про ученика говорят, что он является определенно более дисциплинированным, чем средний ученик в российской школе. Если же стандартный балл Y ниже границы “нижней” (“низкой”) группы M-Ss, то о данном испытуемом формулируется заключение, соответствующее низкому полюсу измеряемого свойства.

Если мы имеем дело с биполярным (двухполюсным) психическим свойством, например, “гибкость/ригидность”, то для “высокой” группы формулируется заключение как для “гибких” людей, а для “низкой” группы – как для ригидных людей. Соответственно средняя группа из центрального интервала признается нейтральной, неполяризованной по данному тестовому параметру.

Проверка репрезентативности тестовых норм осуществляется с помощью анализа так называемого распределения частот тестовых баллов. Одним из простейших методов является проверка нормальности этого распределения. Более сложный и универсальный подход предполагает сравнение двух распределений, построенных для двух случайных половин выборки стандартизации. Если два этих распределения оказываются практически тождественными, то можно говорить о репрезентативности тестовых норм.

Введение понятия репрезентативности позволяет дать более строгое определение того, что такое стандартизация теста. О стандартизации теста в строгом смысле можно говорить, когда задана полная таблица соответствия сырой шкалы и стандартной шкалы и содержание этой таблицы обосновано статистической процедурой распределения тестовых баллов на выборке стандартизации.

Кроме статистических тестовых норм в современных тестах часто используются критериальные нормы. Они особенно важны для сферы образования. При построении так называемого “теста по критерию” шкала сырых тестовых баллов калибруется особыми реперными точками, которые соответствуют уровням рассчитанной вероятности достижения какого-то критерия (заданной эффективности деятельности).

Например, если оператор АЭС был точен в 45 из 48 процентов заданий, то это может еще и не соответствовать требуемому уровню критериальной “надежности оператора” (в данном случае “надежность” – измеряемое свойство), а вот если он был точен в 47 из 48 заданий, то это может считаться достаточным уровнем “надежности”. Таким образом, при построении диагностических заключений по критериальным тестам мы интересуемся не степенью отклонения балла от центра шкалы, а достижением или недостижением какого-то критического уровня на шкале.

Результаты, отличающиеся от нормального распределения, переводят в стандартную шкалу через процент распределения. При этом их количество должно быть достаточно большим (по крайней мере, больше 100).

Например, методику необходимо стандартизировать в 10-балльную шкалу (от 0 до 10) со средним 5 и стандартным отклонением 2. Для этого протестировали 300 человек.

Расчет шкалы производится следующим образом: из всего массива абсолютных показателей (“сырых” баллов) выделяется 0,9% самых лучших и 0,9% самых худших показателей и им присваиваются соответственно баллы 10 и 0. Затем из оставшихся выделяется по 2,8% лучших и худших результатов и соответственно присваиваются баллы 9 и 1 и т.д.

 

Таблица 3. Перевод сырых показателей в стандартные баллы (десятибалльная шкала)

 

Процент 0,9 2,8 6,6 12,1 17,4 19,8 17,4 12,1 6,6 2,8 0,9
Шкала                      

 

Для перевода сырых показателей в стандартизированные баллы используют также сигмальную шкалу, когда высокому, среднему и низкому уровням выраженности оцениваемого свойства соответствует область значений, находящихся в интервалах больше или меньше Хср. s (высокий и низкий уровни), а также в пределах этого интервала (средний уровень).

 

Date: 2015-10-18; view: 12316; Нарушение авторских прав; Помощь в написании работы --> СЮДА...



mydocx.ru - 2015-2024 year. (0.005 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию