Проверка теста на надежность и валидность

⇐ ПредыдущаяСтр 21 из 47Следующая ⇒

В практическом смысле под надежностью понимают постоянство или устойчивость результатов измерений. Если определенный измерительный инструмент надежен, то при повторных измерениях, проводимых тем же инструментом и другим человеком, результат не изменится. И наоборот, ненадежные измерительные инструменты дают различные результаты измерений, зависящие от самых различных обстоятельств.

Надежность – это общее требование, предъявляемое к измерениям любого типа при любых условиях.

Существует несколько способов оценки того, насколько надежные результаты измерений дает данный тест. Чаще всего используются три метода.

1. Оценка надежности теста методом повторного тестирования. Одним из наиболее часто используемых. С помощью этой процедуры вычисляется коэффициент корреляции между двумя переменными – результатами измерений, полученными при двукратном тестировании одних и тех же людей с использованием одного и того же теста, но в разное время.

С точки зрения исследователя, процедура повторного тестирования проста и занимает немного времени. Испытуемым она, вероятно, нравится меньше, поскольку им приходится проходить тест дважды. Как подчеркивают Смит и Джордж, важным аспектом тестирования является мотивация испытуемых хорошо справиться с тестом. Возможно, что при повторном тестировании испытуемые чувствуют нетерпение или скуку, за счет чего в результаты вносится дополнительная погрешность.

При исследовании надежности теста методом повторного тестирования в промежутке между первым и вторым тестированием могут произойти также и другие события. Если это слишком короткое время, то на коэффициент устойчивости могут повлиять такие факторы, как запоминание вопросов теста или полученный при первом тестировании опыт, а также снижение интереса испытуемых к тесту. Если между первым и вторым тестированием проходит слишком много времени, то испытуемые могут измениться в каком-либо релевантном тесту отношении (они могут подготовиться, накопить опыт, изучить материал и так далее).

Неодинаковые реакции испытуемых на первое тестирование вносят дополнительную ошибку в оценку надежности теста. По этой причине данный метод наиболее полезен для оценки надежности тестов, предназначенных для оценки умений, которые не имеют отношения к памяти и вряд ли улучшатся в результате непродолжительной практики во время первого тестирования. В качестве примеров таких тестов можно привести тесты на остроту слуха, на умение решать проблемы и на тонкую моторику.

2. Оценка надежности теста методом проверки внутренней согласованности. Некоторые проблемы, связанные с мотивацией, памятью и полученным опытом, возникающие при оценке надежности методом повторного тестирования, можно обойти путем использования метода проверки внутренней согласованности теста. При этом проверяется согласованность ответов на отдельные вопросы теста, а не постоянство результатов, полученных при тестировании в разное время. Один из часто применяемых подходов заключается в том, что несколько испытуемых проходят тестирование раз, после чего тест делят на две части, результаты которых подсчитываются отдельнo. У каждого испытуемого теперь по два результата, и их используют для расчета коэффициента корреляции.

Обычно деление теста на две части производится следующим образом: в одну половину включают вопросы с нечетными, а в другую – с четными номерами. Полученный коэффициент корреляции r между двумя наборами “результатов” называется коэффициентом внутренней согласованности или иногда – разделительным коэффициентом.

3. Оценка надежности теста методом эквивалентных форм Кроме метода проверки внутренней согласованности можно воспользоваться альтернативной процедурой, которая основана на использовании двух различных тестов.

Если в основе обоих тестов лежит один и тот же материал, и они эквивалентны по форме и степени сложности, можно провести оценку надежности с помощью процедуры использования эквивалентных форм. Каждому испытуемому предлагаются оба теста и вычисляется коэффициент корреляции между полученными результатами (r), который называется коэффициентом эквивалентности. В этом названии содержится указание на главный недостаток этого метода – трудность конструирования эквивалентных форм теста. Тест считается надежным, если при использовании одного и того же измерительного инструмента получаются одинаковые результаты. Если же разные формы теста не эквивалентны, то не используется один и тот же измерительный инструмент, и, соответственно, оценка надежности будет занижена.

Конструирование эквивалентных форм теста может быть трудным и занимающим много времени делом. Кроме того, перед тем как разные формы теста можно будет применить для оценки надежности теста, они должны быть проверены на эквивалентность с использованием другой выборки. Однако после того как тест показал свою адекватность и надежность, может оказаться полезным наличие под рукой эквивалентных форм теста.

Но в отличие от надежности помимо случайных факторов на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Эти факторы есть другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен. Например, мы хотим измерять потенциал обучаемости (важнейший компонент общих интеллектуальных способностей человека). Но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством — стрессоустойчивостью: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.

В современной психометрике разработаны десятки разнообразных теоретических и экспериментальных методов проверки валидности тестов. Основным элементом практически всех этих методов является так называемый критерий. Критерий валидности — это независимый от теста, внешний по отношению к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результаты с источником истинной (или хотя бы заведомо более валидной) информации об измеряемом свойстве — с критерием.

В научных исследованиях преобладают специальные лабораторные критерии. Например, конструируется компактный тест-опросник на тревожность. А в качестве критерия валидности для него используется специальный трудоемкий объективный лабораторный эксперимент, в котором воспроизводится реальная ситуация тревожности (испытуемым-добровольцам угрожают за ошибочные действия ударами тока и т. п.).

На практике очень часто в качестве критерия валидности используются прагматические критерии — показатели эффективности той деятельности, ради прогнозирования которой предпринимается тестирование. В школе самый типичный критериальный показатель — это успеваемость. Но для социально-психологической адаптации ребенка внешним критериальным показателем может быть уровень популярности в классе.

27. Проблема адаптации иностранных и иноязычных тестов и методик. (Теоретичні та методологічні питання адаптації іноземних тестів і методик)

Психологическая практика испытывает потребность в научно-обоснованых и одновременно экономичных, стандартизованных психодиагностических тестах. В этой связи всегда была и остаётся актуальной проблема не только разработки отечественных, но и адаптации иностранных, апробированных и валидизированных методов диагностики. Адаптация теста – это комплекс мероприятий, обеспечивающих адекватность методики в новых условиях её применения.

Основные этапы адаптации теста:

1) анализ исходных теоретических положений автора теста, предполагающий выявление точек соприкосновения с теорией и методологией отечественной психологии;

2) лингвистический перевод текста и его инструкцийна язык пользователя.Завершается этот этап экспертной оценкой соответствия текстов переведённого варианта текстам оригинала;

3) экспериментальная проверка переведённого текста по критериям валидности, надёжности и достоверности в соответствии с психометрическими требованиями;

4) эмпирическая стандартизация теста на соответствующих выборках.

Из приведённых этапов видно, что использование иноязычных тестов – это не просто перевод на другой язык. В этом случае осн. трудности связаны не только с языковыми, но и с социокультурными различиями среды, в которой тест создавался и в которой будет применяться. Лингвистический аспект адаптации означает приспособление лексики и грамматики текста к возрастной и образовательной специфике контингентов лиц, планируемых для обследования, а также учёт коннотативного значения (специалисты по логике используют понятие коннотативный как эквивалент понятию подразумеваемый. Таким образом, коннотативное значение – это то, которое предполагается или подразумевается или выражается словом, символом, жестом или событием. Коннотативные значения обычно определяют абстрактные качества, общие свойства или классы объектов, или эмоциональные компоненты). Следует иметь ввиду, что языковым особенностям культуры того общества, в котором создавался тест, трудно, а порой просто невозможно найти равноценный эквивалент в иной культуре.Поэтому профессиональный перевод псих тестов всегда сопровождается ещё и лингвистической коррекцией, аязыковые конструкции подвергаются псих верификации(правильности восприятия, мыслей, предположений. Верификация — это подтверждение соответствия конечного продукта предопределённым эталонным требованиям.) Следовательно, полная эмпирическая адаптация теста после его перевода обязательна, и часто она так же сложна, как разработка оригинальной методики.

В последнее время адаптация зарубежных тестов становится не только объектом обсуждения специалистов, но и направлением специальных исследований, предметом соответствующей методической и рекомендательной, инструктивной литературы.

Известно сколь сложные стадии адаптации проходили многие методики, например Миннесотский многофакторный личностный тест (MMPI) или 16-факторный личностный опросник Р.Кеттела (16-PF). Адаптация этих методик выражалась в проверке соответствия американских и словянских тестовых норм с помощью статистических расчётов средних арифметических и стандартных отклонений по основным диагностическим шкалам на новых выборках испытуемых. Исследовались также корреляции между шкалами этих методик, Однако самый глав этап проверки коректности адаптированых вариантов этих опросников – анализ воспроизводимости диагностических шкал, т. е. анализ корреляций между отдельными пунктами,- был проведен значительно позднее. Это позволило выяснить:

1) насколько правомерным было заимствование системы дифференцированных понятий (личностных черт) по отношению к тем, которые были предложены разработчиками в иных социокультурных условиях;

2) какие собственно диагностические понятия реально “ работают” в наших условиях.

В результате серии исследований выяснилось, что зарубежные многофакторные личностные тест-опросники по отношению к русскоязычным выборкам обнаруживают как устойчивые диагностические свойства, так и специфические особенности.

Таким образом для практической психодиагностики адаптация иностранных тестов означает не только семантическую интерпретацию в новом языковом варианте, но и тщательную экспериментальную и нормативную их апробацию в иных социокультурных условиях с применением современных методов математического анализа.

⇐ Предыдущая 16 17 18 19 202122 23 24 25 Следующая ⇒

Date: 2016-05-23; view: 2495; Нарушение авторских прав

mydocx.ru - 2015-2025 year. (0.008 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию