Полезное:

Категории:

Архитектура Астрономия Биология География Геология Информатика Искусство История Кулинария Культура Маркетинг Математика Медицина Менеджмент Охрана труда Право Производство Психология Религия Социология Спорт Техника Физика Философия Химия Экология Экономика Электроника

Валидность и ее виды

⇐ ПредыдущаяСтр 4 из 26Следующая ⇒

Валидность (обоснованность) инструмента – это его способность измерять именно те характеристики объекта, которые и нужно измерить. Психолог, строя какую-либо шкалу, должен быть уверен, что эта шкала измерит именно те свойства, например, установок индивида, которые он намеревался измерить.

Валидность (англ. valid – действительный, пригодный, имеющий силу) – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

В наиболее простой и общей формулировке валидность теста – это “...понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает” (А. Анастази, 1982).

В стандартных требованиях к педагогическим и психологическим тестам валидность определяется как комплекс сведений о том, относительно каких групп психологических свойств личности могут быть сделаны выводы, а также о степени их обоснованности на основании конкретных тестовых оценок или других форм оценивания.

В психологической диагностике валидность – обязательная и наиболее важная часть информации о методике, включающая (наряду с указанными выше) данные о степени согласованности результатов теста с другими сведениями об исследуемой личности, полученными из различных источников (теоретические ожидания, наблюдение, экспертные оценки, результаты других методик, достоверность которых установлена и т.д.), суждение об обоснованности прогноза развития исследуемого качества, связь изучаемой области поведения или особенности личности с определенными психологическими конструктами.[1]

Валидность описывает также конкретную направленность методики (для чего предназначена), область применения теста – характеристика методики, указывающая на особенности контингента испытуемых, для которых предназначен тест: возраст, уровень образования, социально-культурная принадлежность и т.д., а также степень обоснованности выводов в конкретных условиях использования теста.

В совокупности сведений, характеризующих валидность теста, содержится информация об адекватности применяемой модели деятельности с точки зрения отражения в ней изучаемой психологической особенности, о степени однородности заданий (субтестов), включенных в тест, их сопоставимости при количественной оценке результатов теста в целом.

Валидность методики измеряется:

- либо коэффициентом корреляции между результатами обследования и объективными критериями внешнего проявления того или иного качества (оценками по критерию валидизации);

- либо характеризуется различными показателями в полярных группах по какому-то измеряемому свойству.

Как видно из вышеизложенного, в понятие валидности входит большое количество самой разнообразной информации о тесте. Различные категории этих сведений и способы их получения образуют типы валидности (см. схему 1).

Схема 1.Основные виды валидности

Конструктная валидность – характеристика теста, отражающая степень репрезентации исследуемого психологического свойства (конструкта) в результатах теста: чем больше результаты теста соответствуют теоретической гипотезе о природе измеряемой переменной, тем выше конструктная валидность теста.

Понятие конструктной валидности впервые было введено Ли Кронбахом (Cronbach) и Ришаром Мейли (Meehl) в 1955 году. Данный тип валидности характеризует степень теоретической обоснованности методики.

Чтобы продемонстрировать конструктную валидность, необходимо настолько полно, насколько возможно, описать переменную (конструкт) для измерения которой предназначен тест. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость внимания и т.д. Иначе говоря, конструктная валидность определяет область теоретической структуры психологических явлений, измеряемых тестом.

Конкретным методом характеристики конструктной валидности является сопоставление исследуемого теста с другими методиками, конструктное содержание которых известно (показатель – коэффициент корреляции). При анализе конструктной валидности методики обычно формулируется ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. При этом конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями, но и с теми, где, предположительно, значимых связей наблюдаться не должно. Эти подходы определяются как конвергентная (проверка степени близости прямой или обратной связи) и дискриминантная (установление отсутствия связи) валидизации.

Статистический анализ структуры связей показателей исследуемого теста с другими известными и латентными факторами позволяет осуществить факторный анализ. Он также позволяет выявить факторный состав и факторные нагрузки теста, представленные в его результатах. Исключительная важность такой процедуры является основанием для выделения ее в особый вид конструктной валидности – факторную валидность.

Важным аспектом конструктной валидности является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем коррелирования ответа на каждое задание с общим результатом теста.[2]

Для обеспечения конструктной и содержательной валидности прежде всего должны быть правильно отобраны все пункты-задания теста из области заданий.

Область заданий – множество заданий, материал, подбираемый исследователем и являющийся исходным для формирования теста. В этом плане, чем точнее и полнее выражают эти пункты реальное качество (свойство, конструкт), тем больше вероятность приближения результатов теста к истинному показателю.

Истинный показатель может быть определен как показатель, который бы получил конкретный испытуемый, если бы ему были предъявлены все возможные задания из генеральной совокупности заданий, релевантных реальному оцениваемому свойству. При этом, чем выше коэффициент корреляции определенного задания из теста с другими заданиями (в своей совокупности представляющих истинный показатель), тем выше вероятность и обоснованность включения именно этого задания в тест и тем меньше вероятная величина погрешности измерения.

Генеральная совокупность –множество элементов, объединенных общей характеристикой, указывающей на их принадлежность к определенной системе. Например: всех возможных заданий для выявления измеряемой черты или свойства или всего контингента испытуемых, относящегося к определенной социальной, половозрастной, национальной и т.п. категории.

Генеральная совокупность заданий как бы исчерпывает все возможные аспекты того свойства, которое подлежит оценке. Генеральная совокупность может быть качественной или количественной в зависимости от того, являются ли свойства единиц отбора признаками или переменными. Соответственно статистическое описание континуума генеральной совокупности принимает форму либо средних арифметических, либо частот распределения и процентов.

Генеральная совокупность может быть конечной или бесконечной в зависимости от того, ограничено число элементов выборки или нет. Понятие бесконечной применяется в тех случаях, когда нет надобности ограничивать ее размер. При определении генеральной совокупности обычно оговариваются ее пространственные и временные границы.

Совокупность элементов (тестовых задач, испытуемых), являющихся частью генеральной совокупности называется выборочной совокупностью. Выборочная совокупность заданий теста должна по возможности в наибольшей степени представлять генеральную совокупность заданий, связанных с тестируемым качеством. Главная особенность выборочной совокупности (и одновременно требование к ней) является то, что она репрезентативна по отношению к генеральной совокупности, хотя объем ее меньше.

Процедуры определения конструктной валидности:

- точное перечисление гипотез, касающихся переменных, с которыми данный тест должен коррелировать (конкурентная валидность);

- точное перечисление гипотез, касающихся переменных, с которыми данный тест не должен коррелировать;

- указание на группы, которые должны давать низкие и высокие показатели по данному тесту;

- формулировка гипотез о месте данного теста в факторном пространстве.

Критериальная валидность – комплекс характеристик, включающий валидность текущую и прогностическую и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления.

Диагностическая валидность (конкурентная, текущая) – характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике.

Оценивается по корреляции результатов данного теста с результатами других тестов, предназначенных для измерения той же самой переменной. Если для измерения определенного свойства уже имеются эффективные тесты, то связь с ними должна быть высока, и, наоборот, с тестами, измеряющими совершенно другие свойства оцениваемый тест не должен иметь никакой корреляции.

Распространенным способом характеристики диагностической эффективности методики является сравнение контрастных групп.

Контрастные группы – эмпирические выборки испытуемых, различающиеся по определенному набору критериев.

Метод подбора контрастных групп является также распространенным средством конструирования эмпирических опросников. Как правило, в контрастные группы подбираются лица с максимальным и минимальным проявлением критериальных признаков. Валидизация методики будет базироваться на оценке степени устойчивости и величины различий между средними показателями двух групп (контрастных по измеряемому признаку по отношению к внешнему критерию – например, успеваемости).

Аналитико-синтетическая процедура установления уровня значимости различий или сходств между выборками по изучаемым показателям (переменным) называется достоверностью различия. Анализ достоверности различий имеет практическое значение при оценке статистической значимости разности выборочных средних величин в сопоставляемых распределениях.

Как правило, непосредственному измерению разности средних величин предшествует некоторое предположение исследователя о характере распределения признака, либо о характере взаимосвязи двух (или более) рядов распределений в различных выборках. Причем всегда есть вероятность ошибки, обусловленная действием не учитываемых переменных. Уровень значимости – понятие, отражающее степень вероятности ошибочного вывода относительно статистической гипотезы о распределении признака или взаимосвязи распределений в различных выборках, проверяемой на основе выборочных данных. Показатель уровня значимости обозначается и выражается в процентах и долях вероятности ошибок. В психологических исследованиях за достаточный уровень значимости обычно принимается = 0,05, а для достаточно больших выборок = 0,1 (доля вероятности ошибок на выборке, в отличие от результатов генеральной совокупности, составляет 95%).

При оценке статистической значимости разности выборочных средних арифметических двух распределений первичных величин применяется t-критерий Стьюдента, эмпирическое значение которого вычисляется по формуле:

где М₁, М₂– средние в сравниваемых выборках; m₁, m₂– ошибки средних величин, вычисленные по формуле

где n – объем выборки, s – среднеквадратичное отклонение.

Разность средних считается статистически значимой, если t > t кр для доверительной вероятности = 0,05 (критическое значение критерия Стьюдента (t кр) для каждой выборки определяется по таблицам с учетом ее объема и числа степеней свободы (n’)).

Для эффективного изучения конкурентной валидности существует несколько правил:

– убедиться, что выборка испытуемых отражает ту категорию лиц (популяцию), для которой данный тест предназначен;

– убедиться, что выборки достаточно велики для получения статистически значимых корреляций, могущих быть затем использованными в факторном анализе (минимальное количество испытуемых – 200 человек);

– использовать настолько широкое разнообразие других тестов данной переменной, насколько это возможно – чтобы убедиться, что корреляция получена благодаря близости групповых факторов, а не специфических;

– если используется факторный анализ, убедиться, что получена простая структура;

– при обсуждении результатов четко объяснять, какие корреляции и нагрузки факторов можно ожидать (что позволяет судить о психологическом значении результатов).

Прогностическая валидность – информация о тесте, характеризующая степень точности и обоснованности суждения о диагностируемом психологическом качестве по его результату спустя определенное время после измерения. Чем выше тест может прогнозировать критерий, тем выше его прогностическая валидность. Прогностическая валидность (иногда употребляется термин “предсказательная валидность”) отражает временной интервал, на который распространяется обоснование суждения об изменении диагностируемого свойства.

Заключение об этом типе валидности может быть получено, например, путем сравнения корреляции тестовых оценок в одной и той же группе испытуемых спустя определенное время с некоторым критерием, характеризующим измеряемое свойство (например, корреляция показателей интеллекта одних и тех же испытуемых в 11 и 16 лет с их успеваемостью). Основной проблемой здесь является выделение критерия предсказания (по отношению к которому произодится оценка корреляции тестовых оценок).

На прогностическую валидность методики наряду со свойствами самого теста могут оказывать влияние т.н. модераторы – характеристики контингента испытуемых, значимые для прогностической эффективности методики (например, мотивация к данному виду деятельности, когда изучаются способности человека к этой деятельности).

Валидность диагностическую и прогностическую нередко объединяют в понятие эмпирической валидности. Здесь подчеркивается общность подхода к их определению, который осуществляется путем статистического коррелирования баллов (оценок) по тесту и показателей по внешнему параметру, избранному в качестве валидизации критерия.

Компонентами прогностической валидности являются валидность инкрементная (практическая ценность методики при проведении отбора) и дифференциальная (способность методики дифференцировать испытуемых по отдельным областям проявления исследуемых свойств).

Показатель инкрементной валидности указывает на роль теста в улучшении отбора лиц для реальной деятельности, степень улучшения результативности процедуры отбора по сравнению с традиционной, основанной на анализе объективных сведений, документов, бесед, приеме с испытательным сроком и т.д.

Дифференциальную валидность можно было бы показать (если взять пример об академической успеваемости) сравнением ее корреляции с различными академическими дисциплинами: значения корреляции должны значительно различаться. Таким образом, в общем, для демонстрации дифференциальной валидности предполагается различие корреляций с различными аспектами данного критерия.

Содержательная валидность – один из основных типов валидности, характеризующий степень репрезентативности содержания заданий теста по отношению к измеряемой области.

Изучаемая деятельность носит, как правило, синтетический характер, складывается из многих факторов. В целях создания адекватной модели тестируемой деятельности требуется подбор в тест таких заданий, которые бы охватывали главные (основные) аспекты изучаемого феномена в правильной пропорции к изучаемой деятельности. Если можно показать, что задания теста отражают все аспекты исследуемой области поведения, то тест является, по существу, валидным. Например, исследуя “речевую способность”, необходимо вводить в тест задания не только на чтение, но и задания, выявляющие навыки письма.

Основными этапами валидизации являются следующие:

– определение круга исследуемых свойств и видов деятельности;

– расчленение сложной способности или деятельности на элементы;

– разработка собственно модели тестовой деятельности на основе наиболее важных элементов реальной деятельности;

– анализ степени соответствия разработанной модели реальной деятельности, включая проверку представленности элементов в заданиях теста и в реальной деятельности.

Практическими процедурами для определения содержательной валидности являются следующие:

а) Для тестов достижений:

– указать точно категорию лиц, для которых предназначен тест;

– определить навыки, подлежащие тестированию;

– передать этот список экспертам в данной области (учителям и т.п.) для проверки, нет ли упущений, определения рангов значимости каждого из навыков;

– преобразовать этот список в перечень заданий, используя, когда это возможно, равное количество заданий на каждый навык;

– представить эти задания экспертам для проверки и оценки степени их близости к реальным требованиям;

б) Для других тестов:

– если существует литература с описаниями, просмотреть ее и преобразовать описания в особенности поведения;

– для каждой упомянутой особенности поведения сформулировать ряд заданий;

– когда литература с описаниями отсутствует, получите описания поведения от грамотных специалистов: например, для изучения зависимости инфантильных пациентов опросите их лечащих врачей и медицинских сестер с целью получить описание зависимого поведения их пациентов;

– преобразовать полученные описания в задания (вопросы, утверждения) для испытуемых;

– подвергните задания теста обычным процедурам конструирования (см. раздел – “Основные требования по созданию надежных тестов”).

Существенным различием между содержательной и критериальной валидностью является то, что экспертные оценки при анализе содержания являются критерием самого теста, в то время как при критериальной валидизации они относятся к испытуемым из выборки стандартизации.

Очевидная валидность (лицевая, внешняя) – представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики.

Говорят, что тест является валидным, если о нем складывается впечатление, что он измеряет именно то, что подразумевается, особенно с точки зрения испытуемых. Этот вид валидности не имеет к истинной валидности никакого отношения и важен постольку, поскольку помогает иногда установить сотрудничество с испытуемыми, считающими своим правом отказаться от обследования, если предлагаемая им методика не обладает внешними признаками валидности.

Валидность методов и методик имеет не абсолютный, а относительный характер, состоящий в ее отнесенности к тем условиям, в которых оценивалась валидность тестов.

При проверке валидности тестов следует исходить из того, что совершенно необходимо устанавливать ее, по крайней мере, на двух группах, так как корреляция теста и внешнего критерия может быть обусловлена специфичными для данной выборки факторами (выборочными изменениями) и не иметь общего значения. Проведение нескольких исследований с последующим анализом и обобщением данных является не только предпочтительным, но и необходимым.

⇐ Предыдущая 1 2 345 6 7 8 9 10 Следующая ⇒

Date: 2015-10-18; view: 5850; Нарушение авторских прав

mydocx.ru - 2015-2025 year. (0.026 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию