Главная >  Публикации 

 

3.2. Надежность теста



Наличие значимой положительной асимметрии (см. рис. 2,а) свидетельствует о том, что в системе факторов, детерминирующих значение измеряемого показателя, преобладают факторы, действующие в одном направлении - в сторону повышения показателя. Такого рода отклонения появляются при использовании хронометрических показателей: испытуемый не может решить задачу быстрее определенного минимально необходимого периода, но может существенно долго задерживаться с ее решением. На практике распределения такого рода преобразуют в приближенно нормальное распределение с помощью логарифмической трансформации:

(3.1.11) При этом говорят, что распределение хронометрических показателей подчиняется «логнормальному» закону.

Подобную алгебраическую нормализацию тестовой шкалы применяют и к показателям с еще более резко выраженной положительной асимметрией. Например, в процедурах контент-анализа сам тестовый показатель является частотным: он измеряет частоту появления определенных категорий событий в текстах. Для редких категорий вероятность появления значительно меньше 0,5. Формула преобразования (3.1.12) позволяет придать необходимую 5-образную форму кумуляте.

Стандартизация шкалы. В психометрике следует различать две формы стандартизации. Под стандартизацией теста понимают прежде всего стандартизацию самой процедуры проведения инструкций, бланков, способа регистрации, условий и т. п. Без стандартизации теста невозможно получить нормативное распределение тестовых баллов и, следовательно, тестовых норм.

Под стандартизацией шкалы понимают линейное преобразование масштаба нормальной (или искусственно нормализованной) шкалы. В общем случае формула стандартизации выглядит так:

, (3.1.13).

где xi - исходный балл по «сырой» шкале, для которой доказана нормальность распределения; - среднее арифметическое по «сырому» распределению; S - «сырое» стандартное отклонение; М- математическое ожидание по выбранной стандартной шкале; ? - стандартное отклонение по стандартной шкале.

Если шкала подвергалась предварительной искусственной нормализации интервалов, то формула упрощается:

zj =? zj =M (3.1.14) Приведем параметры для наиболее популярных стандартных шкал:

1) T -шкала Маккола (тест-опросник MMPI и другие тесты):

М = 50 и ? = 10, 2) шкала IQ : М = 100 и ? = 15, 3) шкала «стэнайнов» (целые численные значения от 1 до 9 -стандартная девятка): М = 5,0 и ? = 2, 4) шкала «стенов» (стандартная десятка, 16PF Кеттелла):

М = 5,5 .и ? = 2.

Чтобы различать стандартные баллы, полученные с помощью линейной стандартизации и нелинейной нормализации интервалов, Р. Кеттелл ввел понятие «S-стенов» и «n-стенов». Таблицы «и-стенов», естественно, точнее отражают квантили эмпирического нормального распределения. Приведем образец такой таблицы для фактора А из тест-опросника 16PF; Сырые баллы 0-4 5-6 7 8-9 10-12 13 14-15 16 17-18 19-20 Стены 1 2 3 4 5 6 7 8 9 10 Применение стандартных шкал позволяет использовать более грубые, приближенные способы проверки типа распределения тестовых баллов. Если, например, процентильная нормализация с переводом в стены и линейная нормализация с переводом в стены по формуле (3.1.13) дают совпадающие целые значения стенов для каждого Y, то это означает, что распределение обладает нормальностью с точностью до «стандартной десятки».

Применение стандартных шкал необходимо для соотнесения результатов по разным тестам, для построения «диагностических профилей» по батарее тестов и тому подобных целей.

Проверка устойчивости распределения. Общая логика проверки устойчивости распределения основывается на индуктивном рассуждении: если половинное (полученное по половине выборки) распределение хорошо моделирует конфигурацию целого распределения, то можно предположить, что это целое распределение будет также хорошо моделировать распределение генеральной совокупности.

Таким образом, доказательство устойчивости распределения означает доказательство репрезентативности тестовых норм. Традиционный способ доказательства устойчивости сводится к наличию хорошего приближения эмпирического распределения к какому-либо теоретическому. Но если эмпирическое распределение не приближается к теоретическому, несмотря на значительное увеличение объема выборки, то приходится прибегать к более общему индуктивному методу доказательства.

Простейший его вариант может быть сведен к получению таблиц перевода сырых баллов в нормализованную шкалу по данным всей выборки и применению этих таблиц для каждого испытуемого из половины выборки; если распределение нормализованных баллов из половины выборки хорошо приближается к нормальному, то это значит, что заданные Таблица (находится в справочных материалах нашего сайта)ми нормализации тестовые нормы определены устойчиво. Близость к нормальному распределению проверяется с помощью критерия Колмогорова (при n <200 целесообразно использовать более мощные критерии: «хи-вадрат» или «омега-квадрат»).

При этом под «половиной выборки» подразумевается случайная половина, в которую испытуемые зачисляются случайным образом -с помощью двоичной случайной последовательности (типа подбрасывания монетки и т. п.). В более общем случае такой простейший метод установления однородности двух эмпирических распределений может быть применен и при разбиении выборки по какому-либо систематическому признаку. Если, в частности, по какому-либо из популяционно значимых признаков (пол, возраст, образование, профессия) психолог получает значимую неоднородность эмпирических распределений; то это значит, что относительно данных популяционных категорий тестовые нормы должны быть специализированы (одна Таблица (находится в справочных материалах нашего сайта) норм - для мужчин, другая - для женщин и т. д.).

Более статистически корректный метод проверки однородности двух распределений, полученных при расщеплении выборки на равные части, опять же связан с применением критерия Колмогорова. Для этого с табличным значением сравнивается:

(3.1.15) где Ке - эмпирическое значение статистики Колмогорова; Fj1 - кумулятивная относительная частота для у-того интервала шкалы по первой половине выборки; Fj2 - та же частота для второй половины; n - полный объем выборки.

Точные значения квантилей распределения Колмогорова для определения размеров выборки можно найти в кн.: Мюллер П. и др., 1982.

Применение критерия Колмогорова не зависит от нормальности целого распределения и от необходимости производить нормализацию интервалов.

* * * Итак, априорная предпосылка нормальности распределения тестовых баллов основывается скорее на принципах операционального удобства, чем на теоретической необходимости. Психометрически корректные процедуры получения устойчивых тестовых норм возможны с помощью специальных методов непараметрической статистики (критерий «хи-квадрат» и т. п.) для распределений произвольной формы. Выбор статистической модели распределения - законный произвол психометриста, пока сам тест выступает в качестве единственного эталона измеряемого свойства. В этом случае остается лишь тщательно следить за соответствием сферы применения диагностических норм той выборке испытуемых, на которой они были получены. Произвольность в выборе статистической модели шкалы исчезает, когда речь заходит о внешних по отношению к тесту критериях.

Репрезентативность критериальных тестов. В таких тестах в качестве реального эталона применяется критерий, ради которого создается тест, - целевой критерий. Особое значение такой подход имеет в тех областях практики, где высокие результаты могут дать узкоспециализированные диагностические методики, нацеленные на очень конкретные и узкие критерии. Такая ситуация имеет место в обучении: тестирование, направленное на получение информации об уровне усвоения определенных знаний, умений и навыков (При профессиональном обучений), должно точно отражать уровень освоения этих навыков и тем самым давать надежный прогноз эффективности конкретной профессиональной деятельности, требующей применения этих навыков. Так возникают «тесты достижений», по отношению к которым критериальный подход обнаружил свою высокую эффективность (Гуревич К. М, Лубовский В. И,, 1982).

Рассмотрим операциональную схему шкалирования, применяемую при создании критериального теста. Пусть имеется некоторый критерий С, ради прогнозирования которого психодиагност создает тест X. Для простоты представим С как дихотомическую переменную с двумя значениями: 1 и 0. С, = 1 означает, что j-й субъект достиг критерия (попал в «высокую» группу по критерию), Сj=0 означает, что i-й субъект не достиг критерия (попал в «низкую» группу). Психодиагност применяет на нормативной выборке тест X, и в результате каждый индивид получает тестовый балл Xi. После того как для каждого индивида из выборки становится известным значение С (иногда на это требуются месяцы и годы после момента тестирования), психодиагност группирует индивидов по порядку возрастания балла Xi и для каждого деления исходной шкалы сырых тестовых баллов подсчитывает эмпирическую вероятность Р попадания в «высокую» группу по критерию С. На рис. 5 показаны распределения вероятности Р (Ci = 1) в зависимости от Xi Рис. 5 Эмпирическая зависимость между вероятностью критериального события и тестовым баллом Очевидно, что кривая на рис. 5 по своей конфигурации может совершенно не совпадать с кумулятивной кривой распределения частот появления различных Xi. Кривая, представленная на рис. 5, является эмпирической линией регрессии С по Xi Теперь можно сформулировать основное требование к критериальному тесту: линия регрессии должна быть монотонной функцией С от Xi Иными словами, ни для одного более высокого значения X. вероятность Р не должна быть меньшей, чем для какого-либо менее высокого значения Xi Если это условие выполняется, то открывается возможность для критериального шкалирования сырых баллов X. Так же как в случае с интервальной нормализацией», когда применяется поточечный перевод интервалов Х в интервалы Z, для которых выполняется нормальная модель распределения, так и при критериальном шкалировании к делениям сырой шкалы X применяется поточечный перевод прямо в шкалу Р на основании эмпирической линии регрессии. Например, если испытуемый А получил по тесту X 18 сырых баллов и этому результату соответствует Р=0,6, то испытуемому А ставится в соответствие показатель 60 %.

Конечно, любая эмпирическая кривая является лишь приближенной моделью той зависимости, которая могла бы быть воспроизведена на генеральной совокупности. Обычно предполагается, что на генеральной совокупности линия регрессии С по Х должна иметь более сглаженную форму. Поэтому обычно предпринимаются попытки аппроксимировать эмпирическую линию регрессии какой-либо функциональной зависимостью, что позволяет затем производить прогноз с применением формулы (а не таблицы или графика).

Например, если линия регрессии имеет вид приблизительно такой, какой изображен на рис. 6, то применение процентильной нормализации позволяет получить простую линейную регрессию С по нормализованной шкале Z. Это как раз тот случай, когда имеет место эквивалентность стратегии, использующей выборочно-статистические тестовые нормы, и стратегии, использующей критериальные нормы.

Рис. 6. Зависимость вероятности критериального события Р от нормально распределенного диагностического параметра X Операции по анализу распределения тестовых баллов, построению тестовых норм и проверке их репрезентативности. Завершая этот раздел, кратко перечислим действия, которые последовательно должен произвести психолог при построении тестовых норм.

1. Сформировать выборку стандартизации (случайную или стратифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест. Провести на каждом испытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внешними событиями, происшедшими за время обследования).

2. Произвести группировку сырых баллов с учетом выбранного интервала квантования (интервала равнозначности). Интервал определяется величиной W/m , где W=x max — х max; m - количество интервалов равнозначности (градаций шкалы).

3. Построить распределение частот тестовых баллов (для заданных интервалов равнозначности) в виде таблицы и в виде соответствующих графиков гистограммы и кумуляты.

4. Произвести расчет среднего арифметического значения и стандартного отклонения, а также асимметрии и эксцесса с помощью компьютера. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения.

5. Произвести проверку нормальности одного из распределений с помощью критерия Колмогорова (при n < 200 с помощью более мощных критериев) или произвести процентильную нормализацию с переводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений стандартных баллов).

6. Если совпадения не будет - нормальность отвергается; в этом случае произвести проверку устойчивости распределения расщеплением выборки на две случайные половины. При совпадении нормализованных баллов для половины и для целой выборки можно считать нормализованную шкалу устойчивой.

7. Проверить однородность распределения по отношению к варьированию заданного популяционного признака (пол, профессия и т. п.) с помощью критерия Колмогорова. Построить в совмещенных координатах графики гистограммы и кумуляты для полной и частной выборок. При значимых различиях разбить выборку на разнородные подвыборки.

8. Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала равнозначности сырого балла). При наличии разнородных подвыборок для каждой из них должна быть своя Таблица (находится в справочных материалах нашего сайта).

9. Определить критические точки (верхнюю и нижнюю) для доверительных интервалов (на уровне Р < 0,01) с учетом стандартной ошибки в определении среднего значения.

10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма выполнения того или иного теста.

11. В случае негативного результата: отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точностью прогноза критериальной деятельности) - осуществить обследование более широкой выборки или отказаться от использования, данного теста.

3.2. Надежность теста

В дифференциальной психометрике проблемы валидности и надежности тесно взаимосвязаны, тем не менее мы последуем традиции раздельного изложения методов проверки этих важнейших психометрических свойств теста.

Надежность и точность. Как уже отмечалось в разделе 3.1, общий разброс (дисперсию) результатов произведенных измерений можно представить как результат действия двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это представление выражено в формуле, описывающей надежность теста и виде отношения истинной дисперсии к дисперсии эмпирически зарегистрированных баллов:

(3.2.1) Так как истинная дисперсия и дисперсия ошибки связаны очевидным соотношением, формула (3.2.1) легко преобразуется в формулу Рюлона:

(3.2.2) где а - надежность теста; . -дисперсия ошибки.

Величина ошибки измерения - обратный индикатор точности измерения. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла данного испытуемого. Таким образом, для проверки гипотезы о значимости отличия балла испытуемого от среднего значения оказывается недостаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разброс в положении индивидуального балла (рис. 7).

Рис. 7. Соотношение распределений Sm – стандартное отклонение эмпирического среднего, St – стандартное отклонение ошибки Как же определить ошибку измерения? На помощь приходят корреляционные методы, позволяющие определить точность (надежность) через устойчивость и согласованность результатов, получаемых как на уровне целого теста, так и на уровне отдельных его пунктов.

Надежность целого теста имеет две разновидности.

1. Надежность-устойчивость (ретестовая надежность). Измеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Для интервальных шкал подсчитывается хорошо известный коэффициент корреляции произведения моментов Пирсона:

где х1i. - тестовый балл i-го испытуемого при первом измерении; х2i. - тестовый балл того же испытуемого при повторном измерении; n - количество испытуемых.

Оценка значимости этого коэффициента основывается на несколько иной логике, чем это обычно делается при проверке нулевой гипотезы - о равенстве корреляций нулю. Высокая надежность достигается тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле (3.2.4) Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко удается достичь коэффициентов, превышающих 0,8. При г = 0,75 относительная доля стандартной ошибки равна . Этой ошибкой, очевидно, нельзя пренебречь. При такой ошибке эмпирически полученное отклонение индивидуального тестового балла от среднего по выборке оказывается, как правило, завышенным. Для того чтобы выяснить «истинное» значение тестового балла индивида, применяется формула (3.2.5) где - истинный балл; ' хi — эмпирический балл i-го испытуемого; r - эмпирически измеренная надежность теста; - среднее для теста.

Предположим, испытуемый получил балл IQ по шкале Стэнфорда.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тогда истинный балл = 0,9 120 + 0,1 100 =118.

Конечно, требование ретестовой надежности является корректным лишь по отношению к таким психическим характеристикам индивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний (бодрости, тревоги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Для шкал порядка в качестве меры устойчивости к перетестированию используется коэффициент ранговой корреляции Спирмена:

, (3.2.6) где di — разность рангов /-го испытуемого в первом и втором ранговом ряду.

С помощью компьютера определяется более надежный коэффициент ранговой корреляции Кендалла (1975).

2. Надежность- согласованность (одномоментная надежность).

Эта разновидность надежности не зависит от устойчивости, имеет особую содержательную и операциональную природу. Простейшим способ ее измерения состоите коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллельные формы теста получают расщеплением составного теста на «четную» и «нечетную» половины: к первой относятся четные пункты, ко второй - нечетные. По каждой половине рассчитываются суммарные баллы и между двумя рядами баллов по испытуемым определяются допустимые (с учетом уровня измерения) коэффициенты корреляции. Если параллельные тесты не нормализованы, то предпочтительнее использовать ранговую корреляцию. При таком расщеплении получается коэффициент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна:

(3.2.7) где rx - эмпирически рассчитанная корреляция для половин.

Делить тест на две половины можно разными способами, и каждый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки синхронной надежности, который соответствует разбиению теста на такое количество частей, сколько в нем отдельных пунктов. Такова формула Кронбаха:

(3.2.8) где а - коэффициент Кронбаха; k- количество пунктов теста; - дисперсия по j-му пункту теста; - дисперсия суммарных баллов по всему тесту.

Обратите внимание на структурное подобие формулы Кронбаха (3.2.2) и формулы Рюлона (3.2.8).

Далее:

 

Череп новорожденного.

Волосы.

Безграмотный грамотей.

Голос и речь.

Послесловие как не потерпеть неудачу.

Раздел 5 Ревматические болезни.

Некоторые замечания о ситуациях, возникающих в процессе тренинга.

 

Главная >  Публикации 


0.0018