Параметрические и непараметрические методы проверки статистических гипотез.

В современных исследованиях по проблемам педагогики широко используются методы математической обработки данных. К методам обработки количественных данных относятся статистические приемы подведения итогов исследования, выявления определенных связей между ними, проверки достоверности выдвинутой гипотезы.

Математическая обработка результатов исследования обеспечивает их доказательность, репрезентативность. В сочетании с качественными показателями количественная обработка данных значительно повышает объективность исследования. Статистическая обработка результатов, регистрирующая изучение отдельных явлений позволяет сделать обобщения и выводы относительно всей совокупности изучаемых явлений. Важной особенностью использования статистических методов в педагогических исследованиях состоит в том, что это позволяет применять количественное изучение даже там, где невозможно определить сами свойства изучаемых объектов. Например, невозможно прямо измерить уровень развития нравственных качеств обучаемых, степень эффективности конкретного метода обучения и пр. Но, регистрируя соответствующие события, поступки, проявления, можно получить определенные качественные характеристики всех этих признаков, определить возможные закономерности их проявления, подтвердить правильность высказанных гипотез.

В статистике проверка гипотез осуществляется с помощью критериев статической оценки различий. Статистический критерий – это решающее правило, обеспечивающее надежное поведение, т.е. принятие истинной и отклонение ложной гипотезы с высокой вероятностью (Г.В.Суходольский). Статистические критерии обозначают также метод расчета определенного числа и само это число.

Статистические критерии, применяемые в педагогике, делятся на параметрические и непараметрические. К параметрическим относятся критерии, включающие в формулу расчета параметры распределения, т.е. среднее и дисперсии (критерии Стьюдента, Фишера, Хи-квадрат). К непараметрическим относят критерии, основанные на оперировании частотами или рангами и не включающие в формулу расчета параметров распределения (критерии знаков, Колмогорова-Смирнова, Уилкоксона, Манна-Уитни). Обе группы критериев имеют свои преимущества и недостатки. Сравнительная характеристика возможностей и ограничений параметрических и непараметрических критериев дана в следующей таблице.



Параметрические критерии Непараметрические критерии
Позволяют прямо оценить различия в средних, полученных в двух выборках (критерий Стьюдента) Позволяют оценить лишь средние тенденции (напр., ответить на вопрос, чаще ли в выборке А встречаются более высокие, а в выборке Б – более низкие значения признака (критерии Q,U и др.)
Позволяют прямо оценить различия в дисперсиях (критерий Фишера) Позволяют оценить лишь различия в диапазонах вариативности признака
Позволяют выявить тенденции изменения признака при переходе от условия к условию (дисперсионный однофакторный анализ), но лишь при условии нормального распределения признака Позволяют выявить тенденции изменения признака при переходе от условия к условию при любом распределении признака (критерии тенденций L и S)
Позволяют оценить взаимодействие двух и более факторов в их влиянии на изменения признака (двухфакторный дисперсионный анализ) Эта возможность отсутствует
Экспериментальные данные должны отвечать двум, а иногда трем условиям: а) значения признака измерены по интервальной шкале; б)распределение признака является нормальным; в)в дисперсионном анализе должно соблюдаться требование равенства дисперсий в ячейках комплекса Экспериментальные данные могут не отвечать ни одному из условий: а) значения признака могут быть представлены в любой шкале, начиная от шкалы наименований; б)распределение признака может быть любым и совпадение его с каким-либо теоретическим законом распределения необязательно и не нуждается в проверке; в)требование равенства дисперсий отсутствует
При выполнении указанных условий параметрические критерии являются более мощными по сравнению с непараметрическими критериями При несоблюдении указанных условий непараметрические критерии более надежны, т.к. они менее чувствительны к «засорениям»
Математические расчеты довольно сложны Математические расчеты большей частью просты и занимают мало времени

Параметрические методы

Критерий Стьюдента

Для сравнения выборочных средних величин, принадлежащих к двум совокупностям данных, и для решения вопроса о том, отличаются ли средние значения статистически достоверно друг от друга в психолого-педагогических экспериментах часто используют t -критерий Стьюдента, расчетное значение которого определяется по формуле:

,

где ‑ среднее выборочное значение переменной по одной выборке данных; ‑среднее выборочное значение по другой выборке данных; m 1 и m 2 ‑ интегрированные показатели отклонений частных значений из двух выборок от соответствующих их средних величин.

Если t расч больше или равно табличному, то делают вывод о том, что сравниваемые средние значения из двух выборок действительно статистически достоверно различаются с вероятностью допустимой ошибки.

Такая методика применяется тогда, когда необходимо установить, удался или не удался эксперимент, оказал или не оказал он влияние на уровень того качества, для изменения которого он предназначался.

Если t расчетное меньше t табличного, то в этом случае нет убедительных оснований для того, что эксперимент удался, даже если сами средние величины в начале и в конце эксперимента по своим абсолютным значениям различны.

Критерий φ*- угловое преобразование Фишера

Данный метод описан во многих руководствах (Плохинский Н.А., 1970; Гублер Е.В., 1978; Ивантер Э.В., Коросов А.В., 1992 и др.) Настоящее описание опирается на тот вариант метода, который был разработан и изложен Е.В. Гублером.

Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта. Критерий оценивает достоверность различий между процентными долями двух выборок, в которых зарегистрирован интересующий исследователя эффект.

Суть углового преобразования Фишера состоит в переводе процентных долей в величины центрального угла, который измеряется в радианах. Большей процентной доле будет соответствовать больший угол φ, а меньшей доле - меньший угол, но соотношения здесь не линейные:

φ = 2·arcsin(),

где - процентная доля, выраженная в долях единицы.

При увеличении расхождения между углами φ 1 и φ 2 и увеличения численности выборок значение критерия возрастает. Чем больше величина φ*, тем более вероятно, что различия достоверны.

Все параметрические методы статистики работают с интервальной шкалой, в отличие от непараметрических методов, ориентированных прежде всего на первые две шкалы. Поясним отличия этих методов.

При рассмотрении большинства статистических методов предполагается, что наблюдения, о которых идет речь, выражены в интервальной шкале и являются реализациями случайной величины, распределение которой принадлежит некоторому параметрическому семейству распределений. Например, случайная величина имеет нормальное, или пуассоновское, или другое распределение. То есть, мы предполагаем, что известна форма распределения, например, мы можем предполагать нормальную N (μ, δ ) модель, но с неизвестными параметрами μ и δ . Методы оценивания и проверки гипотез позволяют делать выводы о неизвестных параметрах, при этом ценность любых заключений до некоторой степени должна зависеть от адекватности исходного предположения о параметрическом семействе, то есть о форме распределения. Однако существуют случайные величины, которые не подчиняются одной из распространенных форм распределения. Следовательно, к ним нельзя применить те математические методы, которые разработаны для параметрических распределений. Поэтому для таких признаков разработаны специальные математические модели, которые получили название непараметрических или свободных от распределения.

Таким образом, можно выделить две группы методов статистики: параметрические и непараметрические.

Преимущество параметрических методов состоит в том, что для них существует хорошо разработанный математический аппарат. Однако применение этих методов, кроме прочего, предполагает большой объем выборки. Параметрические методы используют для количественных признаков.

Для анализа номинальных и ранговых переменных используются только непараметрические методы, которые не требуют предварительных предположений относительно вида исходного распределения. В этом их достоинство. Но есть и недостаток – снижение т.н. мощности (чувствительности к различиям объектов). Поясним это.

Напомним, что прежде чем приступить к анализу результатов эксперимента, исследователь выдвигает две взаимоисключающие гипотезы. Одна из них - статистическая гипотеза, которую исследователь обычно предполагает отклонить (т.н. нулевая гипотеза Н 0 : например, изучаемые сорта не отличаются по урожайности). Альтернативная гипотеза (Н 1 ) фактически отрицает нулевую гипотезу. В альтернативной гипотезе обычно содержатся выдвигаемые исследователем предположения (есть отличия).

Выделяют два типа статистических ошибок анализа. Ошибка первого рода (ошибка α – типа): отклоняется нулевая гипотеза, которая в действительности верна. Ошибка второго рода (ошибка β – типа): принимаем нулевую гипотезу, которая в действительности ложная.

Мощностью или чувствительностью статистического критерия (метода) называется вероятность того, что в результате его применения будет принято правильное решение (Н 1 ) при действительно ложной нулевой гипотезе. Мощность критерия зависит от объема выборки, уровня значимости, направленности нулевой и альтернативной гипотез, надежности экспериментальных данных, приборов и от самого статистического метода. При равных условиях параметрические методы более мощные, чем непараметрические. Но мощность непараметрических методов возрастает с увеличением объема выборки.

Каждому типу шкалы соответствует своя статистическая техника. Для номинальных шкал часто используется критерий χ 2 (хи-квадрат). Для порядковых шкал – ранговые статистики. Для интервальных шкал – весь арсенал статистических критериев.

Алгоритмы и примеры вычисления непараметрических критериев.

Статистические шкалы

Статистическая обработка данных исследования

Статистические данные применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в эксперименте, возможно больше полезной информации.

Применение тех или иных статистических методов определяется тем, к какой статистической шкале относится полученный материал.

Шкала наименований. К этой шкале относятся материалы, в которых изучаемые объекты отличаются друг от друга по их качеству, а порядок не важен. Например, распределение участников конференции. При статистической обработке таких материалов нужно считаться с тем, каким числом единиц представлен каждый объект.

Шкала порядка. Порядок следования объектов находится в центре внимания. К этой шкале в статистике относятся такие исследовательские материалы, в которых рассмотрению подлежат объекты, принадлежащие к одному или нескольким классам, но отличающиеся при сравнении одного с другим: больше – меньше, выше – ниже и т.п.

Проще всего показать типические особенности шкалы порядка, если обратиться к итогам любых спортивных соревнований. В них последовательно перечисляются участники, занявшие соответственно первое, второе, третье и прочие

по порядку места, а сведения о фактических достижениях спортсменов отходят на второй план, или отсутствуют.

Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных единицах. Материалы, соответствующие шкале интервалов, должны иметь единицу измерения, которая была ба при всех повторных измерениях тождественной самой себе.

Шкала отношений. К этой шкале относятся материалы, в которых учитывается не только число фиксированных единиц, как в шкале интервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолютную точку, от которой и ведется отсчет.

Если данные, которыми располагает исследователь, при их внимательном рассмотрении лишь в незначительной степени расходятся с кривой нормального распределения Гаусса, то это дает право исследователю применять в статистической обработке параметрические методы, исходные положения которых основываются на нормальной кривой распределения Гаусса. Нормальное распределение называют параметрическим потому, что для построения и анализа кривой Гаусса достаточно иметь всего два параметра: среднее арифметическое, значение которого должно соответствовать высоте перпендикуляра, восстановленного в центре кривой, и так называемое среднее квадратическое, или стандартное, отклонение – величины, характеризующей размах колебаний данной кривой.

При невозможности применить параметрические методы, надлежит обратиться к непараметрическим.

Вопросы по непараметрическим критериям.

Статистический критерий – решающее правило, обеспечивающее принятие истинной и отклонение ложной гипотезы с высокой вероятностью Одновременно с этим статистический критерий – метод расчета определенного числа и само это число.

Параметрические критерии используются в случае, когда выборка является нормальной, при этом в расчет в данных критериях включены признаки вероятностного распределения признака, то есть средние и дисперсия. При этом предполагается, что данные непрерывны. К параметрическим критериям относятся: t-критерий Стьюдента, критерий хи-квадрат. Подходят для шкал интервальных отношений.

Непараметрические критерии используются, когда нельзя говорить о нормальном распределении, критерии основаны на оперировании рангами или частотами. К непараметрическим относятся критерий знаков, критерий Вилкоксона, критерий Манна-Уитни, Джонкхиер. Подходят для шкал, более слабых, чем интервальные.

Перед выбором критерия мы должны проверить выборку на нормальность.

Я понятия не имею, что написать по мерам среднего и мерам разброса, ибо судя по всему там все те же понятия дисперсии и бла бла прочего *_*

2. Методы проверки статистических гипотез: t-критерий,критерий Вилкоксона, критерий Манна-Уитни,Краскал-Уоллеса(условия применения, формулировка гипотез, распределения статистик, идея расчета)

t-критерий (Стьюдент) – применяется если выборка нормальная. Гипотезы формулируются таким образом:

1. формулируется H0

2. формулируется H1, альтернативная H0 (обычно она свидетельствует о взаимодействии признаков).

3. Выбирается статистика для выбора между двумя гипотезами

4. Для каждого уровня значимости α устанавливается критическая область, где а) попадание результата в эту область свидетельствует скорее об H1, чем об H0 б) вероятность попадания результата в эту область при H0 истинной равна α.

Вероятность допустимой ошибки первого рода α=0,05, если значение критерия по нашей выборке окажется больше t 0,05 , то мы принимает гипотезу H0, отвергаем гипотезу H1.

Для одной выборки

Для независимых выборок.

Критерий знаковых рангов Вилкоксона – рассматривает не значения чисел в выборке, а лишь их знаки. Критерий учитывает абсолютные величины членов выборки. Применяется в случае, когда выборка может не быть нормальной и когда требуется решить, имеет ли выборка существенно отличное от нуля среднее значение. Для применения требуется:

1) Установить уровень значимости α и найти соответствующий нижний квантиль Вилкоксона.


2) Расположить все члены выборки в порядке возрастания абсолютной величины, подписать под ними ранги.

3) Вычислить статистику Вилкоксона, для чего подсчитать сумму рангов, приписанных отрицательным членам выборки.

4) Сравнить полученную статистику с найденным ранее квантилем. Если эта сумма рангов меньше нижнего квантиля, мы отвергаем гипотезу H0, принимает гипотезу H1. Точно так же если сумма рангов всех положительных членов выборки больше верхнего квантиля, мы принимаем H1 и отвергаем H0.

Критерий Манна-Уитни (U) – критерий для независимых выборок, аналог t-критерия Стьюдента. Его эмпирическое значение показывает, насколько совпадают два ряда значений признака. Применяется когда выборка может не быть нормальной, сохраняется лишь требование подобия распределений, но они не обязаны быть нормальными + когда требуется решить проблему, можно ли утверждать о том. Что среднее значение экспериментальной выборки существенно выше среднего значения контрольной группы.

1) Записываем члены обеих выборок в порядке возрастания, выделяя при этом члены различных выборок по-разному.

2) Для каждого числа первой (контрольной) выборки подсчитываем, сколько чисел второй (экспериментальной) выборки расположено левее него. Если число первой выборки равно числу второй, то прибавляем 0,5. Получаем последовательной результатов и складываем ее.

3) Смотрим на выбранном нами уровне значимости нижний квантиль по Манну-Уитни. Если полученная нами сумма меньше нижнего квантиля, то отвергаем гипотезу H0, принимаем гипотезу H1.

Распределение Манна-Уитни симметрично (т.е. можно подсчитывает по обратной схеме и использовать верхнюю квантиль).

Критерий Краскал-Уоллеса – является непараметрическим аналогом однофакторного дисперсионного анализа для независимых выборок. Сходен с критерием Манна-Уитни. Оценивает степень совпадения нескольких рядов значений измененного признака. Основная идея – представление всех значений сравниваемых выборок в виде общей последовательности ранжированных значений с последующим вычислением среднего ранга для каждой из выборок.

Вычисляется после ранжирования.

N – суммарная численность всех выборок.

k – количество сравниваемых выборок.

R i – сумма рангов для конкретной выборки.

n i – численность выборки i.

Чем сильнее различаются выборки, тем больше вычислительное значение H, меньше p-уровень значимости. При отклонении нулевой статистической гипотезы принимается альтернативная о статистически достоверных различиях по данному признаку без конкретизации направления различий. (для направления необходим критерий Манна-Уитни, т.к. он для двух выборок, а этот для больше двух).

2.1. Основные понятия

Параметрические методы обработки экспериментальных данных опираются на основополагающий факт, в соответствии с которым свойства результатов экспериментальных исследований, рассматриваемых как случайные объекты, описываются некоторым законом распределения. При этом предполагается, что анализ экспериментальных данных позволяет с достаточной степенью точности определить вид и конкретную форму закона распределения или значения его параметров, если нет необходимости в использовании самого закона. Такая информация даёт возможность в полном объёме использовать методы теории вероятностей для решения задач обработки.

Так как действительный закон распределения и значения его параметров неизвестны, то параметрические методы оперируют с их приближениями – статистическими законами распределения и оценками параметров распределения.

Статистическим законом распределения случайной величины называется закон распределения данной величины, установленный с помощью статистических методов обработки данных.

Статистический закон распределения может быть определён в виде статистической функции распределения , статистической плотности распределения или статистического ряда распределения P * (x i ), .

Статистическими оценками параметров закона распределения случайной величины называются приближённые значения данных параметров (статистики), полученные с помощью статистических методов обработки данных.

В дальнейшем статистические оценки для краткости называются просто оценками.

Если некоторый закон распределения характеризуется параметрами a 1 , a 2 ,…, a m , то их оценки будем обозначать в виде , ,…,. Наиболее распространёнными видами параметров законов распределения при обработке экспериментальных данных являются математическое ожидание , дисперсия или среднее квадратическое отклонение , а для системы случайных величин – корреляционный момент или коэффициент корреляции . Иногда используются центральные моменты третьего и четвёртого порядков. Соответственно при обработке данных используются их статистические аналоги – оценки математического ожидания, корреляционного момента и т.д.

Таким образом, если имеется совокупность экспериментальных данных x 1 , x 2 ,…, x n , то и статистический закон распределения, например функция , и оценки его параметров представляют собой некоторые функции этих данных:

, . (2.1.2)

Вид статистик y и f j определяет качество оценок и . В связи с этим возникает ряд проблем, основной из которых является проблема определения условий, при которых оценки (2.1.1) и (2.1.2) могут с требуемой достоверностью представлять теоретические законы распределения и их параметры. Эти условия формируются предельными теоремами теории вероятностей. Именно они служат тем фундаментом параметрических методов обработки экспериментальных данных, на основе которого могут быть получены подходящие оценки законов и параметров распределения наблюдаемых характеристик.

Вторая проблема состоит в выборе достаточной статистики , т.е. такой статистики, которая позволяет в конкретных условиях получать оценки заданного качества. Так как на основе результатов наблюдений x 1 , x 2 ,…, x n может быть образован большой спектр статистик (2.1.1) и (2.1.2), данная проблема сводится к выбору из них оптимальной в определённом смысле статистики. Решение проблемы осуществляется методами теории статистических решений.

Как видно из рис.1.1, к проблеме принятия решений при обработке экспериментальных данных сводится не только задача выбора достаточной статистики. Большинство задач обработки данных в разной степени может быть отнесено к задачам принятия решений. В связи с этим фундаментом параметрических методов обработки служат также принципы принятия статистических решений, на основе которых сформированы критерии принятия оптимальных в определённом смысле решений. Особую роль среди данных принципов играет принцип максимального правдоподобия и вытекающий из него для случая нормального закона распределения метод наименьших квадратов.

В настоящей брошюре рассматриваются вопросы параметрической обработки экспериментальных данных.

2.2. Предельные теоремы теории вероятностей

Использование параметрических методов обработки данных предполагает выявление условий, определяющих справедливость априорных предположений о виде закона распределения исследуемой случайной величины и свойствах его параметров. Эти условия формулируются в виде предельных теорем теории вероятностей. Ниже излагаются содержание и сущность теорем без доказательства, а также некоторые рекомендации по их практическому применению.