Критерий согласия Пирсона

Опр Критерий проверки гипотезы о предполагаемом законе неизвестного распределения называется критерием согласия.

Имеется несколько критериев согласия: $\chi ^2$ { хи-квадрат } К. Пирсона, Колмогорова, Смирнова и др.

Обычно теоретические и эмпирические частоты различаются. Случай расхождения может быть не случайным, значит и объясняется тем, что не верно выбрана гипотеза. Критерий Пирсона отвечает на поставленный вопрос, но как любой критерий он ничего не доказывает, а лишь устанавливает на принятом уровне значимости её согласие или несогласие с данными наблюдений.

Опр Достаточно малую вероятность, при которой событие можно считать практически невозможным называют уровнем значимости.

На практике обычно принимают уровни значимости, заключённые между 0,01 и 0,05, $\alpha =0,05$ - это $5 { \% } $ уровень значимости.

В качестве критерия проверки гипотезы примем величину \begin{equation} \label { eq1 } \chi ^2=\sum { \frac { ( { n_i -n_i' } )^2 } { n_i' } } \qquad (1) \end{equation}

здесь $n_i -$ эмпирические частоты, полученные из выборки, $n_i' -$ теоретические частоты, найденные теоретическим путём.

Доказано, что при $n\to \infty $ закон распределения случайной величины { 1 } независимо от того, по какому закону распределена генеральная совокупность, стремится к закону $\chi ^2$ { хи-квадрат } с $k$ степенями свободы.

Опр Число степеней свободы находят по равенству $k=S-1-r$ где $S-$ число групп интервалов, $r-$ число параметров.

1) равномерное распределение: $r=2, k=S-3 $

2) нормальное распределение: $r=2, k=S-3 $

3) показательное распределение: $r=1, k=S-2$.

Правило. Проверка гипотезы по критерию Пирсона.

  1. Для проверки гипотезы вычисляют теоретические частоты и находят $\chi _ { набл } ^2 =\sum { \frac { ( { n_i -n_i' } )^2 } { n_i' } } $
  2. По таблице критических точек распределения $\chi ^2$ по заданному уровню значимости $\alpha $ и числу степеней свободы $k$ находят $\chi _ { кр } ^2 ( { \alpha ,k } )$.
  3. Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.

Замечание Для контроля вычислений применяют формулу для $\chi ^2$ в виде $\chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i' } -n } $

Проверка гипотезы о равномерном распределении

Функция плотности равномерного распределения величины $X$ имеет вид $f( x )=\frac { 1 } { b-a } x\in \left[ { a,b }\right]$.

Для того, чтобы при уровне значимости $\alpha $ проверить гипотезу о том, что непрерывная случайная величина распределена по равномерному закону, требуется:

1) Найти по заданному эмпирическому распределению выборочное среднее $\overline { x_b } $ и $\sigma _b =\sqrt { D_b } $. Принять в качестве оценки параметров $a$ и $b$ величины

$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $

2) Найти вероятность попадания случайной величины $X$ в частичные интервалы $( { x_i ,x_ { i+1 } } )$ по формуле $ P_i =P( { x_i <X<x_ { i+1 } } )=\int\limits_ { x_i } ^ { x_ { i+1 } } { f( x )dx=\left. { \frac { 1 } { b-a } x }\right| { \begin{array} { \c } { x_ { i+1 } } \\ { x_i } \\ \end{array} } } =\frac { x_ { i+1 } } { b-a } -\frac { x_i } { b-a } . $

3) Найти теоретические { выравнивающие } частоты по формуле $n_i' =np_i $.

4) Приняв число степеней свободы $k=S-3$ и уровень значимости $\alpha =0,05$ по таблицам $\chi ^2$ найдём $\chi _ { кр } ^2 $ по заданным $\alpha $ и $k$, $\chi _ { кр } ^2 ( { \alpha ,k } )$.

5) По формуле $\chi _ { набл } ^2 =\sum { \frac { ( { n_i -n_i' } )^2 } { n_i' } } $ где $n_i -$ эмпирические частоты, находим наблюдаемое значение $\chi _ { набл } ^2 $.

6) Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу.

Проверим гипотезу на нашем примере.

1) $\overline x _b =13,00\,,\,\sigma _b =\sqrt { D_b } = 6,51$

2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$

$b=13,00+1,732\cdot 6,51=24,27532$

$b-a=24,27532-1,72468=22,55064$

3) $P_i =P( { x_i <X<x_ { i+1 } } )=\frac { x_ { i+1 } } { b-a } -\frac { x_i } { b-a } $ $ P_1 =( { -1<X<3 } )=\frac { 3 } { 22,55064 } -\frac { -1 } { 22,55064 } =0,13303+0,04434=0,177375 $

$ P_2 =( { 3<X<7 } )=\frac { 7 } { 22,55064 } -\frac { 3 } { 22,55064 } =0,177375 $

$ P_3 =( { 7<X<11 } )=\frac { 11 } { 22,55064 } -\frac { 7 } { 22,55064 } =0,177375 $

$ P_4 =( { 11<X<15 } )=\frac { 15 } { 22,55064 } -\frac { 11 } { 22,55064 } =0,177375 $

$ P_5 =( { 15<X<19 } )=\frac { 19 } { 22,55064 } -\frac { 15 } { 22,55064 } =0,177375 $

$ P_6 =( { 19<X<23 } )=\frac { 23 } { 22,55064 } -\frac { 19 } { 22,55064 } =0,177375 $

В равномерном распределении если одинакова длина интервала, то $P_i -$ одинаковы.

4) Найдём $n_i' =np_i $.

5) Найдём $\sum { \frac { ( { n_i -n_i' } )^2 } { n_i' } } $ и найдём $\chi _ { набл } ^2 $.

Занесём все полученные значения в таблицу

\begin{array} { |l|l|l|l|l|l|l| } \hline i& n_i & n_i' =np_i & n_i -n_i' & ( { n_i -n_i' } )^2& \frac { ( { n_i -n_i' } )^2 } { n_i' } & Контроль~ \frac { n_i^2 } { n_i' } \\ \hline 1& 1& 4,43438& -3.43438& 11,7950& 2,659898& 0,22551 \\ \hline 2& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 3& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 4& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 5& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 6& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline & & & & & \sum = \chi _ { набл } ^2 =3,261119& \chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i' } -n } =3,63985 \\ \hline \end{array}

$\chi _ { кр } ^2 ( { 0,05,3 } )=7,8$

$\chi _ { набл } ^2 <\chi _ { кр } ^2 =3,26<7,8$

Вывод отвергать гипотезу нет оснований.