Критерий согласия Пирсона

Опр Критерий проверки гипотезы о предполагаемом законе неизвестного распределения называется критерием согласия.

Имеется несколько критериев согласия: $\chi ^2$ {хи-квадрат} К. Пирсона, Колмогорова, Смирнова и др.

Обычно теоретические и эмпирические частоты различаются. Случай расхождения может быть не случайным, значит и объясняется тем, что не верно выбрана гипотеза. Критерий Пирсона отвечает на поставленный вопрос, но как любой критерий он ничего не доказывает, а лишь устанавливает на принятом уровне значимости её согласие или несогласие с данными наблюдений.

Опр Достаточно малую вероятность, при которой событие можно считать практически невозможным называют уровнем значимости.

На практике обычно принимают уровни значимости, заключённые между 0,01 и 0,05, $\alpha =0,05$ - это $5{\%}$ уровень значимости.

В качестве критерия проверки гипотезы примем величину \begin{equation} \label{eq1} \chi ^2=\sum {\frac{( {n_i -n_i' } )^2}{n_i' }} \qquad (1) \end{equation}

здесь $n_i -$ эмпирические частоты, полученные из выборки, $n_i' -$ теоретические частоты, найденные теоретическим путём.

Доказано, что при $n\to \infty $ закон распределения случайной величины {1} независимо от того, по какому закону распределена генеральная совокупность, стремится к закону $\chi ^2$ {хи-квадрат} с $k$ степенями свободы.

Опр Число степеней свободы находят по равенству $k=S-1-r$ где $S-$ число групп интервалов, $r-$ число параметров.

1) равномерное распределение: $r=2, k=S-3 $

2) нормальное распределение: $r=2, k=S-3 $

3) показательное распределение: $r=1, k=S-2$.

Правило. Проверка гипотезы по критерию Пирсона.

  1. Для проверки гипотезы вычисляют теоретические частоты и находят $\chi _{набл}^2 =\sum {\frac{( {n_i -n_i' } )^2}{n_i' }}$
  2. По таблице критических точек распределения $\chi ^2$ по заданному уровню значимости $\alpha $ и числу степеней свободы $k$ находят $\chi _{кр}^2 ( {\alpha ,k} )$.
  3. Если $\chi _{набл}^2 <\chi _{кр}^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.

Замечание Для контроля вычислений применяют формулу для $\chi ^2$ в виде $\chi _{набл}^2 =\sum {\frac{n_i^2 }{n_i' }-n}$

Проверка гипотезы о равномерном распределении

Функция плотности равномерного распределения величины $X$ имеет вид $f( x )=\frac{1}{b-a} x\in \left[ {a,b} \right]$.

Для того, чтобы при уровне значимости $\alpha $ проверить гипотезу о том, что непрерывная случайная величина распределена по равномерному закону, требуется:

1) Найти по заданному эмпирическому распределению выборочное среднее $\overline {x_b } $ и $\sigma _b =\sqrt {D_b } $. Принять в качестве оценки параметров $a$ и $b$ величины

$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $

2) Найти вероятность попадания случайной величины $X$ в частичные интервалы $( {x_i ,x_{i+1} } )$ по формуле $ P_i =P( {x_i <X<x_{i+1} } )=\int\limits_{x_i }^{x_{i+1} } {f( x )dx=\left. {\frac{1}{b-a}x} \right|{\begin{array}{\c} {x_{i+1} } \\ {x_i } \\ \end{array} }} =\frac{x_{i+1} }{b-a}-\frac{x_i }{b-a}. $

3) Найти теоретические {выравнивающие} частоты по формуле $n_i' =np_i $.

4) Приняв число степеней свободы $k=S-3$ и уровень значимости $\alpha =0,05$ по таблицам $\chi ^2$ найдём $\chi _{кр}^2 $ по заданным $\alpha $ и $k$, $\chi _{кр}^2 ( {\alpha ,k} )$.

5) По формуле $\chi _{набл}^2 =\sum {\frac{( {n_i -n_i' } )^2}{n_i' }} $ где $n_i -$ эмпирические частоты, находим наблюдаемое значение $\chi _{набл}^2 $.

6) Если $\chi _{набл}^2 <\chi _{кр}^2 -$ нет оснований, отвергать гипотезу.

Проверим гипотезу на нашем примере.

1) $\overline x _b =13,00\,,\,\sigma _b =\sqrt {D_b } = 6,51$

2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$

$b=13,00+1,732\cdot 6,51=24,27532$

$b-a=24,27532-1,72468=22,55064$

3) $P_i =P( {x_i <X<x_{i+1} } )=\frac{x_{i+1} }{b-a}-\frac{x_i }{b-a}$ $ P_1 =( {-1<X<3} )=\frac{3}{22,55064}-\frac{-1}{22,55064}=0,13303+0,04434=0,177375 $

$ P_2 =( {3<X<7} )=\frac{7}{22,55064}-\frac{3}{22,55064}=0,177375 $

$ P_3 =( {7<X<11} )=\frac{11}{22,55064}-\frac{7}{22,55064}=0,177375 $

$ P_4 =( {11<X<15} )=\frac{15}{22,55064}-\frac{11}{22,55064}=0,177375 $

$ P_5 =( {15<X<19} )=\frac{19}{22,55064}-\frac{15}{22,55064}=0,177375 $

$ P_6 =( {19<X<23} )=\frac{23}{22,55064}-\frac{19}{22,55064}=0,177375 $

В равномерном распределении если одинакова длина интервала, то $P_i -$ одинаковы.

4) Найдём $n_i' =np_i $.

5) Найдём $\sum {\frac{( {n_i -n_i' } )^2}{n_i' }} $ и найдём $\chi _{набл}^2 $.

Занесём все полученные значения в таблицу

\begin{array}{|l|l|l|l|l|l|l|} \hline i& n_i & n_i' =np_i & n_i -n_i' & ( {n_i -n_i' } )^2& \frac{( {n_i -n_i' } )^2}{n_i' }& Контроль~ \frac{n_i^2 }{n_i' }\\ \hline 1& 1& 4,43438& -3.43438& 11,7950& 2,659898& 0,22551 \\ \hline 2& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 3& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 4& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 5& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 6& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline & & & & & \sum = \chi _{набл}^2 =3,261119& \chi _{набл}^2 =\sum {\frac{n_i^2 }{n_i' }-n} =3,63985 \\ \hline \end{array}

$\chi _{кр}^2 ( {0,05,3} )=7,8$

$\chi _{набл}^2 <\chi _{кр}^2 =3,26<7,8$

Вывод отвергать гипотезу нет оснований.