Статистические оценки параметров распределения

Предположим, что заранее известен вид теоретического распределения интересующего нас признака X , но параметры этого распределения неизвестны и должны быть найдены по данным выборки.

Для того чтобы решить задачу оценивания параметров теоретического распределения, нам понадобится строить функции, зависящие от выборочных значений $x_1 ,x_2 ,\ldots ,x_n $.

Любую функцию $\theta ( {x_1 \ldots x_n } )$ зависящую от выборки и являющуюся случайной величиной, называют статистикой.

Для того чтобы оценки неизвестных параметров, т. е. статистики, давали хорошее приближение неизвестных параметров, распределения генеральной совокупности должны удовлетворять следующим требованиям:

  1. Математическое ожидание оценки параметра $M( {\theta \ast } )$ по всевозможным выборкам данного объёма должно равняться истинному значению параметра $M( {\theta \ast } )=\theta $. В этом случае статистическую оценку $\theta \ast $ называют несмещённой.
  2. При увеличении объёма выборки оценка должна сходиться по вероятности к истинному значению параметра, в этом случае оценку называют состоятельной.

Если в качестве оценки ищем число, т.е. точку на координатной оси, то оценка называется точечной.

Кроме точечных оценок $\exists$ интервальные оценки.

Опр Общей средней называют среднее арифметическое значение признака

$\overline x =\frac{\sum {x_i } }{n}=\frac{x_1 +x_2 +\ldots x_n }{n}$, где $x_i -$ сами варианты

В нашем примере $ \overline x =\frac{\sum {x_i } }{n}= \frac{16+17+9+13+21+11+7+19+5+20+\ldots +21-1+15}{25}= 13,68$

Среднее $\overline x -$ несмещённая оценка математического ожидания $M(X)$

Замечание $\overline x -$ ещё называют статистическим средним.

Опр Выборочной средней $\overline x _b $ называется среднее арифметическое признака выборочной совокупности.

$\overline x _b =\frac{\sum\limits_{i=1}^k {x_i n_i } }{n}$, где $n_i -$ частоты, $x_i -$ центры интервалов. $ \overline x _b =\frac{1\cdot 1+6\cdot 5+3\cdot 9+3\cdot 13+6\cdot 17+6\cdot 21}{25}=13 $

Замечание $\overline x _b -$ называют также средним взвешенным.

Опр Отклонением называется разность между значением признака и общей средней $x_i -\overline x $

Опр Выборочной дисперсией называется среднее арифметическое квадратов отклонений наблюдаемого значения признака от среднего значения.

$ D_b =\frac{\sum\limits_{i=1}^k {( {x_i -x_b } )^2n_i } }{n} $

Замечание Эта оценка является смещённой.

Опр Несмещённой оценкой генеральной дисперсии служит исправленная дисперсия $D=\frac{n}{n-1}D_b $

Можно привести ещё формулу для вычисления дисперсии $ D_b =\underbrace {( {\frac{\sum\limits_{i=1}^k {n_i x_i ^2} }{n}} )}_{\begin{array}{l} квадрат \\ значений \\ признака \\ \end{array}}-\underbrace {( {\frac{\sum\limits_{i=1}^n {n_i x_i } }{n}} )}_{\begin{array}{l} квадрат\,выборочной \\ средней\,{или\,общей \\ средней} \\ \end{array}}^2 $

Рассмотрим наш пример. Выпишем таблицу

\begin{array}{|l|l|l|l|l|l|l|} \hline x_i~центры~интервал& 1& 5& 9& 13& 17& 21 \\ \hline n_i~абсолютн.~частоты& 1& 6& 3& 3& 6& 6 \\ \hline x_i^2 & 1& 25& 81& 169& 289& 441 \\ \hline \end{array}

$\sum\limits_{i=1}^k {\frac{n_i x_i^2 }{n}=\frac{1\cdot 1+6\cdot 25+3\cdot 81+3\cdot 169+6\cdot 289+6\cdot 441}{n}=\frac{4+150+243+507+1734+2646}{25}} =211,\,24$

$( {\overline x _b } )^2=( {13} )^2=169 $

$D_b =211,36-169=42,24$

$D=\frac{25}{24}\cdot 42,24=44$

Среднеквадратическое отклонение $ \delta =\sqrt {D_b } =6,51 $

Исправленное среднеквадратическое отклонение $ s=\sqrt D =6,6 $

Относительная погрешность $ \delta =\frac{\overline x -\overline x _b }{\overline x }\cdot 100\% =5\% $