Статистические оценки параметров распределения

Предположим, что заранее известен вид теоретического распределения интересующего нас признака X , но параметры этого распределения неизвестны и должны быть найдены по данным выборки.

Для того чтобы решить задачу оценивания параметров теоретического распределения, нам понадобится строить функции, зависящие от выборочных значений $x_1 ,x_2 ,\ldots ,x_n $.

Любую функцию $\theta ( { x_1 \ldots x_n } )$ зависящую от выборки и являющуюся случайной величиной, называют статистикой.

Для того чтобы оценки неизвестных параметров, т. е. статистики, давали хорошее приближение неизвестных параметров, распределения генеральной совокупности должны удовлетворять следующим требованиям:

  1. Математическое ожидание оценки параметра $M( { \theta \ast } )$ по всевозможным выборкам данного объёма должно равняться истинному значению параметра $M( { \theta \ast } )=\theta $. В этом случае статистическую оценку $\theta \ast $ называют несмещённой.
  2. При увеличении объёма выборки оценка должна сходиться по вероятности к истинному значению параметра, в этом случае оценку называют состоятельной.

Если в качестве оценки ищем число, т.е. точку на координатной оси, то оценка называется точечной.

Кроме точечных оценок $\exists$ интервальные оценки.

Опр Общей средней называют среднее арифметическое значение признака

$\overline x =\frac { \sum { x_i } } { n } =\frac { x_1 +x_2 +\ldots x_n } { n } $, где $x_i -$ сами варианты

В нашем примере $ \overline x =\frac { \sum { x_i } } { n } = \frac { 16+17+9+13+21+11+7+19+5+20+\ldots +21-1+15 } { 25 } = 13,68$

Среднее $\overline x -$ несмещённая оценка математического ожидания $M(X)$

Замечание $\overline x -$ ещё называют статистическим средним.

Опр Выборочной средней $\overline x _b $ называется среднее арифметическое признака выборочной совокупности.

$\overline x _b =\frac { \sum\limits_ { i=1 } ^k { x_i n_i } } { n } $, где $n_i -$ частоты, $x_i -$ центры интервалов. $ \overline x _b =\frac { 1\cdot 1+6\cdot 5+3\cdot 9+3\cdot 13+6\cdot 17+6\cdot 21 } { 25 } =13 $

Замечание $\overline x _b -$ называют также средним взвешенным.

Опр Отклонением называется разность между значением признака и общей средней $x_i -\overline x $

Опр Выборочной дисперсией называется среднее арифметическое квадратов отклонений наблюдаемого значения признака от среднего значения.

$ D_b =\frac { \sum\limits_ { i=1 } ^k { ( { x_i -x_b } )^2n_i } } { n } $

Замечание Эта оценка является смещённой.

Опр Несмещённой оценкой генеральной дисперсии служит исправленная дисперсия $D=\frac { n } { n-1 } D_b $

Можно привести ещё формулу для вычисления дисперсии $ D_b =\underbrace { ( { \frac { \sum\limits_ { i=1 } ^k { n_i x_i ^2 } } { n } } ) } _ { \begin{array} { l } квадрат \\ значений \\ признака \\ \end{array} } -\underbrace { ( { \frac { \sum\limits_ { i=1 } ^n { n_i x_i } } { n } } ) } _ { \begin{array} { l } квадрат\,выборочной \\ средней\, { или\,общей \\ средней } \\ \end{array} } ^2 $

Рассмотрим наш пример. Выпишем таблицу

\begin{array} { |l|l|l|l|l|l|l| } \hline x_i~центры~интервал& 1& 5& 9& 13& 17& 21 \\ \hline n_i~абсолютн.~частоты& 1& 6& 3& 3& 6& 6 \\ \hline x_i^2 & 1& 25& 81& 169& 289& 441 \\ \hline \end{array}

$\sum\limits_ { i=1 } ^k { \frac { n_i x_i^2 } { n } =\frac { 1\cdot 1+6\cdot 25+3\cdot 81+3\cdot 169+6\cdot 289+6\cdot 441 } { n } =\frac { 4+150+243+507+1734+2646 } { 25 } } =211,\,24$

$( { \overline x _b } )^2=( { 13 } )^2=169 $

$D_b =211,36-169=42,24$

$D=\frac { 25 } { 24 } \cdot 42,24=44$

Среднеквадратическое отклонение $ \delta =\sqrt { D_b } =6,51 $

Исправленное среднеквадратическое отклонение $ s=\sqrt D =6,6 $

Относительная погрешность $ \delta =\frac { \overline x -\overline x _b } { \overline x } \cdot 100\% =5\% $