Доверительный интервал

Пусть по данным выборки найдена статистическая оценка характеристик $\theta ^\ast $ неизвестного параметра $\theta $. Точность оценки характеризует положительное число $\delta : \left| {\theta -\theta ^\ast } \right|<\delta $.

Опр Надёжностью {доверительной вероятностью} оценки $\theta $ по $\theta ^\ast $ называют вероятность $\gamma $, с которой осуществляется неравенство $\left| {\theta -\theta ^\ast } \right|<\delta $.

Замечание Наиболее часто задают надёжность $\gamma =0,95, 0,99, 0,999$.

Опр Доверительным называют интервал $(\theta ^\ast -\delta ,\theta ^\ast +\delta )$, который покрывает неизвестный параметр $\theta $ с заданной надёжностью $\gamma $.

Пусть случайная величина $X$ задана нормально. Известно и среднеквадратическое отклонение $\sigma $. Требуется оценить математическое ожидание при заданной надёжности $\gamma $ и выборочном среднем $\overline x _b $. Имеем $\left| {\overline x _b -a} \right|<\delta \Rightarrow \overline x _b -\delta <a<x_b +\delta $,

где $\delta =\frac{t\cdot \sigma }{\sqrt n }$, $n -$ объём выборки, $t -$ определяется из равенства $2\Phi ( t )=\gamma , \Phi ( t )=\frac{\gamma }{2}-$ находят по таблицам функций Лапласа. В таблице находят $\frac{\gamma }{2}$ и получают аргумент функции $t$.

Пусть нас интересует вероятность некоторого события $A$ и для ее определения проведено $n$ независимых испытаний.

Пусть $m(A) -$ число появлений события $A$ при $n$ испытаниях. Возникает вопрос - насколько хорошо относительная частота - $\frac{m(A)}{n}=\tilde {p}$ оценивает $p$. Для того, чтобы знать к каким ошибкам может привести замена неизвестного параметра его оценкой и с какой уверенностью можно ожидать, что ошибка не выйдет за известные пределы возникает необходимость в оценке найденного параметра. С этой целью, строится интервальная оценка, то есть по данным выборки указывается интервал, который накрывает неизвестный параметр с заданной вероятностью $\gamma $ близкой к единице. Вероятность $\gamma $ называют доверительной вероятностью или надежность оценки. Рассмотрим отклонение относительной частоты от вероятности, то есть разность $p-\tilde {p}$. Можно определить $t_{\gamma }$ как корень уравнения $\Phi ( {t_\gamma } )=\frac{\gamma }{2}$ {он находится по таблице - для $\gamma =0,95, t_{\gamma }=1,96$, для $\gamma =0,997, t_{\gamma }=3$} и сказать что с вероятностью $\gamma $ выполняется неравенство \begin{equation} \label{eq1} \tilde {p}-t_\gamma \sqrt {\frac{\tilde {p}(1-\tilde {p}}{n}} \leqslant p\leqslant \tilde {p}+t_\gamma \sqrt {\frac{\tilde {p}(1-\tilde {p}}{n}}\qquad (1) \end{equation}

Полученная оценка справедлива при больших $n$. Перепишем неравенство {1} в следующей форме

$\left| {p-\tilde {p}} \right|\leqslant 1,96\sqrt {\frac{\tilde {p}(1-\tilde {p}}{n}} \qquad (2)$.

Используя формулу {2} в виде $\left| {p-\tilde {p}} \right|=2\sqrt {\frac{\tilde {p}(1-\tilde {p}}{N}} $ можно определить объём выборки $N$, необходимый для получения оценки $p$ с заданной точностью и надёжностью $\gamma $.

Пример: Выборочная проверка показала, что из 100 изделий 87 удовлетворяют стандарту. Мы хотим быть уверены на $95{\%}$, что не ошибаемся в оценке процента нестандарта. В каких пределах он находится? Каков должен быть объем выборки, чтобы оценить процент брака с точностью до 0,01?

Решение: По теореме Муавра - Лапласа с вероятность 0,95: $\tilde {p}-t_\gamma \sqrt {\frac{\tilde {p}(1-\tilde {p}}{n}} \leqslant p\leqslant \tilde {p}+t_\gamma \sqrt {\frac{\tilde {p}(1-\tilde {p}}{n}} $

Подставим в эту формулу наши данные - $n=100$ и $\tilde {p}=0,13$ получаем, что $0,06<p<0,2$. Для нахождения объема выборки $N$, необходимого для получения оценки $p$ с точность до 0,01, это же неравенство представим в форме {2}. $ \left| {p-\tilde {p}} \right|=2\sqrt {\frac{\tilde {p}(1-\tilde {p}}{N}} $

Откуда $ 0,01=2\sqrt {\frac{\tilde {p}(1-\tilde {p})}{N}} \Rightarrow \,N=40000\,\tilde {p}\,(1-\tilde {p})=40000\cdot 0,87\cdot 0,13=4524. $