Основные числовые характеристики выборки

2015-12-13

838

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 1 2 3 456 Следующая ⇒

Негруппированная выборка	Группированная выборка
1.Среднее арифметическое выборки

2.Дисперсия выборки

3.Исправленная дисперсия выборки:
4. Размах выборки:

Тема 5. Статистические методы оценивания параметров распределений, проверки гипотез и исследования зависимостей.

5.1 Точечные оценки.

Одной из основных задач математической статистики является оценканеизвестных параметров, характеризующих распределение генеральной совокупности . Совокупность независимых случайных величин , каждая из которых имеет то же распределение, что и случайная величина называют случайной выборкой объёма из генеральной совокупности и обозначают . Любую функцию случайной выборки называют статистикой.

Если функция распределения генеральной совокупности известна с точностью до параметра , то его точечной оценкой называют статистику , значение которой на данной выборке принимают за приближённое значение неизвестного параметра : .

Чтобы точечные оценки давали «хорошее» приближение оцениваемых параметров, они должны удовлетворять определённым требованиям. «Хорошей» считается оценка, обладающая свойствами состоятельности, несмещённости и эффективности. Оценка называется: 1) состоятельнойоценкой параметра , если при неограниченном увеличении объёма выборки она сходится по вероятности к оцениваемому параметру, т.е. ; 2) несмещённой(оценкой без систематических ошибок), если её математическое ожидание при любом равно оцениваемому параметру, т.е. ; 3) эффективной(в некотором классе несмещённых оценок), если она имеет минимальную дисперсию в этом классе.

Пусть распределение генеральной совокупности известно с точностью до вектора параметров и требуется найти значение его оценки по выборке .

Оценкой метода моментов вектора параметров называют статистику значение которой для любой выборки удовлетворяет системе уравнений:

, ,

где - теоретические начальные моменты -го порядка случайной величины , - эмпирические начальные моменты -го порядка выборки . В систему уравнений метода моментов могут входить и уравнения вида , где - теоретические центральные моменты -го порядка случайной величины , эмпирические центральные моменты -го порядка выборки . Часто для нахождения значения оценки одного параметра используют первый начальный момент. Для нахождения значений оценок двух

параметров используют первый начальный и второй центральный моменты.

Оценкой метода максимального правдоподобиявектора параметров называют статистику , значение которой для любой выборки удовлетворяет условию: , где - функция правдоподобия выборки , - множество всех возможных значений вектора параметров .

Функция правдоподобия имеет вид:

1) - для дискретной случайной величины ;

2) - для непрерывной случайной величины .

Если функция дифференцируема как функция аргумента для любой выборки и максимум достигается во внутренней точке , то значение точечной оценки максимального правдоподобия находят, решая систему уравнений максимального правдоподобия: , . Нахождение упрощается, если максимизировать не саму функцию правдоподобия, а её логарифм , так как при логарифмировании точки экстремума остаются теми же, а уравнения, как правило, упрощаются и записываются в виде: , .

5.2 Интервальные оценки.

Если функция распределения генеральной совокупности известна с точностью до параметра , то его интервальной оценкой или доверительным интерваломназывается случайный интервал , который накрывает неизвестное значение параметра с заданной вероятностью , т.е. . Число называется доверительной вероятностью, а число - уровнем значимости. Обычно используются значения , равные , , .

Точность интервальной оценки характеризуется длиной доверительного интервала и зависит от объёма выборки и доверительной вероятности . Очевидно, что, чем меньше длина доверительного интервала, тем точнее оценка. Доверительный интервал, симметричный относительно точечной оценки , определяется формулой и имеет вид , где характеризует отклонение выборочного значения параметра от его истинного значения и называется предельной ошибкой выборки. Доверительные интервалы часто строятся в предположении, что выборка получена из генеральной совокупности, имеющей нормальное распределение.

Доверительный интервал для параметра нормально распределённой генеральной совокупности.

Параметр	Точечная оценка	Доверительный интервал
( неизвестна)		, где ,

Здесь: , где- двусторонняя критическая точка распределения Стьюдента (находится с помощью специальных таблиц).

5.3. Проверка статистических гипотез.

Статистической гипотезой называют любое предположение относительно параметров или вида распределения генеральной совокупности (случайной величины) . Гипотезы относительно неизвестного значения параметра распределения генеральной совокупности (случайной величины) называются параметрическимии непараметрическими в иных случаях. Статистическая гипотеза называется простой, если она однозначно определяет распределение , в противном случае она называется сложной. Проверяемая гипотеза называется основной и обозначается . Наряду с гипотезой рассматривают одну из альтернативных гипотез , противоречащих основной. Например, если проверяется гипотеза о равенстве параметра распределения некоторому заданному значению , т.е. , то в качестве альтернативной гипотезы, как правило, рассматривается одна из следующих гипотез: , , . Выбор альтернативы определяется конкретной постановкой задачи.

Правило, по которому принимается решение принять или отклонить основную гипотезу , называется критерием проверки гипотезы. Критерий задают с помощью критического множества , где - выборочное пространство (множество всех возможных значений случайной выборки ). Решение принимают на основе выборки наблюдаемых значений случайной величины , используя для этого подходящую статистику , называемую статистикой критерия . При проверке параметрической гипотезы в качестве статистики критерия выбирают ту же статистику, что и при оценивании параметра .

Решение принимают следующим образом: 1) если выборка , то принимают основную гипотезу ; 2) если выборка , то основную гипотезу отклоняют и принимают альтернативную гипотезу .

При использовании любого критерия возможны ошибки двух видов:

1) отклонить верную основную гипотезу - ошибка первого рода;

2) принять неверную основную гипотезу - ошибка второго рода.

Вероятности совершения ошибок первого и второго рода обозначают и : , , где - вероятность события при условии, что справедлива гипотеза , . Вероятность совершения ошибки первого рода называют также уровнем значимости критерия , а величину , равную вероятности отклонить основную гипотезу , когда она неверна, называют мощностью критерия. Уровень значимости определяет «размер» критического множества. Обычно используются значения , равные , , .

Проверка статистической гипотезы основывается на принципе, в соответствии с которым маловероятные события считаются невозможными, т.е. если выборка попадает в критическое множество с исключительно малой вероятностью, то естественно предположить, что утверждение, которое привело к этому маловероятному событию, не соответствует истине и отклонить его. Поступая так, мы будем отклонять в действительности верную основную гипотезу крайне редко – не более чем в случаев. Поэтому за основную гипотезу естественно принять утверждение, отклонение которого, когда оно в действительности является верным, приводит к более тяжёлым последствиям, чем его принятие при справедливости альтернативы.

Общая схема проверки параметрической гипотезы состоит в следующем: 1) формулируется альтернативная гипотеза ; 2) задаётся уровень значимости ; 3) выбирается статистика критерия проверки гипотезы ; 4) определяется выборочное распределение статистики при условии, что гипотеза является верной; 5) по заданным значениям и определяется критическое множество критерия в зависимости от формулировки альтернативной гипотезы ; 6) по выборке вычисляется наблюдаемое значение статистики критерия; 7) принимается статистическое решение: если , то основная гипотеза отклоняется как не согласующаяся с данными выборки; если , то принимается, т.е. считается, что гипотеза не противоречит данным выборки.

Критерии, используемые для проверки гипотезы о виде распределения случайной величины (генеральной совокупности) называют критериями согласия (с основной гипотезой), при этом альтернатива , как правило, не формулируется, подразумевая под ней «всё остальное». Одним из наиболее широко применяемых на практике критериев согласия, является критерий согласия («хи-квадрат»).

Критерий «хи-квадрат» в качестве меры расхождения эмпирического и теоретического законов распределения случайной величины использует значения статистики , где - объём выборки; -число непересекающихся множеств на которые разбита область возможных значений случайной величины ; -эмпирическая частота попадания в ; -вероятность попадания в , вычисленная для теоретического закона распределения . Закон распределения статистики при независимо от вида закона распределения случайной величины стремится к закону -распределения с степенями свободы ( -число параметров теоретического закона распределения , вычисляемых по выборке). Для его применения практически достаточно, чтобы .

Общая схема проверкинепараметрическойгипотезы , утверждающей, что случайная величина имеет теоретический закон распределения , состоит в следующем.

1) Задают уровень значимости .

2) По выборке находят значения оценок неизвестных параметров предполагаемого закона распределения .

3) Множество возможных значений случайной величины разбивают на непересекающихся множеств : интервалов, если - непрерывная величина или групп отдельных значений, если - дискретная величина, и подсчитывают их частоты , .

4) Используя предполагаемый закон распределения вычисляют вероятности , - вероятности того, что наблюдаемое значение принадлежит множеству . Замечание. Критерий «хи-квадрат» использует тот факт, что случайные величины , , имеют распределения, близкие к нормальному . Чтобы это утверждение было достаточно точным, необходимо, чтобы для всех выполнялось условие . Если для некоторых это условие не выполняется, то их объединяют с соседними.

5) По заданным значениям и определяют критическое множество критерия «хи-квадрат»: , , где - критическая точка -распределения (находится с помощью специальных таблиц). Замечание. Если проводилось объединение , то - число множеств , оставшихся после их объединения.

6) По выборке вычисляют наблюдаемое значение статистики критерия «хи-квадрат».

7) Принимают решение: если , то основная гипотеза отклоняется как не согласующаяся с данными выборки; если , то принимается, т.е. считается, что гипотеза не противоречит данным выборки.

5.4 Корреляционно-регрессионный анализ.

На практике часто бывает важно знать, существует ли зависимость между некоторыми наблюдаемыми величинами, насколько тесно они связаны между собой, можно ли по значению одной величины сделать какие-либо выводы о предполагаемом значении другой величины и т.д. Для решения задач такого рода и применяется корреляционно-регрессионный анализ.

Пусть - выборка из двумерной генеральной совокупности . Предварительное представление о зависимости между случайными величинами и можно получить, изобразив в прямоугольной системе координат на плоскости точки . Такое графическое представление двумерной выборки называют диаграммой рассеивания (корреляционным полем). Количественной характеристикой степени линейной зависимости между величинами и является коэффициент корреляции . Его состоятельной оценкой служит статистика , где , , , , .

Если , то все выборочные точки , лежат на одной прямой. При выборочные данные только имеют тенденцию сосредотачиваться около прямых: , , называемых (теоретическими) прямыми регрессии на и на , соответственно. Здесь , . Первое уравнение даёт наилучший в среднем квадратичном прогноз ожидаемых значений по наблюдениям , второе – прогноз значений по наблюдениям .

Прямые , называются эмпирическими прямыми регрессии на и на , соответственно. Здесь , , , , - найденные по выборке , , значения статистик , , , , , являющихся состоятельными оценками параметров , , , , двумерной генеральной совокупности.