Лабораторные работы (man5full)

Посмотреть архив целиком

Московский Энергетический Институт

(Технический Университет)















Лабораторная работа №5

по курсу:


«Теория вероятностей и математическая статистика»















студент: Ясенков Е.М.

группа: А-13-03







Москва 2007

Критерий хи-квадрат проверки гипотез

Критерий хи-квадрат Пирсона является весьма общим методом построения тестов для проверки различных гипотез. Рассмотрим исходную схему.

1. Проверка простой гипотезы о вероятностях

Обозначим:

A1, ..., Am - m возможных исходов некоторого опыта; p1, ..., pm - вероятности cooтветствующих исходов, ;

n - число независимых повторений опыта;

1, ..., m - число появлений соответствующих исходов в n опытах, ;

p, ..., p - гипотетические значения вероятностей, p 0, .

Требуется по наблюдениям 1,...,m проверить гипотезу Н о том , что вероятности p1, ..., pm имеют значения p, ..., p, т.е.

Н: pi= p , i=1, ...,m.

Оценками для p1, ..., pm являются = 1 /n, ..., = m/n. Мерой расхождения между гипотетическими и эмпирическими вероятностями принимается величина

,

которая с точностью до множителя n есть усредненное с весами p значение квадрата относительного отклонения значений от p. Статистика X2 называется статистикой хи-квадрат Пирсона. Для ее вычисления используются две формулы:

. (1)

Условно статистику можно записать так:

Н - наблюдаемые частоты i, Т - теоретические (ожидаемые) частоты np.
Поскольку по закону больших чисел
pi при n , то

.

Последняя величина равна 0, если верна Н; если же Н не верна, то X2 .

Процедура проверки гипотезы состоит в том, что если величина X2 приняла “слишком большое” значение, т.е. если

X2 h , (2)

то гипотеза Н отклоняется; если это не так, будем говорить, что наблюдения не противоречат гипотезе. На вопрос, что означает “слишком большое” значение, отвечает

Теорема К. Пирсона. Если гипотеза Н верна и pi0 > 0, i=1,...,m, то при n распределение статистики Х2 асимптотически подчиняется распределению хи-квадрат с m - 1 степенями свободы, т.е.

Р{ X2 < x / H } Fm-1(x) P{ 2m-1 < x }.

Порог h выберем из условия: вероятность ошибки первого рода должна быть малой - равной выбираемому значению - уровню значимости:

P{ отклонить H / H верна} = P{ X 2 h / H } P{2m-1 h} = ,

откуда

h = Q( 1-, n -1) (3)

- квантиль уровня 1- распределения хи-квадрат с m -1 степенями свободы.

Процедура (2) - (3) проверки Н может быть записана иначе: гипотеза Н отклоняется, если

P{2m-1 X2} , (4)

т.е. если мала вероятность получения (при справедливости Н) такого же расхождения, как в опыте (т.е. X2), или ещё большего. Вероятность слева в (4) называется минимальным уровнем значимости (при любом значении , большем P{X2m-1 X2}, гипотеза, очевидно, отклоняется).

Замечание. Теорему Пирсона можно применять, если все ожидаемые частоты

np 10, i=1, ...,m; (5а)

если m порядка десяти и более, достаточно выполнения

np 4, i=1, ...,m. (5б)

Если (5) не выполняется, необходимо некоторые исходы Аi объединять

2. Проверка сложной гипотезы о вероятностях

Пусть A1, ...,Am - m исходов некоторого опыта, n - число независимых повторений опыта, 1,...,m - числа появлений исходов. Проверяемая гипотеза Н предполагает, что вероятности исходов P(Ai) являются известными функциями pi(a) k-мерного параметра a = (a1,...,ak), т.е.

Н: Р(Аi) = pi(a), i = 1, ..., m,

но значение а неизвестно.

Для проверки гипотезы Н определим статистику

(6)

По теореме Фишера, если Н верна, то при n распределение статистики Х2 асимптотически подчиняется распределению хи-квадрат с числом степеней свободы f = m -1- k, и потому отклоняем Н, если

h, (7)

где h = Q(1-, f) - квантиль уровня 1- распределения хи-квадрат с числом степеней свободы f; такой порог обеспечивает выбранный уровень вероятности P(отклонить Н / Н) ошибки 1-го рода. Если (7) не выполняется, делаем вывод, что наблюдения не противоречат гипотезе. Распределению хи-квадрат с f = m -1- k степенями свободы асимптотически подчиняется также статистика

, (8)

где - оценка максимального правдоподобия для а, и потому в (7) может быть использована статистика (8) вместо (6). Процедура (7) может быть записана иначе: если

P{f2 X2} (9)

то гипотеза Н отклоняется.

3. Проверка гипотезы о типе распределения

Пусть требуется проверить гипотезу о том, что выборка x1, ..., xn извлечена из совокупности, распределенной по некоторому закону, известному с точностью до k-мерного параметра а=(а1,...,аk). Оказываются теоретически обоснованными следующие действия: разобьем весь диапазон наблюдений на m интервалов, определим значения i -число наблюдений в i-м интервале, получим значение оценки минимизацией (6) или методом максимального правдоподобия, определим вероятности pi() попадания в i-й интервал, вычислим (6) или (8) и примем решение по (7).

Пример 1. Проверка нормальности. Проверим гипотезу о нормальном законе распределения размеров головок заклепок, сделанных на одном станке, по выборке объема n = 200; измерения приведены в таблице 1 [1, с.15]. Оценками для а (среднего) и (стандартного отклонения) являются

и .


Таблица 1.

Диаметры 200 головок заклепок, мм

13.39

13.33

13.56

13.38

13.43

13.37

13.53

13.40

13.25

13.37

13.28

13.34

13.50

13.38

13.38

13.45

13.47

13.62

13.45

13.39

13.53

13.58

13.32

13.27

13.42

13.40

13.57

13.46

13.33

13.40

13.57

13.36

13.43

13.38

13.26

13.52

13.35

13.29

13.48

13.43

13.40

13.39

13.50

13.52

13.39

13.39

13.46

13.29

13.55

13.31

13.29

13.33

13.38

13.61

13.55

13.40

13.20

13.31

13.46

13.13

13.43

13.51

13.50

13.38

13.44

13.62

13.42

13.54

13.31

13.58

13.41

13.49

13.42

13.45

13.34

13.47

13.48

13.59

13.20

14.56

13.55

13.44

13.50

13.40

13.48

13.29

13.31

13.42

13.32

13.48

13.43

13.26

13.58

13.38

13.48

13.45

13.29

13.32

13.24

13.38

13.34

13.14

13.31

13.51

13.59

13.32

13.52

13.57

13.62

13.29

13.23

13.37

13.64

13.30

13.40

13.58

13.24

13.32

13.52

13.50

13.43

13.58

13.63

13.48

13.34

13.37

13.18

13.50

13.45

13.60

13.38

13.33

13.57

13.28

13.32

13.40

13.40

13.33

13.20

13.44

13.34

13.54

13.40

13.47

13.28

13.41

13.39

13.48

13.42

13.46

13.28

13.46

13.37

13.53

13.43

13.30

13.45

13.40

13.45

13.40

13.33

13.39

13.56

13.46

13.26

13.35

13.42

13.36

13.44

13.41

13.43

13.51

13.51

13.24

13.34

13.28

13.37

13.54

13.43

13.35

13.52

13.23

13.48

13.48

13.54

13.41

13.51

13.44

13.36

13.36

13.53

13.44

13.69

13.66

13.32

13.26

13.51

13.38

13.46

13.34







В таблице приведено значение статистики хи-квадрат: 13.58969, количество степеней свободы f = 3


P{2 3 13.58969}=0.0035248


Вероятность получить 13.58969 или больше, при условии, что гипотеза верна, слишком мала, поэтому гипотезу о нормальности распределения отклоняем.

Если посмотреть гистограмму наблюдений, видно, что в выборке имеется одно аномальное значение 14.56 (№ 188), которое могло появиться в результате какой-либо ошибки (при записи наблюдений, при перепечатке или попалась деталь с другого станка и т.д.). Удалим его и снова проверим гипотезу. Удаление одного наблюдения, если оно типично, не может изменить характеристики совокупности из 200 элементов; если же изменение происходит, следовательно, это наблюдение типичным не является и должно быть удалено.