Работа № 5. Критерий хи-квадрат проверки гипотез

Критерий хи-квадрат Пирсона является весьма общим методом построения тестов для проверки различных гипотез. Рассмотрим исходную схему.

1. Проверка простой гипотезы о вероятностях

Обозначим:

A1, ..., Am - m возможных исходов некоторого опыта; p1, ..., pm - вероятности cooтветствующих исходов, ;

n - число независимых повторений опыта;

n1, ..., nm - число появлений соответствующих исходов в n опытах, ;

p, ..., p - гипотетические значения вероятностей, p> 0, .

Требуется по наблюдениям n1,...,nm проверить гипотезу Н о том , что вероятности p1, ..., pm имеют значения p, ..., p, т.е.

Н: pi= p , i=1, ...,m.

Оценками для p1, ..., pm являются = n1 /n, ..., = nm/n. Мерой расхождения между гипотетическими и эмпирическими вероятностями принимается величина

,

которая с точностью до множителя n есть усредненное с весами p значение квадрата относительного отклонения значений от p. Статистика X2 называется статистикой хи-квадрат Пирсона. Для ее вычисления используются две формулы:

. (1)

Условно статистику можно записать так:

Н - наблюдаемые частоты ni, Т - теоретические (ожидаемые) частоты np.
Поскольку по закону больших чисел
® pi при n ® ¥, то

.

Последняя величина равна 0, если верна Н; если же Н не верна, то X2 ® ¥.

Процедура проверки гипотезы состоит в том, что если величина X2 приняла “слишком большое” значение, т.е. если

X2 ³ h , (2)

то гипотеза Н отклоняется; если это не так, будем говорить, что наблюдения не противоречат гипотезе. На вопрос, что означает “слишком большое” значение, отвечает

Теорема К. Пирсона. Если гипотеза Н верна и pi0 > 0, i=1,...,m, то при n® ¥ распределение статистики Х2 асимптотически подчиняется распределению хи-квадрат с m - 1 степенями свободы, т.е.

Р{ X2 < x / H } ® Fm-1(x) º P{ c2m-1 < x }.

Порог h выберем из условия: вероятность ошибки первого рода должна быть малой - равной выбираемому значению a - уровню значимости:

P{ отклонить H / H верна} = P{ X 2 ³ h / H } @ P{c2m-1 ³ h} = a,

откуда

h = Q( 1-a, n -1) (3)

- квантиль уровня 1-a распределения хи-квадрат с m -1 степенями свободы.

Процедура (2) - (3) проверки Н может быть записана иначе: гипотеза Н отклоняется, если

P{c2m-1 ³ X2} £ a , (4)

т.е. если мала вероятность получения (при справедливости Н) такого же расхождения, как в опыте (т.е. X2), или ещё большего. Вероятность слева в (4) называется минимальным уровнем значимости (при любом значении a, большем P{X2m-1 ³ X2}, гипотеза, очевидно, отклоняется).

Замечание. Теорему Пирсона можно применять, если все ожидаемые частоты

np ³ 10, i=1, ...,m; (5а)

если m порядка десяти и более, достаточно выполнения

np ³ 4, i=1, ...,m. (5б)

Если (5) не выполняется, необходимо некоторые исходы Аi объединять

2. Проверка сложной гипотезы о вероятностях

Пусть A1, ...,Am - m исходов некоторого опыта, n - число независимых повторений опыта, n1,...,nm - числа появлений исходов. Проверяемая гипотеза Н предполагает, что вероятности исходов P(Ai) являются известными функциями pi(a) k-мерного параметра a = (a1,...,ak), т.е.

Н: Р(Аi) = pi(a), i = 1, ..., m,

но значение а неизвестно.

Для проверки гипотезы Н определим статистику

(6)

По теореме Фишера, если Н верна, то при n ® ¥ распределение статистики Х2 асимптотически подчиняется распределению хи-квадрат с числом степеней свободы f = m -1- k, и потому отклоняем Н, если

³ h, (7)

где h = Q(1-a, f) - квантиль уровня 1- a распределения хи-квадрат с числом степеней свободы f; такой порог обеспечивает выбранный уровень a вероятности P(отклонить Н / Н) ошибки 1-го рода. Если (7) не выполняется, делаем вывод, что наблюдения не противоречат гипотезе. Распределению хи-квадрат с f = m -1- k степенями свободы асимптотически подчиняется также статистика

, (8)

где - оценка максимального правдоподобия для а, и потому в (7) может быть использована статистика (8) вместо (6). Процедура (7) может быть записана иначе: если

P{cf2 ³ X2} £ a (9)

то гипотеза Н отклоняется.

3. Проверка гипотезы о типе распределения

Пусть требуется проверить гипотезу о том, что выборка x1, ..., xn извлечена из совокупности, распределенной по некоторому закону, известному с точностью до k-мерного параметра а=(а1,...,аk). Оказываются теоретически обоснованными следующие действия: разобьем весь диапазон наблюдений на m интервалов, определим значения ni -число наблюдений в i-м интервале, получим значение оценки минимизацией (6) или методом максимального правдоподобия, определим вероятности pi() попадания в i-й интервал, вычислим (6) или (8) и примем решение по (7).

Пример 1. Проверка нормальности. Проверим гипотезу о нормальном законе распределения размеров головок заклепок, сделанных на одном станке, по выборке объема n = 200; измерения приведены в таблице 1 [1, с.15]. Оценками для а (среднего) и s (стандартного отклонения) являются

и .


Таблица 1.

Диаметры 200 головок заклепок, мм

13.39

13.33

13.56

13.38

13.43

13.37

13.53

13.40

13.25

13.37

13.28

13.34

13.50

13.38

13.38

13.45

13.47

13.62

13.45

13.39

13.53

13.58

13.32

13.27

13.42

13.40

13.57

13.46

13.33

13.40

13.57

13.36

13.43

13.38

13.26

13.52

13.35

13.29

13.48

13.43

13.40

13.39

13.50

13.52

13.39

13.39

13.46

13.29

13.55

13.31

13.29

13.33

13.38

13.61

13.55

13.40

13.20

13.31

13.46

13.13

13.43

13.51

13.50

13.38

13.44

13.62

13.42

13.54

13.31

13.58

13.41

13.49

13.42

13.45

13.34

13.47

13.48

13.59

13.20

14.56

13.55

13.44

13.50

13.40

13.48

13.29

13.31

13.42

13.32

13.48

13.43

13.26

13.58

13.38

13.48

13.45

13.29

13.32

13.24

13.38

13.34

13.14

13.31

13.51

13.59

13.32

13.52

13.57

13.62

13.29

13.23

13.37

13.64

13.30

13.40

13.58

13.24

13.32

13.52

13.50

13.43

13.58

13.63

13.48

13.34

13.37

13.18

13.50

13.45

13.60

13.38

13.33

13.57

13.28

13.32

13.40

13.40

13.33

13.20

13.44

13.34

13.54

13.40

13.47

13.28

13.41

13.39

13.48

13.42

13.46

13.28

13.46

13.37

13.53

13.43

13.30

13.45

13.40

13.45

13.40

13.33

13.39

13.56

13.46

13.26

13.35

13.42

13.36

13.44

13.41

13.43

13.51

13.51

13.24

13.34

13.28

13.37

13.54

13.43

13.35

13.52

13.23

13.48

13.48

13.54

13.41

13.51

13.44

13.36

13.36

13.53

13.44

13.69

13.66

13.32

13.26

13.51

13.38

13.46

13.34

Выполнение в пакете STATISTICA

Предполагается, что операции работы № 2 из [4] освоены.

Результаты измерения диаметров заклепок занесем в таблицу с одним столбцом (d) и 200 строками; соответствующий файл назовем, например, Diamz.sta. Работаем в модуле Nonparametric Statistics (непараметрическая статистика), Distribution Fitting (подбор распределения). В поле Continuous Distributions: Normal - Variable: d - в поле Plot distribution: Frequency distribution (частоты распределения) - отказываемся от теста Колмогорова - Смирнова - ОК - наблюдаем оценки параметров Mean: 13.42, Variance: 0.018, соглашаемся с параметрами группирования (в частности, c числом групп Number of categories: 19) - ОК.

Наблюдаем таблицу частот, в которой нам нужны столбцы observed frequency (наблюдаемые частоты) и expected frequency (ожидаемые частоты). Сравним графически наблюдаемые и ожидаемые частоты: выделим соответствующие столбцы - Graphs - Custom Graphs - 2D Graphs...- OK.. Наблюдаем некоторое различие.

В таблице приведено значение статистики (8) Chi-Square: 12.00, количество степеней свободы d.f. = 3, которое получилось при объединении интервалов для выполнения условий (5): f = 6 - 1 - 2 = 3. Приведено значение вероятности

Рí c2 3 ³ 12.00ý = р = 0.007.

последнее означает, что если гипотеза верна, вероятность получить 12.00 или больше равна 0.007 - слишком мала, чтобы поверить в нормальность. Гипотезу о нормальности отклоняем.

Если посмотреть гистограмму наблюдений, видно, что в выборке имеется одно аномальное значение 14.56 (№ 188), которое могло появиться в результате какой-либо ошибки (при записи наблюдений, при перепечатке или попалась деталь с другого станка и т.д.). Удалим его и снова проверим гипотезу. Удаление одного наблюдения, если оно типично, не может изменить характеристики совокупности из 200 элементов; если же изменение происходит, следовательно, это наблюдение типичным не является и должно быть удалено.

Чтобы не портить исходные данные, продублируем их в новый столбец, например, dc, и удалим аномальное наблюдение.

Повторим проверку гипотезы для “цензурированной” выборки и убедимся в том, что наблюдения не противоречат гипотезе о нормальности.

4. Примеры проверки простой гипотезы о распределении

Пример 2. Проверим генератор случайных чисел. Сгенерируем выборку заданного объема с заданным в таблице 2 законом распределения, и по полученным результатам проверим гипотезу о согласии данных с этим распределением (файл с выборкой назовем, например, Chisqr). В таблице приняты обозначения для распределений: R - равномерное, N -нормальное, E - показательное, Bi - биномиальное, Po - Пуассона.

Таблица 2. Исходные данные.

варианта

1

2

3

4

5

6

Распределение

Объем

R[0, 5]

130

N(10, 22=4)

140

E(3)

140

Bi(10, 0.5)

160

Po(15)

130

beta(1, 1)

140

варианта

7

8

9

10

11

12

Распределение

Объем

R[0, 10]

130

N(15, 32=9)

160

E(5)

130

Bi(15, 0.3)

140

Po(20)

150

beta(2, 2)

160

варианта

13

14

15


Распределение

Объем

R[-1, 1]

130

N(0, 1)

140

E(1)

150


Выполнение в пакете STATISTICA

Выполнение аналогично предыдущему.

Отличия от предыдущего: 1) в окне Fitting Continuous Distribution нужно ввести значения параметров распределения (вместо их оценок) и, возможно, поправить параметры группировки; 2) приводимый результат для уровня значимости р не соответствует рассматриваемому случаю, так как число степеней свободы d.f. должно быть равным m -1; пакет же указывает с учетом числа оцениваемых параметров. Нужное значение для р получим в модуле Basic Statistics and Tables в Probability calculator.

Пример 3. В опытах по генетике Мендель наблюдал частоты появления различных видов семян, получаемых при скрещивании гороха с круглыми желтыми и с морщинистыми зелеными семенами [2]. Частоты приведены в таблице 3 вместе с теоретическими вероятностями.

Таблица 3. Частоты видов семян.

Семена

Наблюдаемая

частота, ni

Теоретическая

вероятность, pi

Круглые и желтые

Морщинистые и желтые

Круглые и зеленые

Морщинистые и зеленые

315

101

108

32

9/16

3/16

3/16

1/16

Сумма

n = 556


Формула (1) дает X2 = 0.47. При числе степеней свободы m-1 = 3

P{ ³ 0.47 } = 0.92,

так что между наблюдениями и теорией имеется очень хорошее согласие: критерий с любым уровнем значимости a £ 0.92 не отвергал бы эту гипотезу .

Выполнение в пакете STATISTICA

Выполнить самостоятельно. Воспользоваться операциями со столбцами или процедурой Observed versus expected (наблюдаемые частоты против ожидаемых).

5. Проверка гипотезы о независимости признаков (таблица сопряженности признаков)

Предположим, имеется большая совокупность объектов, каждый из которых обладает двумя признаками А и В; признак А имеет m уровней: A1, ..., Am, а признак В k уровней: B1, ..., Bk . Пусть уровень Аi встречается с вероятностью P(Ai), а уровень Bj - c вероятностью P(Bj). Признаки А и В независимы, если

P(Ai Bj) = P(Ai)×P(Bj), i = 1, ..., m, j = 1, ..., k , (10)

т.е. вероятность встретить комбинацию Ai Bj равна произведению вероятностей. Пусть признаки определены на n объектах, случайно извлеченных из совокупности; nij - число объектов, имеющих комбинацию Ai Bj, =n. По совокупности наблюдений {nij } (таблица m´ k) требуется проверить гипотезу Н о независимости признаков А и В. Задача сводится к случаю с неизвестными параметрами; ими являются вероятности

P(Ai), i = 1, ..., m; P(Bj), j = 1, ..., k,

всего (m-1) + (k-1); их оценки:

,

(в обозначениях точка означает суммирование по соответствующему индексу), и статистика (6) принимает вид:

. (11)

Если гипотеза Н верна, то по теореме Фишера асимптотически распределена по закону хи-квадрат с числом степеней свободы

f = mk - 1 - (m - 1) - (k - 1) = (m - 1)(k - 1),

и потому, если

, (12)

то гипотезу о независимости признаков следует отклонить.

Ясно, что по (11) - (12) можно проверять независимость двух случайных величин, разбив диапазоны их значений на m и k частей.


Пример 4. Данные [2], собранные по ряду школ, относительно физических недостатков школьников (P1, P2, P3 - признак А) и дефектов речи (S1, S2, S3 - признак В) приведены в таблице 4. В таблице 5 даны частоты.

Для проверки гипотезы о независимости этих двух признаков вычислим статистику (11): = 34.88; число степеней свободы f = (3-1)´(3-1) = 4; минимальный уровень значимости