Работа № 6. Различение двух простых гипотез

1. Различение при фиксированном объеме наблюдений

Пусть имеется совокупность наблюдений x = ( х1, ..., хn), относительно которой имеется два предположения (гипотезы):

H0: x распределена по закону p0(х);

H1: х распределена по закону p1(x) (если х - непрерывна, то p0(х), p1(х)- плотности, если дискретна - вероятности).

По х требуется принять одно из двух решений: иливерна Н0 (это решение обозначим 0) или верна Н1 (решение 1). Ясно, что дело сводится к определению решающей функции d(х), имеющей два значения 0 и 1, т.е. к определению разбиения Г= (Г0, Г1) пространства Х всех возможных значений х:

d(x) =

При использовании любой решающей функции d(х) возможны ошибки двух типов:

ошибка 1-го рода: принятие Н1 при истинности Н0,

ошибка 2-го рода: принятие Н0 при истинности Н1.

любая решающая функция характеризуется двумя условными вероятностями

a = Р( принять Н1 | Н0) = , (1)

b = Р( принять Н0 | Н1) = ,

которые называются вероятностями ошибок 1-го и 2-го рода соответственно. Хотелось бы иметь a и b близкими к нулю, но из (1) ясно, что, вообще говоря, если одна из них уменьшается, например, a (за счет уменьшения Г1), то другая, b, увеличивается (за счет увеличения Г0; Г0ÈГ1 = Х, Г0 \ Г1 = Æ). Существуют различные подходы к определению оптимального правила.


Байесовский подход

Будем считать, что многократно сталкиваемся с проблемой выбора между Н0 и Н1; в этом случае можно говорить о частоте, с которой истинна Н0 (или Н1) , т.е. о том, что истинность Н0 (или Н1) - событие случайное, причем вероятность события, когда верна Н0 (или Н1),

Р(Н0) = q0 , Р(Н1) = q1 , q0 + q1 = 1.

Кроме того, будем считать, что за каждую ошибку 1-го рода платим штраф W0, а за ошибку 2-го рода - штраф W1. Если пользуемся правилом d (с разбиением Г), то средний штраф от однократного использования его

R(Г) = q0×a(Г)×W0 + q1×b(Г)×W1 .

Назовем правило d (соответственно разбиение Гº 0, Г1)) оптимальным (в байесовском смысле), если

R(Г) =

Оказывается (и это нетрудно доказывается) оптимальным является правило, для которого область Г1 такова:

Г1 = . (2)

В частном случае, если W0 = W1 = 1, R(Г) имеет смысл безусловной вероятности ошибки, а соответствующее оптимальное правило называется правилом “идеального наблюдателя” или правилом Зигерта- Котельникова.


Подход Неймана-Пирсона

Оптимальным (в смысле Неймана-Пирсона) назовем такое правило, которое имеет заданную вероятность ошибки первого рода, а вероятность ошибки второго рода при этом минимальна. Формально, правило d (соответственно разбиение Г) оптимально, если

b(Г) = ,

при условии a) £ a0 .

Оказывается, для оптимального правила область Г1 такова:

Г1 = , (3)

где h определяется из условия

a(h) =a0 (4)

Замечание. Приведенный результат есть частный случай фундаментальной леммы Неймана - Пирсона, справедливый при условии, что существует корень h уравнения (4). Это условие не является существенно ограничивающим: действительно, при изменении h от 0 до ¥ область Г1 уменьшается, и a(h) уменьшается от 1 до 0. Можно, однако, привести примеры, когда a(h) имеет скачки, и тогда (3) требует некоторого простого уточнения.

Пример 1. Различение гипотез о среднем нормальной совокупности.

На вход канала связи подается сигнал S, который может принимать два значения:

S = 0 (сигнала нет), S = а ¹ 0 (сигнал есть).

В канале действует аддитивная случайная ошибка e, нормально распределенная со средним Мe = 0 и дисперсией De = s2; результатом является х¢= S + e. Измерения повторяются n раз, так что на выходе имеются наблюдения (х1, ..., хn) º х, по которым нужно решить, есть ли сигнал (H1: S = a) или нет (H0: S = 0). Требуется построить решающее правило d, имеющее заданную вероятность a0 ошибки первого рода (вероятность ложной тревоги)

a º Р(принять Н1½Н0) = a0

при минимальном значении вероятности b ошибки второго рода (вероятности пропуска).

считая ошибки независимыми, с учетом того, есть ли сигнал (Н1) или его нет (Н0), имеем

р1(х) = , р0(х) = .

В соответствии с (3), решение о наличии сигнала нужно принять (принять Н1), если х попадает в Г1, где

Г1===.

Итак, если

, (5)

то принимается Н1; в противном случае принимается Н0. Порог h2 определяется из (4):

. a(h2) = P{пр. Н1 / Н0} = = a0.

если верна Н0, то распределена нормально со средним 0 и дисперсией ns2, и потому последнее условие принимает вид:

a(h2)= 1 - Ф= a0 ,

откуда

h2 = sQ(1 - a0), (6)

где Ф(х) - функция нормального N(0, 1) распределения; Q(1 - a0) - квантиль порядка (1 - a0) этого распределения.

Определим вероятность b ошибки второго рода для процедуры (5) с порогом (6). Если верна Н1, то распределена нормально со средним na и дисперсией ns2, и потому

b = P(пр0 /H1)= P {< h2 /H1} = Ф = Ф(Q - ).

Положим, а = 0.2, s = 1.0 (т.е. ошибка s в 5 раз больше сигнала а), n = 500, a = 10-2 ; при этом

h2 = 1 × × 2.33 = 52, b = Ф(2.33 - 0.2 × 22.4) = Ф(-2.14) = 1.6 × 10-2;

как видим, вероятности ошибок невелики: порядка 10-2.

Моделирование. Проиллюстрируем этот пример статистически, с помощью пакета. Сгенерируем две выборки объема n = 500 в соответствии с гипотезами Н0 и Н1. Для обеих выборок построим гистограммы (в диапазоне от -2.5 до 2.5 с 20 интервалами) и убедимся, что “на глаз” различие не заметно. Определим сумму наблюдений по каждой выборке и применим решающее правило (5) с порогом (6). Убедимся, что в обоих случаях решающее правило дает правильное решение. Все действия, необходимые для этого примера, здесь не описываются, поскольку они использовались в предыдущих работах.

2. Последовательное различение двух простых гипотез (последовательный анализ Вальда)

Задачу различения двух простых гипотез поставим иначе. Объем наблюдений фиксировать не будем. рассмотрим правило различения, которое имело бы заданные уровни вероятностей ошибок и при этом требовало минимальное в среднем число наблюдений. Во многих практических ситуациях требование скорейшего принятия решения является весьма существенным, например, испытания надежности, выборочный контроль, принятие решения о наличии цели в радиолокации, испытания экономической системы и т.д.

Пусть х1, ..., хn, ... - последовательность независимых, одинаково распределенных случайных величин. Относительно распределения имеется два предположения:

Н0 : наблюдения распределены с плотностью р0 (х),

Н1 : наблюдения распределены с плотностью р1(х); (если наблюдения дискретны, то р0 (х), р1(х) - вероятности).

После каждого наблюдения предоставляется выбор из трех возможных решений:

- принять Н0 и закончить наблюдения,

- принять Н1 и закончить наблюдения,

- не принимать ни одну из гипотез и продолжить наблюдения.

Формулировка решающего правила (последовательный критерий отношения вероятностей). Рассмотрим следующую процедуру d. Зафиксируем два порога: верхний А и нижний В: 0 < В < 1 < А. Пусть уже получено n наблюдений (n = 1, 2, ...); обозначим

Ln(x1, ..., xn) =

- отношение правдоподобия. Процедура d* на очередном шаге n такова:

если Ln(x1, ..., xn) ³ A, то принимается Н1 и наблюдения заканчиваются;

если Ln(x1, ..., xn) £ В, то принимается Н0 и наблюдения заканчиваются; (7)

если В< Ln(x1, ..., xn) < А, то делается еще одно наблюдение.

Очевидно, эта процедура характеризуется некоторыми вероятностями ошибок и средними числами наблюдений:

a = a(А, В) = Р{ пр. Н1 /Н0}, b = b (А, В) = Р{пр. Н0 /H1},

n0 =n0(А, В) = М(n /H0), n1 = n1(А, В) = М(n /H1),

где n - число наблюдений (случайная величина) до принятия окончательного решения. Если a0 и b0 заданы, то в принципе можно найти пороги А и В, т.е. правило d*. Оказывается, такое правило обладает свойством оптимальности.

Теорема (Вальд и Вольфовиц, 1948 г.). Среди всех решающих правил , обладающих свойством

a(d¢) £ a0 , b(d¢) £ b0 ,

последовательный критерий отношения вероятностей d* имеет минимальные средние числа наблюдений:

n0 (d*) £ n0(), n1 (d*) £ n1(),

Заметим, что минимальность достигается сразу по двум характеристикам. (см. [7]).

Основные формулы. Легко показать справедливость неравенств, связывающих пороги с вероятностями ошибок:

А £ , В ³ .

Вместо неизвестных значений А и В возьмем их приближенные значения А¢ и В¢:

А » А¢ =, В » В¢ = . (8)

Конечно, при таком выборе порогов будем иметь не a и b, а некоторые a¢ и b¢. Оказывается, последние несущественно меньше требуемых a и b.

для средних чисел наблюдений справедливы следующие приближенные (обычно с хорошей точностью) формулы:


n0 º М(n /H0) » ,

n1 º М(n /H1)» , (9)


где ,

М(z /Hi) =