82



  1. Работа N4. Доверительные границы и интервалы


результатом применения тчечной оценки â(x1,...,xn) является одно числовое значение; оно не дает представления о точности, т.е. о том, насколько близко полученное значение к истинному значению параметра. Интуитивно ясно, что такое представление может дать, например, дисперсия оценки, так что истинное значение должно находиться где-то в пределах

â (24)

Внесем уточнения.

    1. Основные положения

      1. Определения и построение интервалов

Пусть (x1,...,xn) x - n независимых наблюдений над случайной величиной с законом распределения F(z/a), зависящим от параметра a, значение которого неизвестно.

Определение 1. Функция наблюдений a1(x1,...,xn) (заметим, что это случайная величина) называется нижней доверительной границей для параметра a с уровнем доверия РД (обычно близким к 1), если при любом значении

P{ a1(x1,...,xn) a} PД

Определение 2. Функция наблюдений a2(x1,...,xn) (случайная величина) называется верхней доверительной границей для параметра с уровнем доверия РД , если при любом значении

P{ a2(x1,...,xn) a } PД .

Определение 3. Интервал со случайными концами (случайный интервал)

I(x) = ( a1(x), a2(x) ) ,

определяемый двумя функциями наблюдений, называется доверительным интервалом для параметра a с уровнем доверия РД , если при любом значении a

P{ I(x) a } P{ a1(x1,...,xn) a a2(x1,...,xn) } PД ,

т.е. вероятность (зависящая от a) накрыть случайным интервалом I(x) истинное значение a - велика: больше или равна РД.

Построение доверительных границ и интервалов. Для построения доверительного интервала (или границы) необходимо знать закон распределения статистики =(x1,...,xn), по которой оценивается неизвестный параметр (такой статистикой может быть оценка = â(x1,...,xn) ). Один из способов построения состоит в следующем. Предположим, что некоторая случайная величина = (, a), зависящая от статистики и неизвестного параметра a такова, что

1) закон распределения известен и не зависит от a;

2) (, a) непрерывна и монотонна по .

Выберем диапазон для интервал так, чтобы попадание в него было практически достоверно:

P{ f1 (, a) f2 } PД , (1)

для чего достаточно в качестве и взять квантили распределения уровня (1- РД )/2 и (1+ РД )/2 соответственно. Перейдем в (1) к другой записи случайного события, разрешив неравенства относительно параметра a; получим (полагая, что монотонно возрастает по ):

P{ g(, f1) a g(, f2) } PД .

Это соотношение верно при любом значении параметра a (поскольку это так для (1)), и потому, согласно определению, случайный интервал

( g(, f1) , g(, f2) )

является доверительным для a с уровнем доверия РД . Если убывает по , интервалом является ( g(, f2) , g(, f1) ).

Для построения односторонней границы для a выберем значения и так, чтобы

P{ (, a) f1 } PД , f1=Q(1 - PД )

или P{ (, a) f2 } PД , f2 = Q( PД ),

где квантиль уровня . После разрешения неравенства под знаком получим односторонние доверительные границы для a.

Пример. Доверительный интервал с уровнем доверия РД для среднего a нормальной совокупности при известной дисперсии .

Пусть x, ... , xn - выборка из нормальной N(a, ) совокупности. Достаточной оценкой для а является

â = â(x,...,xn) = ,

распределенная по закону N(a, ) ; пронормируем её, образовав случайную величину

, (2)

которая распределена нормально N(0,1) при любом значении а.

По заданному уровню доверия РД определим для отрезок -fp, fp так, чтобы

, (3)

т.е. fp - квантиль порядка (1+ РД )/2 распределения N(0,1); заметим, что зависит от а , но (3) верно при любом значении а. Подставим в (3) выражение для из (2) и разрешим неравенство под знаком вероятности в (3) относительно а ; получим соотношение

, (4)

верное при любом значении а. под знаком вероятности две функции наблюдений

, ( 5)

определяют случайный интервал

I( x1, ... , xn) =(a1( x1, ... , xn), a2( x1, ... , xn)), (5a)

который в силу (4) обладает тем свойством , что накрывает неизвестное значение параметра а с большой вероятностью РД при любом значении а, и потому, по определению доверительно интервала, он является доверительным с уровнем доверия РД .

В общем случае случайную величину в (1) можно построить следующим образом. Определим функцию распределения F(z/a) статистики (F, конечно, зависит от а). Для непрерывной случайная величина (, а) F( /a), как нетрудно видеть, распределена равномерно на отрезке 0, 1 при любом значении а; приняв f1= (1- PД)/2, f2 =(1+PД)/2, будем иметь в качестве (4)

P{f1 F( /a) f2} = PД .

Для дискретной ситуация аналогична.

Можно рассуждать иначе: при любом фиксированном значении а определим отрезок z1(a), z2(a) так, что

P{ z1(a) z2(a) } РД ; (6)

ясно, что в качестве z1 и z2 можно взять квантили, т.е. определить из условий

F(z!/a)=(1- РД )/2, F(z2/a)=(1+ РД )/2.

Если z1(a) и z2(a) монотонно возрастают по а, то, разрешив два неравенства под знаком Р в (6) и учитывая, что z1(a) < z2(a), получим:

P{ z2-1() a z1-1() } РД ,

вверное при любом а; ясно, что интервал ( z2-1() , z1-1() ), определяемый двумя функциями от , является доверительным с уровнем доверия РД.

      1. Уровень доверия

Уровень доверия РД означает, что правило определения интервала дает верный результат с вероятностью РД, которая обычно выбирается близкой к 1, однако, 1 не равно.Убедимся статистически на примере в том, что доверительный интервал с уровнем доверия РД может не содержать (с малой вероятностью 1- РД ) истинное значение параметра.

Пример. рассмотрим приведенный в (5) случайный интервал I(x1, ..., xn), который при любом значении а накрывает это значение с большой вероятностью РД:

Р{ I(x1,...,xn) a } = РД ,

и потому, если пренебречь возможностью осуществления события aI, имеющего малую вероятность (1-РД), можно считать событие aI(x1,...,xn) практически достоверным, т.е. можно верить тому, что вычисленный по конкретным наблюдениям x1,...,xn интервал I содержит неизвестное значение параметра а.

Испытаем интервал (5) на 50 выборках объема n=10 для трех уровней доверия РД : 0.9 , 0.99 , 0.999 (соответственно, три значения fp) .

При РД = 0.9 число неверных из k =50 результатов окажется в окрестности 5, так как среднее число неверных

k(1- РД) = 5;

при РД =0.99 появление хотя бы одного неверного из k =50 весьма вероятно: вероятность этого события

1- РДk=1-0.9950 0.61;

при РД =0.999 появление хотя бы одного неверного весьма сомнительно: вероятность этого события

1- РДk=1-0.99950 0.05.

Задание.

1. Определить, сколько раз из k =50 доверительный интервал оказался неверным;.это сделаем для трех значений РД . Графики для РД =0.9 и РД =0.99 распечатать. Выполнение в пакетах см. в пп. 2 - 4.

2. Провести аналогично 50 испытаний доверительного интервала (7) - (9) для случая неизвестной дисперсии.


      1. Интервалы для параметров нормального распределения

Пусть х1, … ,хn - выборка из нормального N(a,2) распределения; значения среднего а и дисперсии 2 неизвестны. Оценки для а и 2:

, . (7)

Как известно, доверительным интервалом для среднего а с уровнем доверия РД при неизвестной дисперсии является интервал

I(x) = (a1(х), a2(х) ), (8)

где , , (9) tp - квантиль порядка (1+ РД)/2 распределения Стьюдента с n-1 степенями свободы.

Доверительным интервалом для стандартного отклонения с уровнем доверия РД является интервал

I (x)=(1(х), 2(х)) , (10)

где , , (11)

t1 и t2- квантили порядков соответственно (1+ РД)/2 и (1- РД)/2 распределения хи-квадрат с n-1 степенями свободы.

Сгенерируем выборку объема n=20 из нормального распределения с параметрами a =10, 2=22=4 и определим доверительные интервалы для a и с уровнем доверия РД : 0.8 , 0.9 , 0.95 , 0.98 , 0.99 , 0.995 , 0.998 , 0.999. Результаты выпишем в виде таблицы. C ростом РД интервал расширяется, с ростом n - уменьшается.

Выполнение см. в пп. 2 - 4.

Если нас интересуют не интервалы, а верхние или нижние доверительные границы, то, как известно, они определяются теми же формулами (9) è (11), îäíàêî, çíà÷åíèÿ ïîðîãîâ t изменяются. Например, нижней доверительной границей для a с уровнем доверия РД является значение

,

где tp - квантиль порядка РД распределения Стьюдента с n-1 степенями свободы, а верхней границей для с уровнем доверия РД является

,

где t2 - квантиль порядка 1- РД распределения хи-квадрат с n-1 степенями свободы.

Задание: определить верхние доверительные границы для а и с уровнем доверия РД = 0.95 .


      1. Задание на самостоятельную работу

1) для заданной задачи построить оценку заданным методом (варианты заданий см. ниже);

2) построить доверительный интервал, основанный на этой оценке;

3) сгенерировать выборку заданного объема;

4) вычислить доверительный интервал.


Отчет по работе должен содержать:

постановки вопросов, формулы,

графики испытания доверительного интервала для 2-х случаев: с известной и неизвестной дисперсией (по п. 1.2),

таблицу доверительных интервалов для различных РД (по п. 1.3),

вывод формул для оценок и интервалов, сгенерированную выборку и вычисленный интервал (по п. 1.4) .


Варианты задач.

Задача1. Расстояние а до некоторого объекта измерялось n1 раз одним прибором и n2- вторым; результаты х1,…,хn1; y1,…,yn2. Оба прибора при каждом измерении дают независимые случайные ошибки, нормально распределенные со средним 0 и стандартными отклонениями 1 и 2 соответственно. Методом максимального правдоподобия построить оценку â для а и доверительный интервал с уровнем доверия РД .

Варианты исходных данных

¹

n1

n2

1, êì

2, êì

Ðä

a, êì

1

5

10

3

5

0.95

300

2

8

12

3

5

0.98

300

3

10

15

3

5

0.95

300

4

5

10

4

6

0.98

350

5

8

12

4

6

0.95

350

6

10

15

4

6

0.98

350

7

5

10

5

8

0.95

400

8

8

12

5

8

0.98

400

9

10

15

5

8

0.95

400


измерения получить моделированием с заданным параметром а.

Решение (без вывода). Оценка

, где с=;

доверительный интервал

I=(, ),

где - квантиль порядка (1+РД)/2 распределения N(0,1).


Задача 2. Изготовлена большая партия из N=10000 приборов. Известно, что время безотказной работы случайно и распределено по показательному закону с плотностью

, x 0

С целью определения значения параметра а этой партии были поставлены на испытания n приборов; времена безотказной работы оказались равными х1,…,хn. Методом моментов построить оценку для а и доверительный интервал с уровнем доверия РД . Кроме того, построить доверительный интервал для числа М приборов, имеющих время безотказной работы менее 50 часов.

Варианты исходных данных


1

2

3

4

5

6

7

8

9

n

20

25

30

20

25

30

20

25

30

ÐД

0.95

0.99

0.95

0.99

0.95

0.99

0.95

0.99

0.95

à

300

400

500

300

400

500

300

400

500


измерения получить моделированием с заданным параметром а.

Решение (без вывода). Оценка

;

доверительный интервал для а

Ia = (, ),

где t1=Q(2n, (1-РД)/2), t2=Q(2n, (1+РД)/2) - квантили распределения хи-квадрат с 2n степенями свободы; доверительный интервал для М

IM = ( N(1- exp(-)), N(1- exp(-)) ).


Çàäà÷à 3. Некоторое неизвестное расстояние а измерялось с аддитивной случайной ошибкой , распределенной по закону Коши с плотностью

p( x ) = , - < x < .

По результатам х1,…,хn независимых измерений методом порядковых статистик построить оценку для а и приближенный доверительный интервал с коэффициентом доверия РД .

Варианты исходных данных


1

2

3

4

5

6

7

8

9

n

30

40

50

30

40

50

30

40

50

b

3

4

5

6

3

4

5

6

3

ÐД

0.95

0.98

0.95

0.98

0.96

0.98

0.95

0.98

0.95

a

15

20

25

15

20

25

15

20

25


измерения получить моделированием с заданным параметром а.

Решение (без вывода).Оценкой для а является выборочная медиана - порядковая статистика с номером [n/2]+1

,

или

(у этих статистик асимптотические свойства одинаковы). Приближенный доверительный интервал, основанный на асимптотическом распределении выборочной р-квантили

I=(),

где tp=Q((1+РД)/2) - квантиль порядка (1+РД)/2 распределения N(0,1).


Задача 4. В водоеме обитает некоторая биологическая популяция, состоящая из смеси особей двух возрастов. Длина особи - случайная величина, распределенная по нормальному закону N( ai, i2 ), где i=1,2 - индекс, относящийся к возрасту. С целью определения доли q особей 1-го возраста проведен отлов n особей и измерена их длина. По результатам х1,…,хn методом моментов построить оценку для q и приближенный доверительный интервал с уровнем доверия РД . Построить гистограмму наблюдений.

Варианты исходных данных


1

2

3

4

5

6

7

8

9

n

40

50

60

40

50

60

40

50

60

à1

5

6

5

6

5

6

5

6

5

à2

8

9

8

9

8

9

8

9

8

ÐÄ

0.95

0.95

0.98

0.95

0.95

0.98

0.95

0.95

0.98

q

0.5

0.4

0.3

0.5

0.4

0.3

0.5

0.4

0.3


Принять 1=1см, 2=1см. измерения получить моделированием с заданным значением q.

Решение (без вывода):

I = ( q1, q2 ),


, n ,

tp- квантиль порядка (1+ РД)/2 для N(0,1).


    1. Выполнение в пакете STATGRAPHICS

Уровень доверия

а) Сгенерируем массив z размером kn=5010=500 наблюдений, распределенных нормально с параметрами а=10, 2 = 22 = 4 (процедурой H.5. Random Number Generation) и образуем k=50 выборок объема n=10 т.е. матрицу х размерности 10 х 50: процедура A.2. File Operation, операция J.Update, оператором

10 50 RESHAPE z

б) Оценим средние (массив xs длиной k=50) по (1) процедурой A.2, операция J, оператором

SUM x/10

в) Определим квантили fp порядков (1+ РД)/2 (0.95 , 0.995 , 0.9995) нормального распределения N(0,1):

H.4. Critical Values (критические значения) - (Dist. Number: 14 (Normal)) - F6 - (mean: 0, std. deviation: 1) - F6 - (Area at or below: 0.95) - F6.

г) Определим массив a1 длины k = 50 левых концов интервалов по (5): процедура A.2 , операция J, оператор

xs - fp * / SQRT ( n )

д) Аналогично определим массив а2 правых концов интервалов.

е) Результаты k = 50 испытаний доверительных интервалов проанализируем по графику, полученному с помощью процедуры E.2. Multiple X-Y Plots, задав

X: COUNT 50

Y: a1

Y: a2

Y: 50 REP 10

Последняя строка потребовалась для изображения истинного значения а=10.

Определим, сколько раз из k=50 доверительный интервал оказался неверным. Это сделаем для трех значений РД (соответственно fp).

Графики для РД =0.9 и РД =0.99 распечатаем.

Задание. Провести аналогично k =50 испытаний доверительного интервала (7) - (9) для случая неизвестной дисперсии.


Интервалы для параметров нормального распределения

Сгенерируем выборку из 20 наблюдений над нормальной случайной величиной со средним а = 10 и дисперсией 2 = 4 и определим доверительные интервалы для а и с уровнем доверия РД : 0,8, 0,9, 0,95, 0,98, 0,99. Выполняется в процедурном блоке G. Estimation and Testing процедурой 1. One-Sample Analysis Результаты выпишем в виде таблицы. C ростом РД интервал расширяется, с ростом n - уменьшается.


    1. Выполнение в пакете STATISTICA

Уровень доверия

Работаем в модуле Basic Statistics and Tables.

а) Генерируем k = 50 выборок по n = 10 наблюдений, нормально распределенных с параметрами: среднее а = 10, дисперсия 2 = 4.

Создадим таблицу с 50 строками (выборками) и 10 (объем выборки) столбцами:

File - New Data - File Name: Doverit (например)- ОК.

Создана таблица 10v 50c; добавим 40 строк после 10-й:

Кнопка Vars (или Edit - Cases) - Add - Number of Cases to Add: 40, insert after Case: 10 - OK.

Сгенерируем наблюдения:

Vars - All Specs - в появившейся таблице Variables Doverit.sta в 4-м столбце Long name выделим 1-ю клетку и запишем в ней

= Vnormal (Rnd (1); 10, 2)

и перенесем эту запись в строки со 2-й по 10-ю:

Edit - Copy (или кнопка Copy) (копирование в буфер),

затем выделим следующую клетку и

Edit - Paste (или кнопка Paste).

Закроем окно. Выполним назначения:

Edit - Variables - Recalculate...(или кнопка Х = ?).

б) Оценим средние:

Edit - Block Stats/Rows - Means.

Образован 11-й столбец MEAN. Присвоим ему имя xs:

выделим столбец MEAN - Vars - Current Specs...-Name: xs - OK.

в) Определим квантили fp порядков (1 + РД)/2 (0.95, 0.995, 0.9995) нормального N (0, 1) распределения:

Analisis-Probability Calculator - в окне устанавливаем Distribution Z (Normal), выделим Inverse, p: 0.95 - Compute; результат в поле Z: 1.645.

Аналогично определим fp для остальных вероятностей (2.57 и 3.29).

г) Определим по (5) столбцы а1 и а2 левых и правых концов доверительных интервалов.

Выделим заголовок столбца xs - Vars - Add - Number...: 2, after: xs - OK - выделим новый столбец - Vars - Current Specs - Name: A1 (левые концы), Long name:

= xs - 1,65 2 / Sgrt(10)

После ОК получаем столбец левых концов. Аналогично получаем столбец а2 правых концов.

д) Результаты k = 50 испытаний доверительного интервала представим графически:

выделим столбец а1 и а2 - Graphs - Custom Graphs - 2D Graphs - OK (соглашаемся с предложениями).

Видим график (рис.1), по которому определяем число экспериментов (6 из k = 50), в которых интервал не содержит истинного значения параметра. Можем определить координаты любой точки на рисунке, поставив на нее стрелку: координаты в верхнем левом углу. Распечатаем график.

е) повторим пп. г) и д) для двух других значений доверительной вероятности.

Задание: Провести аналогично k = 50 испытаний доверительного интервала (7) - (9) для случая неизвестной дисперсии (рис.2 для РД = 0.9; 5 ошибок).


Рис. 1.


Рис .2.


Интервалы для среднего нормальной совокупности

Сгенерируем выборку (столбец) из 20 наблюдений над нормальной случайной величиной со средним а = 10 и дисперсией 2 = 4 и определим доверительные интервалы для а с уровнем доверия РД : 0.8, 0.9, 0.95, 0.98, 0.99, 0.999. Выполняется командой

Analisis - Descriptive staistics - в поле Statistics выбрать Conf. Limits for means и указывать значение Alpha error: 80 (90, 95 т.д.).

    1. Выполнение в пакете SPSS

Уровень доверия

а) Генерация k = 50 выборок по n = 10 наблюдений, нормально распределенных с параметрами: среднее а = 10, дисперсия 2 = 4.

Выборки поместим в таблицу с 50 строками (выборками) и 10 (объем выборки) столбцами (при таком размещении сокращается работа по генерации наблюдений). В первом столбце таблицы выделяем клетку в 50-й строке и вводим точку. 50 строк создано.

Переименуем 1-й столбец:

Data - Define Variable - Name: x 01 - OK

Сгенерируем наблюдения:

Transform - Compute - Target Variable (целевая переменная): x 01, Numeric Expression (числовое выражение):

NORMAL (2) + 10

это выражение вводим кнопками окна - ОК.- Change? - OK.

В первом столбце наблюдения получены. Повторяем, начиная с Transform, заменив х 01 на х 02; и так 9 раз (5 нажатий на 1 столбец). Матрица наблюдений получена.

б) Оценка средних.

В пакете статистики определяются по столбцам (переменным), поэтому выборки-строки преобразуем транспонированием в выборки-столбцы:

Data - Transpose...- все имена переменных переносим в правый список Variables (выделяем все, нажимаем кнопку-стрелку) - ОК.

Теперь имеется 50 столбцов - выборок по 10 строк - наблюдений. Первый столбец case - lbl можно удалить:

выделим его - Edit - Clear (или клавиша Delete).

Определим среднее по выборкам:

Statistics - Summarize - Descriptives...- перенесем имена всех столбцов в правый список, отметим Display labels (имена показывать) - Options...- отметим только Mean; îòìåòèì Display Order: Name (показывать по порядку) - Continue - OK.

В окне Output получаем столбец Mean результатов. Если в столбце есть пропуски или текст, удаляем лишние строки, чтобы столбец результатов состоял из 50 строк с числами.

Сохраним столбец результатов в буфере операцией Copy. Снова транспонируем матрицу (чтобы в дальнейшем не было пустых блоков). Получили 10 числовых столбцов и 50 строк (выборок).

Выделяем 1-й справа свободный столбец и с помощью Edit - Paste помещаем в него столбец средних. Присвоим ему имя as:

выделим его - Data - Define Variable - Name: as

в) Определение столбцов а1 и а2 левых и правых концов доверительных интервалов.

Пусть РД = 0.9, квантиль порядка (1 + РД )/2 = 0.95 есть fР = 1.645. Вычислим левые концы:

Transform - Compute - Target Variable: a1, Numeric Expression (по (5), учитывая, что = 2): as – 1.645 2/ SQRT(10).

Аналогично вычислим левые концы а2.

г) Результаты k = 50 испытаний доверительного интервала представим графически, предварительно образовав столбец а с истинным значением 10 параметра; затем:

Graphs - Line...- Multiple (несколько графиков), Values of individual cases - Define - Line Represent (представить линии): а, а1, а2 - ОК.

Наблюдаем график, из которого видно, сколько интервалов из 50 не содержат истинное значение. Записываем его; оно должно находиться приближенно в пределах 5 2 5 4. График распечатаем или сохраним: File - Save As...

д) Пусть РД = 0.99; тогда fР 2.57; если РД = 0.999, то fР 3.29. Повторим пп. в) и г) для этих значений РД . Убеждаемся, что с ростом РД число ошибок уменьшается, но ширина интервала увеличивается (чем надежнее гарантия, тем меньше она гарантирует).

Задание: провести аналогично k = 50 испытаний доверительного интервала (7) - (9) для случая неизвестной дисперсии.



ПРИЛОЖЕНИЕ 1. Методы построения оценок

Метод моментов

Пусть x1, ..., xn - n независимых наблюдений над случайная величиной с функцией распределения F (x/a), зависящей от параметра a (a1, ..., aR), nR; значение параметра требуется оценить по наблюдениям.

Пусть mk = Mk - момент порядка k. Моменты являются функциями параметра a: mk= fk(a1, ..., aR). Пусть существуют первые R моментов m1, ..., mR. Если бы моменты были известны, можно было бы составить систему уравнений для определения параметров по моментам:

m1 = f1(a1,...,aR),

. . .

mR = fR(a1,...,aR );

пусть эта система разрешима относительно a:

a1 = g1(m1,...,mR),

. . . (1)

aR = gR(m1,...,mR ).

когда решается задача оценивания, значения моментов неизвестны, однако, для моментов имеются несмещенные и состоятельные оценки

, k =1,...,R.

Подставив их в (1) вместо mk, получим некоторые оценки для aj:

(x1 ,... xn) = g1 (1 ,..., R ),

. . .

( x1 ,... xn) = gR (1 ,..., R ),

которые называют моментными оценками.

Несмещенностью они, вообще говоря, не обладают; обычно их исправляют. Справедливы следующие свойства.

1. Если функции gj (), j = 1 ,..., R, непрерывны, то оценки состоятельны.

2. Если функции gj() дифференцируемы, а распределение при любом a имеет 2R моментов, то оценки асимптотически нормальны:

N (aj, .

Замечания.

1. В равенствах (1) вместо первых моментов можно взять любые R моментов так, чтобы система была разрешима.

2. Моментные оценки не всегда обладают хорошими характеристиками. Однако, часто они достаточно просты в вычислительном отношении.


Метод наибольшего правдоподобия

  1. Определения. Пусть имеется некоторая совокупность x (x1 ,..., xn) наблюдений. Рассмотрим вероятность (или плотность) p(x/a) получить это x при различных a (a1 ,..., aR). в качестве оценки возьмем то значение а, для которого вероятность p(x/a) максимальна; такой способ оценивания называется методом наибольшего (максимального) правдоподобия.

Функция p(x/a), понимаемая как функция от а, называется функцией правдоподобия. Значение а, доставляющее максимум функции правдоподобия, называется оценкой наибольшего (максимального) правдоподобия:

p(x/a) = p (x/a). (2)

Заметим, что а есть функция наблюдений х: а = а (х). При обычных условиях регулярности максимум находится из системы уравнений

i = 1, ..., R. (3)

Пример. Пусть х 1, ..., xn) - независимые наблюдения над случайной величиной, нормально распределенной с параметрами b и 2 (роль двумерного параметра а в определении играет пара b и 2 ). Плотность распределения выборки

p(x/ b, 2) p(x1, ..., xn /b, 2) = . (3)

Поскольку значения х1 ,..., xn известны, величина p(x1, ..., xn/b,2) является функцией от b и 2. система (3):

Решение этой системы, т.е. оценки наибольшего правдоподобия:


  1. Свойства оценок наибольшего правдоподобия.

Пусть - случайная величина с законом распределения q( /a), x(x1,..xn)- n независимых наблюдений, p(x1, ..., xn /a) = - распределение выборки.

При некоторых достаточно широких условиях оценки наибольшего правдоподобия обладают хорошими свойствами, а именно, они состоятельны, асимптотически эффективны и асимптотически нормальны с параметрами (для одномерного случая)

Mа = а, Dа ={n}-1

условия таковы: а) независимость множества X = x: q(x/a) = 0 от а; б) существование производных и ; в) существование . Доказательство можно найти, например, в 2.


Метод порядковых статистик

Пусть x1, ..., xn - n независимых наблюдений над случайная величиной с функцией распределения, зависящей от параметра a, значение которого тебуется оценить; x(1) x(2) ... x(n) - вариационный ряд (наблюдения, упорядоченные по возрастанию), x(k) - порядковая статистика с номером k.

Квантиль xр выбранного уровня р (например, р = 0.5, x0.5 -медиана) является функцией параметра а:

xр = f(a),

выразим а через xр

а = g(xр)

и вместо xр подставим выборочную квантиль = x([np]+1), которой является порядковая статистика с номером [np] +1; получим оценку

= g(x([np]+1))

Известны следующие свойства.

Если функция g непрерывна, то оценка состоятельна. Если распределение наблюдений непрерывно с плотностью q(x) , то асимптотически нормальна с параметрами

M= xр, D=

(теорема Крамера).

Ясно, что таким же образом можно построить оценки и для неодномерного параметра. Основное и очень важное преимущество оценок, основанных на порядковых статистиках, - их устойчивость к засорению наблюдений.


приложение 2. операторы пакета STATGRAPHICS


Здесь описываются операторы, использованные в работах.

N TAKE x –Выбирает заданное число значений с начала (N - поло жительно) или конца (N - отрицательно) массива х.

2 TAKE 1 2 3 4 дает 1 2

2 TAKE 1 2 3 4 дает 3 4

m n RESHAPE xПреобразует массив х в матрицу из m строк и n столбцов. Если требуется больше значений, чем в массиве х, значения повторяются циклически; если меньше – значения в конце массива опускаются.

2 3 RESHAPE COUNT 4 дает

1 2 3

4 1 2

n RESHAPE x Расширяет циклически x до размера n.

7 RESHAPE 1 2 3

дает 1 2 3 1 2 3 1

n REP x Делает n копий каждого элемента в массиве x.

2 REP 3 4 5 дает 3 3 4 4 5 5

2 3 4 REP 3 4 5 дает 3 3 4 4 4 5 5 5 5.

COUNT n Создает вектор с целыми числами от 1 до n.

SUM x Суммирует элементы массива. Если массив - матрица, ре-

зультат есть вектор сумм элементов столбцов.

MIN x Выбирает минимальное (максимальное) значение в массиве.

MAX x Если х – матрица, результат есть вектор минимумов

(максимумов) элементов столбцов.

TAN x Определяет тангенсы элементов массива х. Этот оператор относится к числу загружаемых. Перед использованием необходимо выполнить загрузку процедурой V. 1. Load Operators and Functions, опциями Mathematical functions и Read (после использования рекомендуется выгрузить (чтобы освободить память) опцией Erase).

SORTUP x располагает в порядке возрастания элементы массива x; если x-матрица, - сортирует все столбцы. Этот оператор, как и предыдущий, относится к числу загружаемых.


заключение

использование пакетов существенно улучшает процесс изучения основ математической статистики, ускоряя его и вызывая интерес у студентов. Это показал двухлетний опыт применения в МЭИ на АВТФ. Данное учебное пособие является началом работы в этом направлении.

Авторам приятно отметить,что изобретателем и вдохновмтелем этого пособия является Наталья Александровна Сливина, зажигательный и неповторимый энтузиаст применения компьютеров и пакетов в преподавании математики. Хотелось бы также отметить участие в деле освоения пакетов студентов АВТФ - прекрасных программистов Евгения Голода, Дмитрия Горбунова, Петра Комарова.


Литература

  1. Севастьянов Б.А. Курс теории вероятностей и математической статистики. М.: Наука, 1982. 256 с.

  2. Рао С.Р. Линейные статистические методы и их применение. М.: Наука, 1968. 548 с.

  3. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983. 416 с.

  4. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М.: ИНФРА-М, Финансы и статистика, 1995. 384 с.

  5. Краткое описание пакета STATGRAPHICS. / Э.А. Вуколов, В.В.Лесин, Ю.П. Лисовец др. М.: МГИЭТ. вып. 1, 2. 1993.


Случайные файлы

Файл
1287-1.rtf
20752-1.rtf
149959.rtf
240-1962.DOC
143532.rtf