Лабораторные работы (man3new)

Посмотреть архив целиком

58


Работа № 3. Оценки

1. Cpавнение оценок

1.1. Определения

Пусть x1, ..., xn выборка , т.е. n независимых испытаний случайной величины X , имеющeй функцию распределения F(x / a), зависящую от параметра a, значение которого неизвестно. требуется оценить значение параметра a.

Оценкой â = (x1, ..., xn) называется функция наблюдений, используемая для приближенного определения неизвестного параметра. Значение â оценки является случайной величиной, поскольку (x1, ..., xn) случайная величина (многомерная).

Свойства оценок

1. Оценка â= (x1, ..., xn) называется состоятельной, если при n â a по вероятности при любом значении a.

2. Оценка â = (x1, ..., xn) называется несмещенной, если при любом a Mâ = M(x1, ..., xn) = a.

состоятельность - обязательное свойство используемых оценок. свойство несмещенности является желательным; многие применяемые оценки свойством несмещенности не обладают.

3. Оценка * называется оптимальной, если для неё средний квадрат ошибки

M(â- a)2= M[*(x1, ..., xn) - a]2= min M[(x1, ..., xn) - a]2

минимален среди всех оценок {}; здесь критерием качества оценки принят квадарт ошибки (â - a)2. В более общей ситуации, если критерием качества служит некоторая величина L(â, a), называемая функцией потерь (или функцией штрафа), то оптимальная оценка та, для которой минимальна величина ML(â, a); последняя есть функциея неизвестного a и называется функцией условного риска. Ясно, что оптимальной оценки может не существовать (так как характеристикой является функция, а не число).


1.2. Постановка конкретной задачи.

Пример. Пусть на заводе имеется большая партия из N (тысячи) транзисторов, используемых для сборки некоторого прибора. Выходные параметры прибора (например, надежность, уровень шума, вероятность выхода из режима и т.д.) зависят от обратных токов транзисторов; обратный ток у разных экземпляров различен, и потому можно считать его случайной величиной, причем, как известно технологам, распределённой равномерно в диапазоне от 0 до Imax, где Imax порог отбраковки, установленный на заводе - изготовителе транзисторов. Следовательно, выходные параметры прибора определяются величиной Imax. Предположим, что по каким-либо причинам значение Imax производителю приборов неизвестно. Ясно, что в этом случае из партии нужно случайным выбором извлечь n (сравнительно немного: десятки) транзисторов, измерить их ток, и по измерениям оценить Imax (неизвестный параметр а). Таким образом, возникает


Статистическая задача: по наблюдениям x1, ..., xn над случайной величиной , распределённой равномерно на отрезке [0, a], оценить неизвестный параметр a.

сравним три способа оценивания (три оценки):

оценку, полученную методом моментов,

â1 = , (1)

оценку, полученную методом максимального правдоподобия (после исправления смещённости),

â2 = max xi (2)

и оценку, полученную методом порядковых статистик,

â3 = 2 0.5 = x(k) + x(k+1), (3)

где 0.5 = выборочная квантиль порядка 0.5, т.е. выборочная медиана; x(k) член вариационного ряда с номером k; здесь полагаем n = 2k. Точность этих оценок можно сравнить теоретически и экспериментально (статистически).

Замечание. Точность, однако, не является единственным критерием качества оценок. Весьма важно, например, свойство устойчивости оценки к изменению закона распределения или к засорению; в этом смысле, как оказывается, â3 наиболее хороша, а â2 наименее; действительно, пусть, например, в нашу выборку случайно попало наблюдение, резко превосходящее все остальные (в случае с партией триодов, попался триод, не прошедший отбраковку); значение оценки â2 резко изменится, значение â3 почти не изменится.

1.3. Теоретическое сравнение оценок

Все три оценки несмещённые, что можно проверить методами теории вероятностей. определим дисперсии оценок :

Dâ1 = D( ) = ,

Dâ2 = D(max xi ) = ,

Dâ3 = D(x(k) + x(k+1)) ,


откуда ясно, что â2 наиболее точная оценка, а â3 наименее.

Поясним приведенные формулы для дисперсий .

Первая :

Dâ1 = = = = .


Вторая. определим функцию распределения статистики max xi :

F(z) P{ max xi < z} = P{x1 < z, ..., xn < z} = = ;

плотность распределения

p(z) = F(z) = , z[0, a].

Далее

Mâ 2 = M( max xi ) = = ,

Mâ22 = M=,

Dâ2 = Mâ22 (Mâ2)2=

Третья. используем теорему Крамера, согласно которой выборочная p - квантиль имеет дисперсию, равную приближенно , где xp истинная p-квантиль, f(x) - плотность распределения наблюдений выборки. В нашем случае (при n = 2k) статистика

0.5 (x(k) +x (k+1) ) m

является выборочной медианой (p = 0.5) , f(x0.5) = 1/a , â3 = 2m, и потому

Dâ3=Dm = =.


1.4. Статистическое сравнение оценок

Далеко не всегда удается аналитически вычислить дисперсию оценки. Как экспериментально определить, какой из оценок пользоваться? По одной выборке нельзя судить о разбросе значений оценки, поскольку значение всего одно; необходимо иметь несколько выборок, например, k = 20, (или хотя бы 5 10), оценить разброс значений для каждой оценки и предпочесть ту оценку (тот способ оценивания), для которой разброс меньше. Если же выборка всего одна, то следует (если n достаточно велико) разбить её случайным образом на несколько выборок, и по ним сравнивать качество оценок.

Сформируем k =20 выборок из распределения R[0, a=10] объема n для различных n=10, 40, 160 и определим разброс оценок. Характеристиками разброса значений а1,...,аk оценки â будем считать размах

w = max ai - min ai

и среднеквадратичное отклонение (ско)

Sa= , .


В качестве примера в табл.1 и на рис.1 приведены результаты сравнения трех оценок.

Таблица 1. Разброс значений оценок.



â1

â2

â3


amin

7.98

9.21

6.04

n = 10

amax

13.80

10.98

15.69


w

5.82

1.77

9.65


Sa

1.51

0.53

2.35


amin

8.59

9.77

7.02

n = 40

amax

11.35

10.24

12.89


w

2.76

0.47

5.86


Sa

0.84

0.14

1.56


amin

9.12

9.85

8.67

n = 160

amax

11.26

10.06

12.24


w

2.14

0.21

3.57


sa

0.50

0.05

0.94

Сравнение значений размахов w и ско Sа для 3 оценок показывает, что оценка â21, ... , хn) наиболее точна, а оценка â31, ... , хn) - наименее.

Приведенные результаты экспериментального сравнения 3 способов обработки наблюдений показывают следующее.

1. Значения оценок концентрируются в окрестности оцениваемого параметра (проявление свойства несмещенности оценок).

2. С ростом числа наблюдений точность (величина разброса) оценок улучшается (проявление свойства состоятельности).

3. Различные оценки различаются по величине средней ошибки, откуда ясно, что различные способы обработки наблюдений нужно сравнивать по величине среднего значения некоторого критерия качества, например, среднего значения квадрата ошибки.


Задание для самостоятельной работы

Сравнить статистически на выборках объема n=10 две оценки: оценку максимального правдоподобия и медианную оценку

1) среднего нормального распределения и

2) параметра показательного распределения.

Отчет по работе должен содержать:

1) постановку задачи оценивания, анализируемые оценки, выражения для их дисперсий (если их нетрудно получить);

2) результаты экспериментов:

распечатки 3-5 выборок, распечатку значений оценок на всех k = 20 выборках для объема n = 10,

графическое представление результатов сравнения оценок на всех выборках, таблицу разброса значений оценок,

графическую зависимость Sа от объема n для различных оценок.


2. Выполнение в пакете STATISTICA

Оценивание по выборкам объема n = 10

Сформируем k =20 выборок объема n =10 и определим значения оценок a1, a2, a3 на каждой выборке.

Запустим пакет Statistica for Windows, выбрав в меню Basic Statistic/Tables. Îòâåòèì Cancel на предлагаемые запросы (если они будут).


Создание таблицы требуемых размеров

Из пункта меню File выберем команду New Data; укажем имя файла для сохранения будущей информации, например ESTIM--ÎÊ. Теперь на экране таблица 1010, где каждый столбец представляет переменную (название ее вынесено в заголовок столбца). преобразуем эту таблицу к размерам 2010 (20 выборок по 10 наблюдений): кнопка Vars (переменные), или через меню Еditе-Variables, и во всплывшем меню выберем команду Add (добавить). На экране запрос о числе добавляемых переменных (столбцов) и о том, куда их поместить. добавим 10 переменных, проставив 10 в поле Number... to add (набором на клавиатуре или кнопками справа от поля; в поле Insert after укажем имя Var10, после которой будут вставлены в матрицу новые столбцы; затем ОК. Теперь можно убедиться (просмотром таблицы), что в ней 20 столбцов; кроме того, размеры таблицы (в данном случае, 20v*10c) всегда указаны и ее заголовке. Количество строк не изменяем: оно равно 10. Заметим, что если число строк (сase) или столбцов (variable) в таблице превышает необходимое, можно таблицу не уменьшать.


Генерация выборок

Последовательность действий:

клавиша Vars - All specs... (спецификация всех) - появляется окно-таблица, в первом столбце которой находятся названия переменных (var1, var2,..., var20), а в четвертом (Long Name) - функция расчета; выделим первую клетку этого столбца и введем

= rnd(10)

 генерация случайных чисел, равномерно распределенных на отрезке [ 0, 10 ]. Скопируем эту запись в буфер обмена:

Edit - Copy

(или кнопкой Copy), а затем перенесем ее в остальные клетки (со 2 по 20):

выделим очередную клетку - Edit - Past (или, короче, кнопкой Past) -...-закроем окно. Выполним сделанные назначения:

кнопка x = ? - All variables - OK.

Сохраним 2 - 3 первые выборки - столбца для того, чтобы в дальнейшем распечатать:

выделение 2 - 3 столбцов - File - Export Data - формат Text - File name: Samples (например).

Распечатать их можно и сразу:

File - Print - Variables (указать, какие именно). Заметим, однако, что сохранить эти выборки или распечатать было бы удобнее ниже, после транспонирования матрицы, чтобы иметь в распечатке горизонтальное расположение, а не вертикальное.


Определение значений оценок â1, â2 и â3 на 20 выборках..

Определим статистики, по которым вычисляются оценки:

выделим всю матрицу (щелчок мышью по клетке - пересечению заголовков строк и столбцов), затем трижды:

Edit - Block Stats/Columns- Sums (2 ðàç: Max’s, 3: Medians)

Можно иначе: правая клавиша мыши - Block Stats/Columns (блок статистик по колонкам) - Sums, (2 раз: Max’s, 3 - Medians).

В нижней части таблицы появляются 3 строки стребуемыми статистиками.

Для новых строк введем более удобные обозначения:

кнопка Cases-Names...-далее ясно.

Транспонируем нашу матрицу, которая теперь имеет размер 20v13с в матрицу 13v 20c (чтобы совершать действия со столбцами):

Edit - Transponse - Data File.

Добавим в матрицу 3 столбца (с 14 по 16 для значений оценок)

Vars - Add - Number of vars: 3 - after: 13

и определим значения оценки â1:

выделим 1-й новый столбец Newvar1 - кн. Vars - Current Specs... (спецификация) - Name: A1 - Long name, согласно (1):

= Z/10 SUM

Аналогично определим значения оценок â2 и â3 ; различными будут операторы; для â2 по (2):

= 11/10 MAX

для â3 по (3):

= 2 MEDIAN

Полученные результаты (столбцы a1, a2, a3) испытаний 3 оценок на 20 выборках сохраним, чтобы в дальнейшем распечатать:

выделим a1, a2, a3 - File - Export Data - формат Text - укажем, куда поместить и с каким именем (например, a1a2a3). Можно также сохранить или распечатать первые 2 - 3 выборки-строки.


характеристики разброса для оценок:

выделим столбцы a1, a2, a3 - Edit - Block Stats/Column - SDs (стандартное отклонение),

затем аналогично: Mins, Maxs. Выписываем результаты в табл.1, размах вычисляем.

Сравнение размахов w и стандартных отклонений Sа для 3 оценок показывает, что оценка â21, ... , хn) наиболее точна, а оценка â31, ... , хn) - наименее.


Сравнение оценок â2 и â3 графически:

Graphs - Stats 2D Graphs - Line Plots (Variables) - в окне 2D Line Plots: Variables: A2 - A3, Graphs Type : Multyple, F : t (подбор распределения) : off (выключить) - ОК.

Из графика (рис.1) видно, что значения оценок находятся в окрестности 10, и что оценка â2 имеет разброс меньше, чем â3 . Распечатаем этот график:

File - Print Graphs

Рис.1 Сравнение оценок â2 и â3.


Оценивание по выборкам объема n=40 и n=160

Повторим п. 3.1 для n = 40 и n = 160.


Итоговое сравнение

Сравнение Sa(n) трех оценок графически для значений n =10, 40, 160:

образуем 4 новых переменных длины 3:

n : со значениями 10, 40, 160 ,

Sa1, Sa2, Sa3: со значениями стандартного отклонения для трех оценок.

построим графики Sa(n):

âыделим переменные Sa1, Sa2, Sa3 - Graphs - Custom Graphs - 2D Graphs - введем для Plot1 X : N, Y : Sa1, для Plot2 X : N, Y : Sa2, для Plot3 X : N, Y : Sa3 - OK.

Наблюдаем три кривые Sa(n), как функции n (рис. 2); ясно, что оценка â2 наиболее точна, â3 - наименее. График выводим на печать:

File - Print Graphs.

Рис.2. Сравнение трех оценок по стандартному отклонению.





Случайные файлы

Файл
130869.rtf
23319-1.rtf
1640.rtf
10142.rtf
28489.rtf