Лабораторные работы (Лабораторная работа №3)

Посмотреть архив целиком







Лабораторная работа №3

по курсу «Теория вероятностей

и математическая статистика»














Выполнил : студент группы А-13-03
Орлов Алексей Васильевич





Москва 2006


Определения

Пусть x1, ..., xn выборка , т.е. n независимых испытаний случайной величины X , имеющeй функцию распределения F(x / a), зависящую от параметра a, значение которого неизвестно. требуется оценить значение параметра a.

Оценкой â = (x1, ..., xn) называется функция наблюдений, используемая для приближенного определения неизвестного параметра. Значение â оценки является случайной величиной, поскольку (x1, ..., xn) случайная величина (многомерная).

Свойства оценок

1. Оценка â= (x1, ..., xn) называется состоятельной, если при n â a по вероятности при любом значении a.

2. Оценка â = (x1, ..., xn) называется несмещенной, если при любом a Mâ = M(x1, ..., xn) = a.

состоятельность - обязательное свойство используемых оценок. свойство несмещенности является желательным; многие применяемые оценки свойством несмещенности не обладают.

3. Оценка * называется оптимальной, если для неё средний квадрат ошибки

M(â- a)2= M[*(x1, ..., xn) - a]2= min M[(x1, ..., xn) - a]2

минимален среди всех оценок {}; здесь критерием качества оценки принят квадарт ошибки (â - a)2. В более общей ситуации, если критерием качества служит некоторая величина L(â, a), называемая функцией потерь (или функцией штрафа), то оптимальная оценка та, для которой минимальна величина ML(â, a); последняя есть функциея неизвестного a и называется функцией условного риска. Ясно, что оптимальной оценки может не существовать (так как характеристикой является функция, а не число).


Постановка конкретной задачи.

Пример. Пусть на заводе имеется большая партия из N (тысячи) транзисторов, используемых для сборки некоторого прибора. Выходные параметры прибора (например, надежность, уровень шума, вероятность выхода из режима и т.д.) зависят от обратных токов транзисторов; обратный ток у разных экземпляров различен, и потому можно считать его случайной величиной, причем, как известно технологам, распределённой равномерно в диапазоне от 0 до Imax, где Imax порог отбраковки, установленный на заводе - изготовителе транзисторов. Следовательно, выходные параметры прибора определяются величиной Imax. Предположим, что по каким-либо причинам значение Imax производителю приборов неизвестно. Ясно, что в этом случае из партии нужно случайным выбором извлечь n (сравнительно немного: десятки) транзисторов, измерить их ток, и по измерениям оценить Imax (неизвестный параметр а). Таким образом, возникает


Статистическая задача: по наблюдениям x1, ..., xn над случайной величиной , распределённой равномерно на отрезке [0, a], оценить неизвестный параметр a.

сравним три способа оценивания (три оценки):

оценку, полученную методом моментов,

â1 = , (1)

оценку, полученную методом максимального правдоподобия (после исправления смещённости),

â2 = max xi (2)

и оценку, полученную методом порядковых статистик,

â3 = 2 0.5 = x(k) + x(k+1), (3)

где 0.5 = выборочная квантиль порядка 0.5, т.е. выборочная медиана; x(k) член вариационного ряда с номером k; здесь полагаем n = 2k. Точность этих оценок можно сравнить теоретически и экспериментально (статистически).

Замечание. Точность, однако, не является единственным критерием качества оценок. Весьма важно, например, свойство устойчивости оценки к изменению закона распределения или к засорению; в этом смысле, как оказывается, â3 наиболее хороша, а â2 наименее; действительно, пусть, например, в нашу выборку случайно попало наблюдение, резко превосходящее все остальные (в случае с партией триодов, попался триод, не прошедший отбраковку); значение оценки â2 резко изменится, значение â3 почти не изменится.

Теоретическое сравнение оценок

Все три оценки несмещённые, что можно проверить методами теории вероятностей. определим дисперсии оценок :

Dâ1 = D( ) = ,

Dâ2 = D(max xi ) = ,

Dâ3 = D(x(k) + x(k+1)) ,


откуда ясно, что â2 наиболее точная оценка, а â3 наименее.

Поясним приведенные формулы для дисперсий .

Первая :

Dâ1 = = = = .


Вторая. определим функцию распределения статистики max xi :

F(z) P{ max xi < z} = P{x1 < z, ..., xn < z} = = ;

плотность распределения

p(z) = F(z) = , z[0, a].

Далее

Mâ 2 = M( max xi ) = = ,

Mâ22 = M=,

Dâ2 = Mâ22 (Mâ2)2=

Третья. используем теорему Крамера, согласно которой выборочная p - квантиль имеет дисперсию, равную приближенно , где xp истинная p-квантиль, f(x) - плотность распределения наблюдений выборки. В нашем случае (при n = 2k) статистика

0.5 (x(k) +x (k+1) ) m

является выборочной медианой (p = 0.5) , f(x0.5) = 1/a , â3 = 2m, и потому

Dâ3=Dm = =.











Статистическое сравнение оценок



Далеко не всегда удается аналитически вычислить дисперсию оценки. Как экспериментально определить, какой из оценок пользоваться? По одной выборке нельзя судить о разбросе значений оценки, поскольку значение всего одно; необходимо иметь несколько выборок, например, k = 20, (или хотя бы 5 10), оценить разброс значений для каждой оценки и предпочесть ту оценку (тот способ оценивания), для которой разброс меньше. Если же выборка всего одна, то следует (если n достаточно велико) разбить её случайным образом на несколько выборок, и по ним сравнивать качество оценок.

Сформируем k =20 выборок из распределения R[0, a=10] объема n для различных n=10, 40, 160 и определим разброс оценок. Характеристиками разброса значений а1,...,аk оценки â будем считать размах

w = max ai - min ai

и среднеквадратичное отклонение (ско)

Sa= , .





Оценивание по выборкам объема n = 10,40,160


Генерация выборок:







результаты (столбцы a1, a2, a3) испытаний 3 оценок на 20 выборках (n=10):