Лабораторные работы (man8full)

Посмотреть архив целиком

Московский Энергетический Институт

(Технический Университет)















Лабораторная работа №8

по курсу:


«Теория вероятностей и математическая статистика»















студент: Ясенков Е.М.

группа: А-13-03







Москва 2007

Работа № 8. Линейный регрессионный анализ


В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных

X (x1 , ..., xp) и Y = (y1 ,..., ym).

Предполагается, что Х - независимые переменные (факторы, объясняющие переменные) влияют на значения Y - зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным (Xi , Yi), i = 1, ..., n требуется построить функцию f (X), которая приближенно описывала бы изменение Y при изменении X:

Y f (X).

Предполагается, что множество допустимых функций, из которого подбирается f (X), является параметрическим:

f (X) = f (X, ),

где - неизвестный параметр (вообще говоря, многомерный). При построении f (X) будем считать, что

Y = f (X, ) + , (1)

где первое слагаемое - закономерное изменение Y от X, а второе - - случайная составляющая с нулевым средним; f (X, ) является условным математическим ожиданием Y при условии известного X и называется регрессией Y по X.

1. Простая линейная регрессия

Пусть X и Y одномерные величины; обозначим их x и y, а функция f(x, ) имеет вид f (x, ) = A + bx, где = (A, b). Относительно имеющихся наблюдений (xi , yi), i = 1, ..., n, полагаем, что

yi = A + bxi + i , (2)

где 1 , ..., n - независимые (ненаблюдаемые) одинаково распределенные случайные величины. Можно различными методами подбирать “лучшую” прямую линию. Широко используется метод наименьших квадратов. Построим оценку параметра = (A, b) так, чтобы величины

ei = yi f (xi, ) = yi A bxi ,

называемые остатками, были как можно меньше, а именно, чтобы сумма их квадратов была минимальной:

= min по (A, b) (3)

Чтобы упростить формулы, положим в (2) xi = xi ; получим:

yi = a + b (xi ) + i , i = 1, ..., n, (3)

где = , a = A + b. Сумму минимизируем по (a,b), приравнивая нулю производные по a и b; получим систему линейных уравнений относительно a и b. Ее решение () легко находится:

, где , (4)

. (5)


Свойства оценок. Нетрудно показать, что если Mi = 0, Di = 2 , то

1) M= а, М= b, т.е. оценки несмещенные;

2) D= 2 / n, D= 2 / ;

3) cov () = 0;

если дополнительно предположить нормальность распределения i , то

4) оценки и нормально распределены и независимы;

5) остаточная сумма квадратов

Q2 = (6)

независима от (,), а Q2 / 2 распределена по закону хи-квадрат с n-2 степенями свободы.

Оценка для 2 и доверительные интервалы. Свойство 5) дает возможность несмещенно оценивать неизвестный параметр 2 величиной

s2 = Q2 / (n-2). (7)

Поскольку s2 независима от и , отношения

и , где ,

имеют распределение Стьюдента с (n-2) степенями свободы, и потому доверительные интервалы для a и b таковы:


, , (8)

где tp - квантиль уровня (1 + PД) / 2 распределения Cтьюдента с n - 2 степенями свободы, PД - коэффициент доверия.

Проверка гипотезы о коэффициенте наклона. Обычно возникает вопрос: может быть, y не зависит от х, т.е. b = 0, и изменчивость y обусловлена только случайными составляющими i ? Проверим гипотезу Н: b = 0. Если 0 не входит в доверительный интервал (8) для b, т.е.

, (9)

то гипотезу Н следует отклонить; уровень значимости при этом = 1 PД.

Другой способ (в данном случае эквивалентный (9)) проверки гипотезы Н состоит в вычислении статистики

F = , (10)

распределенной, если Н верна, по закону F (1, n 2) Фишера с числом степеней свободы 1 и n 2. Если

F > F1 , (11)

где F1 - квантиль уровня 1 распределения F (1, n - 2), то гипотеза Н отклоняется с уровнем значимости .


Вариация зависимой переменной и коэффициент детерминации. Рассмотрим вариацию (разброс) Tss (total sum of square) значений yi относительно среднего значения

Tss = .

Обозначим предсказанные с помощью функции регрессии значения yi: . Сумма Rss (regression sum of square)

Rss =

означает величину разброса, которая обусловлена регрессией (ненулевым значением наклона ). Сумма Ess (error sum of squares)

Ess =

означает разброс за счет случайных отклонений от функции регрессии. Оказывается,

Tss = Rss + Ess ,

т.е. полный разброс равен сумме разбросов за счет регрессии и за счет случайных отклонений. Величина Rss / Tss - это доля вариации значений yi , обусловленной регрессией (т.е. доля закономерной изменчивости в общей изменчивости). Статистика

R2 = Rss / Tss = 1 Ess / Tss

называется коэффициентом детерминации. Если R2 = 0, это означает, что регрессия ничего не дает, т.е. знание х не улучшает предсказания для y по сравнению с тривиальным. Другой крайний случай R2 = 1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой. Чем ближе к 1 значение R2 , тем лучше качество подгонки.


Пример. В табл. 1 приведены данные по 45 предприятиям легкой промышленности по статистической связи между стоимостью основных фондов (fonds, млн руб.) и средней выработкой на 1 работника (product, тыс. руб.); z - вспомогательный признак: z = 1 - федеральное подчинение, z = 2 - муниципальное (файл Product. Sta.).

Таблица 1

fonds

product

z

fonds

product

z

fonds

product

z

6,5

18,3

1

9,3

17,2

2

10,4

21,4

2

10,3

31,1

1

5,7

19,0

2

10,2

23,5

2

7,7

27,0

1

12,9

24,8

2

18,0

31,1

2

15,8

37,9

1

5,1

21,5

2

13,8

43,2

2

7,4

20,3

1

3,8

14,5

2

6,0

19,5

2

14,3

32,4

1

17,1

33,7

2

11,9

42,1

2

15,4

31,2

1

8,2

19,3

2

9,4

18,1

2

21,1

39,7

1

8,1

23,9

2

13,7

31,6

2

22,1

46,6

1

11,7

28,0

2

12,0

21,3

2

12,0

33,1

1

13,0

30,9

2

11,6

26,5

2

9,5

26,9

1

15,3

27,2

2

9,1

31,6

2

8,1

24,0

1

13,5

29,9

2

6,6

12,6

2

8,4

24,2

1

10,5

34,9

2

7,6

28,4

2

15,3

33,7

1

7,3

24,4

2

9,9

22,4

2

4,3

18,5

1

13,8

37,4

2

14,7

27,7

2

Результаты эксперимента:


Диаграмма рассеяния:



Регрессионный анализ: