Парная регрессия (183595)

Посмотреть архив целиком

Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.

Наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.

Парная регрессия – уравнение связи двух переменных у и x:


,


где у – зависимая переменная (результативный признак);

х – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия:.

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Регрессии, нелинейные по объясняющим переменным:

полиномы разных степеней

равносторонняя гипербола

Регрессии, нелинейные по оцениваемым параметрам:

  • степенная ;

  • показательная

  • экспоненциальная

Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.



Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно а и b:



Можно воспользоваться готовыми формулами, которые вытекают из этой системы:



Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии



и индекс корреляции - для нелинейной регрессии ():



Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.

Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:



Допустимый предел значений – не более 8 – 10%.

Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:



Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:



где – общая сумма квадратов отклонений;

сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);

остаточная сумма квадратов отклонений.

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R2:



Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

F-тест – оценивание качества уравнения регрессии – состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F-критерия Фишера. Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:



п – число единиц совокупности;

т – число параметров при переменных х.

Fтабл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно а принимается равной 0,05 или 0,01.

Если Fтабл < Fфакт, то H0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если Fтабл > Fфакт, то гипотеза Н0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:



Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики – tтабл и tфакт – принимаем или отвергаем гипотезу Hо.

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством



Если tтабл < tфакт, то Hо отклоняется, т.е. а, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если tтабл > tфакт, то гипотеза Но не отклоняется и признается случайная природа формирования a, b или .

Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя:

Формулы для расчета доверительных интервалов имеют следующий вид:



Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.

Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :


где


и строится доверительный интервал прогноза:


где


Задача:

По 22 регионам страны изучается зависимость розничной продажи телевизоров, y от среднедушевых денежных доходов в месяц, x (табл. 1):

региона

X

Y

1,000

2,800

28,000

2,000

2,400

21,300

3,000

2,100

21,000

4,000

2,600

23,300

5,000

1,700

15,800

6,000

2,500

21,900

7,000

2,400

20,000

8,000

2,600

22,000

9,000

2,800

23,900

10,000

2,600

26,000

11,000

2,600

24,600

12,000

2,500

21,000

13,000

2,900

27,000

14,000

2,600

21,000

15,000

2,200

24,000

16,000

2,600

34,000

17,000

3,300

31,900

19,000

3,900

33,000

20,000

4,600

35,400

21,000

3,700

34,000

22,000

3,400

31,000


Задание

  1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

  2. Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий.

  3. Оцените тесноту связи с помощью показателей корреляции и детерминации.

  4. С помощью среднего (общего) коэффициента эластичности дайте сравнительную оценку силы связи фактора с результатом.

  5. Качество уравнений оцените с помощью средней ошибки аппроксимации.

  6. С помощью F-критерия Фишера определите статистическую надежность результатов регрессионного моделирования. Выберите лучшее уравнение регрессии и дайте его обоснование.

  7. Рассчитайте прогнозное значение результата по линейному уравнению регрессии, если прогнозное значение фактора увеличится на 7% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости α=0,05.

  8. Оцените полученные результаты, выводы оформите в аналитической записке.

1. Поле корреляции для:

  • Линейной регрессии y=a+b*x:


Гипотеза о форме связи: чем больше размер среднедушевого денежного дохода в месяц (факторный признак), тем больше при прочих равных условиях розничная продажа телевизоров (результативный признак). В данной модели параметр b называется коэффициентом регрессии и показывает, насколько в среднем отклоняется величина результативного признака у при отклонении величины факторного признаках на одну единицу.

  • Степенной регрессии :



Случайные файлы

Файл
45727.rtf
128828.rtf
104237.rtf
pravonarush.doc
174676.rtf




Чтобы не видеть здесь видео-рекламу достаточно стать зарегистрированным пользователем.
Чтобы не видеть никакую рекламу на сайте, нужно стать VIP-пользователем.
Это можно сделать совершенно бесплатно. Читайте подробности тут.