Лабораторные работы (man2ver2)

Посмотреть архив целиком

47



  1. Работа № 2. Выборки и их представление

    1. Основные понятия

Напомним, что такое выборка, вариационный ряд, эмпирическое распределение, группирование, гистограмма, выборочные характеристики и др.

Выборкой х1, ..., хn объема n из совокупности, распределенной по F(х), называется n независимых наблюдений над случайной величиной с функцией распределения F(x).

Вариационным рядом х(1) х(2) ... х(n) называется выборка, записанная в порядке возрастания ее элементов.

Каждому наблюдению из выборки присвоим вероятность, равную 1/n; получим распределение, которое называют эмпирическим; ему соответствует функция эмпирического распределения

= ,

где n(х) - число членов выборки, меньших х. Значение этой функции для статистики определяется тем, что при n

F(x)

(теорема Гливенко).

Выборки больших объемов труднообозримы; разобъем диапазон значений выборки на равные интервалы и подсчитаем для каждого интервала частоту- количество наблюдений, попавших в него; частоты, отнесенные к общему числу наблюдений n, называют относительными частотами; графическое представление распределения частот по интервалам гистограммой; накопленной частотой для данного интервала называют сумму частот данного интервала и всех тех, что левее его.

Числовые характеристики эмпирического распределения называются выборочными характеристиками: выборочные среднее (математическое ожидание), дисперсия:

= , s2=

выборочный момент порядка к:

mk = ;

выборочные квантили p порядка р - корни уравнения

F(p)=p,

которыми являются члены вариационного ряда

(p)=([np]+1),

где [nр] означает целую часть ; частным случаем (p = 0.5) является выборочная медиана - центральный член вариационного ряда. Значение выборочных характеристик состоит в том, что при n они стремятся к истинным значениям распределения F(х).

Приведем с помощью пакетов примеры. Исходные данные находятся в табл.1 ( E(a) в таблице означает показательное (экспоненциальное) распределение с математическим ожиданием, равным a).

таблица1

¹

Закон

n

¹

Закон

n

1

R [0, 2]

50

0.03

14

N (1,4)

60

0.01

2

N(2, 0.25)

60

0.02

15

E (5)

70

0.03

3

E (3)

70

0.01

16

R [0.3]

80

0.1

4

R [1, 3]

80

0.02

17

N (1,4)

50

0.3

5

N (1, 1)

50

0.01

18

E (1)

60

0.2

6

E (2)

60

0.03

19

R [1,3]

70

0.03

7

R [2, 3]

70

0.01

20

N (1,1)

80

0.02

8

N (0, 4)

80

0.03

21

E (2)

50

0.01

9

E (3)

50

0.02

22

R [2,3]

60

0.02

10

R [0, 2]

60

0.03

23

N (2,1)

70

0.01

11

N [2, 1]

70

0.02

24

E (3)

80

0.03

12

E (4)

80

0.01

25

R [1,2]

50

0.01

13

R [1, 2]

50

0.02






Описание двумерных выборок

Пример. В табл.2 приведены результаты химического анализа 32 образцов сланцевых пород на содержание двуокиси кремния (SiO2x) и двуокиси алюминия (Al2O3y).

Построим диаграмму рассеяния для этой выборки, определим выборочные характеристики: среднее, дисперсии, коэффициент корреляции и построим диаграмму рассеяния и двумерную гистограмму.


Таблица 2

¹

X

Y

¹

X

Y

¹

X

Y

¹

X

Y

1

57.8

17.2

9

53.9

16.1

17

53.8

16.3

25

50.9

14.7

2

54.6

17.9

10

60

14.8

18

53.1

17.2

26

49.6

16.1

3

54.8

18.8

11

56.2

17

19

51.5

15.8

27

52.2

19.5

4

51.7

19.9

12

55.2

17.8

20

54

15

28

50.5

15.6

5

61.1

16

13

53.3

19.9

21

50.4

14.4

29

51.1

18.1

6

62.3

17.8

14

57.9

17.1

22

53

15.3

30

52.2

19,5

7

52.2

18.8

15

54

15.5

23

53.3

16.6

31

49.2

15.7

8

49.2

19.3

16

52.6

17.6

24

51.6

14.9

32

49.3

13.2


    1. Выполнение в пакете STATISTICA


Генерация выборки

Сгенерируем, например, выборку объема n =50 с показательным распределением со средним значением 5.

Создадим новый файл:

File - New Data - укажем имя файла в окне File Name : descript (например) - OK. На экране сетка-таблица; в ее заголовке указаны название и размеры : 10v * 10c - ( 10 переменных ( variables ) - столбцов по 10 наблюдений ( cases ) - строк.

Преобразуем таблицу к размерам 150:

кнопка Vars (на экране) - Delete; окно Delete Variables: укажем какие переменные- столбцы убрать : From variable : var 2, To variable : var 10 - OK - Кнопка Cases - Add ( добавление ) - окно Add Cases: укажем, сколько строк добавить и куда : Number of Cases to Add : 40, Insert after Case : 1 ( например ) - OK.

Сгенерируем выборку:

выделим столбец - переменную Var1 ( щелчком мыши по ее заглавию) - нажмем правую клавишу - в открывшемся меню выберем Variable specs ( спецификации переменной ) - в появившемся окне Variable 1 введем Name x ( например ) , в нижнем поле Long name вводится выражение, определяющее переменную. Ввод можно сделать набором на клавиатуре или с помощью клавиши Functions, выбирая в меню Kategory и Name требуемую функцию и вставляя клавишей Insert. Для задания закона распределения следует ввести, например,

=rnd(2) для R[0, 2],

=Vnormal(rnd(1); 2; 0.5 ) для N(2, 2=0.52),

=VExpon(rnd(1); 0.2 ) для E(5) со средним 1/0.2=5; (для нашего примера вместо значения параметра =0.2 можно набрать выражение 1/5).

Такая форма задания определяется способом генерации: с помощью функции, обратной (буква V) к функции распределения и генератора случайных чисел R[0, 1] ( rnd(1)).

Распечатаем выборку командой Print меню File.

Посмотрим выборку графически:

Graphs - Custom Graphs (настраиваемые графики) - 2D graphs - в открывшемся окне все можно оставить по умолчанию - .OK. Наблюдаемый график (рис.2) распечатаем.


Рис. 2. Наблюдения, распределенные по показательному закону со средним 5 (n = 50).


Построение вариационного ряда

Первый способ:

выделим требуемую переменную (столбец) - нажмем правую клавишу мыши - выберем Quiq Stats Graphs (быстрые статистики и графики) - Values / Stats of Vars (значения и статистики ) - наблюдаем вариационный ряд и выборочное среднее (mean) и стандартное отклонение ( SD ).

Второй способ:

войдем в модуль Data Menagement (двойной щелчек левой клавишей мыши на чистом поле и выбор модуля в окне Module Switcher; если модуль уже загружен, то Alt+Tab до появления модуля) - Analysis Sort - устанавливаем имя переменной, тип сортировки: Ascen (по возрастанию ) или Desc ( по убыванию) - OK.


Функция эмпирического распределения

Первый способ:

Graphs - Stats 2D Graphs - Histogram - в появившемся окне установим: Graph Type : Regular, Cumulative Counts (накопленные частоты), Fit Type (подбираемый тип) : Exponential (для нашего примера) или off (без подбора), Variablles: x, Categories (число интервалов группирования) : 250 - OK.

Наблюдаем график функции эмпирического распределения (рис. 3). График можно отредактировать: изменить линии, точки, фон, шкалы, надписи; для этого необходимо подвести стрелку в нужное иесто и дважды щелкнуть левой клавишей мыши. Выведем его на печать или сохраним.



Рис.3. Функция эмпирического распределения


Второй способ:

упорядочим по возрастанию нашу выборку (см. Построение вариационного ряда);

образуем новую переменную F для значений функции:

клавиша Var - Add - ... ( см. Генерация выборки) - выделим новую переменную NEWVAR - правая клавиша мыши - Variable Specs ... - Name: F - Long name:

= V0/50

(оператор V0 создает массив целых чисел) ; построим график:

Graphs - Custom Graphs - 2D Graph - в новом окне установим: в поле X: x, в поле Y: F, Step Plot (ступеньки, но не Line Plot - линии) - OK.

Наблюдаем функцию эмпирического распределения (с точностью до мелкого группирования с 250 интервалами).


Группирование данных

Analysis Frequency Tables - в окне Frequency Tables зададим No of exact intervals: 10 (10 интервалов группирования; или Step size: 2, starting at: 0), в поле Display options отметим Cumulative frequences ( накопленные частоты ), Percentages (проценты - относительные частоты), Cumulative Percentages (накопленные частоты ) - OK.

Наблюдаем таблицу группированных данных. Выведем ее на печать или сохраним.


Построение гистограммы частот

Graphs - Stats 2D Graphs - Histograms - в появившемся окне устанавливаем: имя переменной, Graph Type: Regular, Fit Type; off ( без подбора ) или нужный тип, число интервалов группирования Categories: или Auto (автоматический выбор числа интервалов) - OK.

Наблюдаем гистограмму (рис. 4). Отредактируем график, если необходимо. Выведем на печать или сохраним.


Рис. 4. Гистограмма.


Выборочные характеристики

первый способ: на заголовке столбца с выборкой щелкнем правой клавишей мыши - Quick Basic Stats... - Descriptives of var - получаем таблицу с характеристиками: mean (среднее), Confid 95% ( доверительные границы нижняя и верхняя с уровнем доверия 0.95 ), Sum ( сумма ), Minimum, Maximum, Range ( размах ), Variance ( дисперсия ), Std. Dev. ( стандартное отклонение ) и др. Сравним выборочное среднее, медиану и стандартное отклонение с соответствующими теоретическими значениями. Это же можно сделать через меню: Anflisis - Quick Basic Stats ...

Второй способ: на заголовке столбца с выборкой щелкнем правой клавишей мыши - Block Stats / Columns (блок статистик по колонкам ) - выделим необходимое или All.


Описание двумерных выборок

Ввод данных: зададим новую таблицу 232, назовем столбцы X и Y. Заполним таблицу вручную заданными в табл.2 значениями.

Диаграмма рассеяния:

Graphs - Stats 2D Graphs... - Scatterplots... - вводим значения по осям X и Y (нажав на кнопку Variables и выбрав переменные ) - OK.

Распечатаем диаграмму (рис. 5) или сохраним.


Рис. 5. Диаграмма рассеяния


Выборочные характеристики.

Выделим те переменные, по которым требуются выборочные характеристики - щелкнем правой клавишей мыши - Quick Basic Stats - Descriptivs of VARS... Наблюдаем таблицу выборочных характеристик (тех же, что иыше). Отпечатаем таблицу или сохраним.

Выборочные характеристики можно внести в таблицу данных, в конец соответствующих столбцов. Выделим нужные столбцы, далее см. вторую часть п. Выборочные характеристики..

Определим корреляционную матрицу:

Analysis - Correlation matrices - Two lists - First list: All - Second list: All - OK - Cancel (отмена предложения на новую матрицу).

Матрицу отпечатаем или сохраним.

двумерная гистограмма (рис. 6).

Graphs - Stat 3D Sequential Graphs - Bivariate Gistogram - установим по осям X и Y требуемые переменные ( кнопкой Variables ), зададим число интервалов по каждой оси - OK.

Распечатаем гистограмму.


Рис. 6. Двумерная гистограмма.

    1. Выполнение в пакете SPSS

Предварительно отметим:

1) диалоги заканчиваются нажатием кнопок ОК, Define или Continue для исполнения или Cancel для отмены;

  1. кнопка со стрелкой (треугольником) означает перемещение выбранного элемента из одного списка в другой в направлении стрелки.


Генерация выборки

Сгенерируем 2 выборки с заданными законами распределения, например, выборки объема n = 50 c нормальным законом распределения со средним 5 и стандартным отклонением 1 и показательным (экспоненциальным) законом со средним 5.

Заготовим таблицу с 2 столбцами и n = 50 строками:

на экране таблица с пустыми клетками; прокрутим ее до 50-й строки и выделим клетку во 2-м столбце - введем любой символ, например, точку - Enter. Таблица 50 2 образована.

Создадим соответствующий файл на диске в D:\TMP:

File - New - Data - на вопрос save ...? отвечаем Yes - в окне Save As Data File : Name : D:\TMP WORK. SAV (например) - ОК.

Присвоим переменным удобные имена х1 и х2:

выделим первый столбец, кликнув мышью по заголовку - Data - Define Variable...(определение переменной) - Variable Name: x1 - OK.

Аналогично - второй столбец.

Сгенерируем выборку с нормальным распределением:

Transform (преобразование) - Compute (вычислить) - в поле Target Variable (выходная переменная - столбец) введем имя переменной, в которую будет занесен результат: х1; в списке Functions выделим NORMAL (stddev) (standart deviation - стандартное отклонение), перенесем в поле Numeric Expression (вычисляющее выражение): NORMAL (1) + 5 - OK - Change...? - OK.

Сгенерируем в х2 выборку с показательным распределением со средним 5: действия аналогичны предыдущим, однако, Numeric Expression:

- 5 LN (UNIFORM (1)),

поскольку случайная величина - a ln,, где R [0, 1], имеет показательное распределение со средним а; оператор UNIFORM (x) генерирует равномерно на [0, x] распределенные случайные числа.

Посмотрим выборку графически:

Graphs - Line - выберем Simple (простой), в поле Data in Chart Are (данные для графика) выберем Values of individual cases (значения отдельных наблюдений) - Define - â появившемся окне Define Simple из левого списка переместим кнопкой - стрелкой х1 в поле Line Represent - OK.

Наблюдаем график; его можно отредактировать (кнопка Edit); сохраним его:

File - Save As - Name: Fig1.cht. (например) - ОК

или распечатаем: File -Print...

Посмотрим выборку х2: действия аналогичны.

Сохраненные графики можно посмотреть еще раз:

File - Open - Chart ... - в поле Files: выделим Fig1 - OK.


Построение вариационного ряда

Data - Sort Cases... - в поле Sort by: x1 (переносом из левого списка), в поле Sort Orden: Ascending (возрастание, в отличие от Descending - сортировка по убыванию) - ОК. Сортировка проводится по указанной переменной - столбцу х1, но сразу для всех столбцов.


Построение графика функции эмпирического распределения

Сначала построим график для выборки х1:

Statistics - Summarize - Frequencies...- в поле Variable(s): x1, отметим Display frequency tables (показ таблицы частот) - ОК. В окне Output (выход - окно результатов и протокола работы) появляется таблица, первый столбец которой Value (значение) - вариационный ряд, пятый - Cum. Percent (накопленные частоты в процентах) - соответствующие значения функции эмпирического распределения в процентах. Переносим столбец Value в таблицу WORK:

выделяем столбец Value (если в столбце Value имеются пустые клетки, следует выделить соответствующие строки и их удалить) - Edit - Copy (копирование в буфер) - выделяем в таблице WORK первый справа свободный столбец: Var - Edit - Past (вставить) - получаем новый столбец с вариационным рядом. Для удобства присвоим ему имя х1v (например) (выполнение см. выше).

Аналогично переносим столбец Cum. Percent и назовем его F (например). Строим график: Graphs - Scatter...- Simple - Define - Yaxis: F, X Axis: x1v - OK - Edit - кнопка * в окне Markers (метки) выберем точку , Apply All - закроем окно Markers - кнопка и линии (в виде зигзага) - выберем Left step (левые ступеньки), Apply All - Close.

Наблюдаем функцию эмпирического распределения; сохраняем график или распечатываем.

Аналогично строим функцию эмпирического распределения для выборки х2. Сравниваем эти две функции.


Построение гистограммы частот

Построим гистограмму для выборки х1: Graphs - Histogram...- Variable: x1 - OK. Наблюдаем гистограмму; сохраним ее или распечатаем.

Аналогично - для х2.


Определение выборочных характеристик

Statistics - Summarize - Descriptives...- Variable(s): x1, x2, убираем выделения внизу - Options - отмечаем нужное: Mean, Sum, Std. Deviation (стандартное отклонение), Range (размах), Minimum, Maximum - Continue - OK.

Наблюдаем таблицу, в которой показаны отмеченные характеристики для обеих выборок. Выделяем таблицу и сохраняем ее:

File - Save As - Name: Descr. Lst (например) - ОК. Сравниваем выборочные средние и стандартные отклонения с теоретическими.


Проверка гипотезы о типе распределения

Проверим обе наши выборки с помощью критерия Колмогорова - Смирнова на нормальность распределения и равномерность:

Statistics - Nonparametric Tests - 1 Sample K - S - в поле Test Variable List: x1, x2 (переносом из списка слева), в поле Test Destribution отметим Normal, Uniform - OK.

В окне Output даются результаты тестирования двух выборок по двум гипотезам: итого 4 сообщения. Например, результат тестирования х1 на нормальность (Test distribution - Normal): приводятся параметры гипотетического распределения (оценки) Mean è Standart Deviation; статистика Dn Колмогорова (Most estreme differences Absolute), z = Dn (K – S Z) и уровень значимости 2 – Tailed P; если последний порядка сотых долей или меньше, гипотезу следует отклонить.

Выписываем упомянутые значения и делаем выводы.

Заметим, что такой способ проверки при отклонении гипотезы можно считать корректным, а при принятии - это не совсем так (см. более подробные руководства по статистике).


Описание двумерных выборок

а) Ввод данных: в свободные два столбца введем с клавиатуры данные из табл. 2; назовем их x и y.

б) Диаграмма рассеяния:

Graphs - Scatter...- Simple - Define - X Axis: x, Y Axis: y - OK.

Наблюдаем диаграмму; сохраним ее или распечатаем.

в) Выборочные характеристики.

Некоторые характеристики см выше.

Определение корреляционной матрицы:

Statistics - Correlate - Bivariate - в поле Variables: x, y (переносом из левого списка), Correlation Coefficients: Pearson Test of Significance: Two - tailed (двусторонний тест Пирсона на значимость отличия от нуля) - ОК.

В окне Output имеем таблицу 2 2 коэффициентов корреляции и уровней значимости Р; если Р порядка сотых долей или меньше, гипотезу о нулевом значении коэффициента следует отклонить. Если Р порядка 0.1 или более, коэффициент корреляции следует считать нулевым. Матрицу выделяем и сохраняем ее или распечатываем.

г) Трехмерная диаграмма.

Для примера образуем третью переменную (столбец) z, равную x + y.

Построим диаграмму:

Graphs - Scatter...- 3D - Define - X Axis: x, Y Axis: y, Z Axis: z - OK.

Наблюдаем трехмерную диаграмму. Будем изменять точку обозрения: Edit - Spin - вращаем трехмерную совокупность с помощью 6 кнопок, находим удачную точку - End Spin.

Сохраняем рисунок или распечатываем.

47




Случайные файлы

Файл
114699.rtf
103243.rtf
15170.rtf
47093.rtf
16805.rtf