avangard-pressa.ru

Задача о сравнении центров распределения в двух выборках при неизвестных законах распределения. Непараметрические критерии. Критерий Манна – Уитни. - Математика

Теория:

Практика в R:

myx <- read.table("C:\\Users\\Roman\\Desktop\\Education\\R\\data.txt", header=TRUE, fill=TRUE);

qqnorm(myx$MYXA30)

qqnorm(myx$MYXA60)

qqnorm(log(myx$MYXA30))

qqnorm(log(myx$MYXA60))

t.test(log(myx$MYXA30),log(myx$MYXA60)) # Средние не отличаются статистически

#См. 18 вопрос.

wilcox.test(myx$MYXA30, myx$MYXA60, pair = FALSE, alt = "two.sided") #Манна-Уитни - критерий Уилсона использующий ранговые суммы

Wilcoxon rank sum test with continuity correction

data: myx$MYXA30 and myx$MYXA60

W = 121, p-value = 0.8061

Alternative hypothesis: true location shift is not equal to 0

Задача о сравнении центров распределения в нескольких выборках при неизвестных законах распределения. Критерий Краскалла – Уоллиса. Работа с критерием в пакете R.

Теория:

Практика в R:

x = c(2.4,3.8,1.3,2.5,1.1,2.2,3.9, 3.1,3.4,2.6,3.8,4.1,1.7, 1.5,3.8,4.3,2.1,4.6,4.4,2.5,2.0);

grp = rep (c('SOWI', 'TNF', 'REWI'), c(7, 6, 8)); #повторяем первый вектор столько раз, сколько записано на той же позиции во 2 векторе

d = data.frame(x, grp)

bp = boxplot(x ~ grp, d)

kruskal.test(x ~ grp, d)

Kruskal-Wallis rank sum test

Data: x by grp

Kruskal-Wallis chi-squared = 1.712, df = 2, p-value = 0.4249

Таблицы сопряженности признаков. Критерий независимости хи-квадрат для проверки независимости двух переменных. Оценки максимального правдоподобия при нулевой гипотезе. Работа с критерием в пакете R.

Теория:

Практика в R:

tab = matrix(c(2161, 3577, 2184, 1636, 2755, 5081, 2222, 1052, 936, 1753, 640, 306, 225, 419, 96, 38, 39, 98, 31, 14), ncol=4, byrow=T)

chisq.test(tab)

Pearson's Chi-squared test

Data: tab

X-squared = 568.57, df = 12, p-value < 2.2e-16

Непараметрические критерии независимости. Ранговый критерий независимости Спирмена. Работа с критерием в пакете R.

Теория:

, где среди всех x, среди всех y.

Если гипотеза о независимости имеет место, т.е.:

тогда имеем две независимые на удачу взятые перестановки.

Можно вычислить ковариацию между рангами:

Ранговая корреляция Спирмена:

(выборочная ковариация)

При распределение стремится к нормальному.

Практика в R:

cor.test(trees$Volume, trees$Girth, method='spearman')

Spearman's rank correlation rho

data: trees$Volume and trees$Girth

S = 224.61, p-value < 2.2e-16

Alternative hypothesis: true rho is not equal to 0

sample estimates:

Rho

0.9547151

Непараметрические критерии независимости. Критерий независимости Фишера. Работа с критерием в пакете R.

Теория:

Практика в R:

tab = matrix(c(1, 8, 10, 4), ncol=2, byrow=T)

fisher.test(tab)

Fisher's Exact Test for Count Data

Data: tab

p-value = 0.009423

Alternative hypothesis: true odds ratio is not equal to 1

95 percent confidence interval:

0.001034782 0.656954980

sample estimates:

Odds ratio

0.05851868

Модель Гаусса – Маркова простой линейной регрессии. Оценка параметров и анализ остатков. Решение данных задач в пакете R.

Теория:

Регрессия – отыскание функциональной зависимости между переменными при неслучайных входах .

– объясняющие, независимые переменные

– выходные, зависимые переменные, отклик на воздействие

Пусть все переменные – числовые

,

, - погрешность

1. МНК и интерполяция. При неслучайных входных данных

2. x,y – случайные величины

– случайный вектор

– уравнение регрессии Y на

Пример

X – рост отца

Y – рост сына

( – линейная функция от x)

Модель Гаусса-Маркова

,

(1 вход и 1 выход)

– неслучайная величина

– н.о.р.

Неизвестные параметры

– наблюдаемые погрешности