Wissenschaftliche Methoden (SS 2017)
Auf Wunsch der Studierenden fand im Rahmen der Vorlesung "Wissenschaftliche Methoden" ein äußerst kurz gehaltener R-Crashkurs statt. Anbei finden Sie die Unterlagen hierzu.
(1) Skript zum R-Crashkurs
(2) Datensatzbeschreibungen "Toothgrowth" und "Swiss" (in Englisch)
(3) Hinweise zu Statistik-Software
Weiterführende Informationen zu R finden sich auch im Online-Tutorial auf dieser Website:
(1) Skript zum R-Crashkurs
###Datenimport###
# Eigener Datensatz kann über "Import Dataset" (siehe rechts "Environment") geladen werden
# Wichtige Anmerkung: Kommas werden in Punkte umgewandelt, damit statistische Analysen funktionieren. Hierzu wurde auch der Generator für den Import gezeigt.
###Beispieldatensatz laden###
data("ToothGrowth")
###Datensatz kennenlernen/analysieren###
ls(ToothGrowth)
str(ToothGrowth)
View(ToothGrowth)
by(ToothGrowth$len, INDICES = list(ToothGrowth$supp, ToothGrowth$dose), summary)
plot (ToothGrowth$dose,ToothGrowth$len)
plot(ToothGrowth)
###Bestimmung von Datentypen###
# Anmerkung: Es gibt folgende Datentypen: numeric, complex, logical, character, raw
mode(ToothGrowth$len)
###Neue Variable generieren/löschen###
attach(ToothGrowth)
ToothGrowth$neuevariable <- ToothGrowth$len/ToothGrowth$dose
View(ToothGrowth)
ToothGrowth$neuevariable <- NULL
###Basisanalysen###
###Welch Two Sample Test Nr. 1: Ist Orangensaft effektiver als Ascorbinsäure? (Zahnwachstum)###
t.test(len~supp, data=ToothGrowth)
# Interpretation: Erster t-Test zeigt, dass generell OS effektiver als AS ist.Null-Hypothese (Differenz = 0) kann verworfen werden -> Indikation für H1. Signifikanz/p-Wert jedoch schwach (-> t-Test für dose = 2.0 zeigt Ursache hierfür)
t.test(len~supp, data=ToothGrowth[ToothGrowth$dose==0.5,])
t.test(len~supp, data=ToothGrowth[ToothGrowth$dose==1.0,])
t.test(len~supp, data=ToothGrowth[ToothGrowth$dose==2.0,])
###Welch Two Sample Test Nr. 2: Besteht eine Korrelation zwischen Zahnlänge und Dosierung?###
# Schritt 1: Dosierungen definieren, die verglichen werden sollen, z.B. dose1 = 0,5 und 1 mg
dose1 <- subset(ToothGrowth, dose %in% c(0.5, 1.0))
dose2 <- subset(ToothGrowth, dose %in% c(0.5, 2.0))
dose3 <- subset(ToothGrowth, dose %in% c(1.0, 2.0))
# Schritt 2: Tests für dose 1 bis 3
t.test(len ~ dose, paired = F, var.equal = F, data = dose1)
t.test(len ~ dose, paired = F, var.equal = F, data = dose2)
t.test(len ~ dose, paired = F, var.equal = F, data = dose3)
# Interpretation: Bei allen t-Tests kann die H0 verworfen werden -> Indikation für H1
###Korrelationsanalyse###
cor (ToothGrowth$len, ToothGrowth$dose, method = c("pearson"))
cor (ToothGrowth$len, ToothGrowth$dose, method = c("kendall"))
cor (ToothGrowth$len, ToothGrowth$dose, method = c("spearman"))
###Regressionsanalyse###
# Anmerkung: Datensatz ToothGrowth ist nicht geeignet für eine Regressionsanalyse -> Neuer Datensatz "swiss"
###Datensatz kennenlernen/analysieren###
# Folgende Variablen sind enthalten:
# Fertility Ig, "common standardized fertility measure"
# Agriculture % of males involved in agriculture as occupation
# Examination % draftees receiving highest mark on army examination
# Education % education beyond primary school for draftees.
# Catholic % "catholic" (as opposed to "protestant").
# Infant.Mortality % live births who live less than 1 year.
data("swiss")
View(swiss)
plot(swiss)
cor(swiss)
###Einfache lineare Regression###
###Modellwahl###
# Anmerkung: Die Auswahl der Variablen, die ins Modell eingehen sollen, kann vorab per Akaikes Informationskriterium (AIC) erfolgen. Es gibt eine ganze Reihe weiterer Kriterien, die angelegt werden können.
step (lm(swiss$Fertility ~ swiss$Agriculture + swiss$Examination + swiss$Education + swiss$Catholic + swiss$Infant.Mortality))
regfert <- lm(formula = swiss$Fertility ~ swiss$Agriculture + swiss$Education + swiss$Catholic + swiss$Infant.Mortality)
###Ergebnisse###
regfert$coefficients
summary(regfert)
###Modellannahmen testen###
plot(regfert)
(2) Datensatzbeschreibungen "Toothgrowth" und "Swiss" (in Englisch)
Toothgrowth
In 1947 data measuring the effect of vitamin C on tooth growth in guinea pigs was collected.
The response is the length of odontoblasts (cells responsible for tooth growth) in 60 guinea pigs.
Each animal received one of three dose levels of vitamin C (0.5, 1, and 2 mg/day) by one of two delivery methods, (orange juice or ascorbic acid (a form of vitamin C and coded as VC).
-> Data
Swiss
Switzerland, in 1888, was entering a period known as the demographic transition; i.e., its fertility was beginning to fall from the high level typical of underdeveloped countries.
The data collected are for 47 French-speaking “provinces” at about 1888.
Here, all variables are scaled to [0, 100], where in the original, all but "Catholic" were scaled to [0, 1].
-> Data
(3) Hinweise zu Statistik-Software
Open Source:
R (freie Programmiersprache und zugleich Software-Umgebung)
RStudio (integrierte Entwicklungsumgebung und grafische Benutzeroberfläche für R; Bedienung mittels syntaxbasierten "Scripts")
Weitere freie Softwares (z. T. auch R-basiert)
Proprietäre Software:
Stata (Umfassende Software für empirische Analysen; Bedienung über Menü oder mittels syntaxbasierten "Do-Files")
SPSS (Umfassende Software für empirische Analysen; i. d. R. Bedienung über Menü)
EViews (Einsatzschwerpunkt: Zeitreihenanalyse)
MATLAB (Einsatzschwerpunkt: Numerische Berechnungen, insb. Matrizen)