#datascience

Datenanalyse mit R
Online-Tutorial für Anfänger

6.1. Vorbemerkung

In diesem Kapitel wird grundlegendes Wissen zur Visualisierung von Daten vermittelt. Grundsätzlich gilt, dass Grafiken in R programmiert werden. Für Anfänger geht dieser Umstand sicherlich mit signifikantem Einarbeitungsaufwand einher. Die nötige Geduld zahlt sich jedoch aus, weil mit R der Visualisierung von Daten fast keine bzw. nur die Grenzen des Anwenders gesetzt sind. So können mit R individualisierte und äußerst hochwertige Grafiken erstellt werden.

Mittlerweile gibt es auch innovative Zusatzpakete für Visualisierungen, die sonst erforderliche Programmierungen von Grafiken ersetzen bzw. vereinfachen, bspw.:

Eine Übersicht zu weiteren Paketen findet sich in Kapitel 1.3. "Nützliche Zusatzpakete".

6.2. Funktionen zur Erstellung von Grafiken

Wichtige Funktionen wie plot() legen die Grundstruktur von Grafiken fest. Die erzeugten Grafiken werden an das aktive Grafik-Fenster geschickt und dort angezeigt [in R-Studio im Fenster "plots" i. d. R. unten rechts]. Diese erzeugten Grafiken sind zwar vollständig, aber ergänzungsbedürftig.

Auch in diesem Kapitel wird auf den Datensatz "mtcars" zurückgegriffen [vgl. Kapitel 5 für eine Beschreibung des Datensatzes]. Einfaches Beispiel: Reichweite und PS

plot(mtcars$mpg, mtcars$PS)

Mit der Funktion plot() können die Daten auf verschiedene Art "geplottet" [= erzeugt] werden.
Im Folgendem finden sich vier grundlegende Beispiele, hier zunächst der R-Befehl:

par(mfrow = c(2,2))

plot(mtcars$mpg, main = "plot(mtcars$mpg)")
plot(mtcars$mpg, mtcars$PS, main = "plot(mtcars$mpg, mtcars$PS)")
plot(factor(mtcars$am), main = "plot(factor(mtcars$am))")
plot(factor(mtcars$am), mtcars$PS, main = "plot(factor(mtcars$am), mtcars$PS)")

Hinweise zum Befehl: 

Neben der wichtigen Funktion plot() existiert eine Vielzahl weiterer [elementarer] Grafikfunktionen.
Zum Beispiel:

6.3. Plot-Optionen [high level]

Für alle [elementaren] Grafikfunktionen gibt es sog. Optionen, mit denen die Grafiken verbessert werden können. Für die Funktion plot() sind u. a. folgende Optionen [high level] festlegbar:

Die wichtigsten Typen [Option "type"] sind in der folgenden Grafik zusammengefasst, hier zunächst der Befehl:

par(mfrow = c(2,4))
plot(mtcars$mpg, type = "l", main = "type = \"l\"")
plot(mtcars$mpg, type = "p", main = "type = \"p\"")
plot(mtcars$mpg, type = "b", main = "type = \"b\"")
plot(mtcars$mpg, type = "o", main = "type = \"o\"")
plot(mtcars$mpg, type = "h", main = "type = \"h\"")
plot(mtcars$mpg, type = "c", main = "type = \"c\"")
plot(mtcars$mpg, type = "s", main = "type = \"s\"")
plot(mtcars$mpg, type = "S", main = "type = \"S\"")

Zum besseren Einarbeiten in "die Welt der Optionen und Parameter" ist die R-Dokumentation [R-Hilfe] empfehlenswert, da dort die o. g. Optionen und weitere Parameter erläutert werden. Beispiel: Hilfe zur Funktion plot()

help(plot)

Im o. g. Beispiel "Reichweite und PS" bietet es sich bspw. an, dass eine Überschrift [main] und Achsenbeschriftungen [xlab, ylab] eingefügt werden. Hier der entsprechend ergänzte Befehl:

plot(mtcars$mpg, mtcars$PS,
main = "Meilen pro US-Gallone vs. PS",
xlab = "Meilen pro US-Gallone",
ylab = "PS")

6.4. Plot-Parameter [low level]

Neben den erläuterten Optionen [high level] gibt es eine große Vielzahl an Parametern [low level] mit denen Grafiken und deren Ausgabe weiter verbessert werden können. Für einen ersten Überblick eignet sich auch die R-Hilfe, die hier aus Platzgründen nicht als Screenshot dargestellt wird.

help(par)

Vorab lässt sich sagen, dass Parameter folgende Grafikelemente betreffen:

Häufig verwendete Grafikparameter sind bspw.:

Anbei findet sich das Beispiel "Reichweite und PS" unter Verwendung der Parameter col und pch.
Hier der [nochmals] ergänzte Befehl:

plot(mtcars$mpg, mtcars$PS,
main = "Meilen pro US-Gallone vs. PS",
xlab = "Meilen pro US-Gallone",
ylab = "PS",
col = "blue",
pch = 15)

text(15, 335, "Maserati Bora", adj = c(-0.1, 0.5))

Hinweise zum Befehl: