#datascience

Datenanalyse mit R
Online-Tutorial für Anfänger

1.1. Vorbemerkung

R ist eine freie Programmiersprache und zugleich Software-Umgebung, die für statistische Analysen und grafische Visualisierung eingesetzt wird. Damit unterscheidet sich R von den meisten klassischen Statistik-Programmen, weil dort nur die Auswahl von fix vorgegebenen statistischen Prozeduren und die Veränderung weniger Parameter möglich ist. Auch die in anderen Programmen nachträglich geschaffenen Möglichkeiten für Programmierung helfen nicht viel, denn es fehlen sog. Sprachelemente. Bei der Nutzung von R erleichtern ebendiese den Umgang mit Daten, die Datenaufbereitung und die statistischen Berechnungen erheblich.

Zudem ist bei proprietärer Software grundsätzlich problematisch, dass die interne Programmierung durch die Nutzer nicht einsehbar ist und damit nicht überprüft werden kann. Hingegen ist der Quellcode von R frei zugänglich [Open Source] und damit prinzipiell überprüfbar.

1.2. Installation von R und RStudio

Schritt 1: Installation von R

R steht für viele Betriebssysteme bereit, u. a. Linux, macOS und Windows. Der Nutzer wird [zumindest unter Windows] schrittweise durch den Installationsprozess geführt. Vorab ist es sinnvoll, wenn ein zentrales Arbeitsverzeichnis angelegt wird, wo alle Dateien gespeichert sind bzw. gespeichert werden sollen. 

Für den Download einen Server auswählen: 


Schritt 2: Installation von RStudio

Ergänzend zur Installation von R sollte auch die grafische Benutzeroberfläche RStudio [oder eine andere externe Benutzeroberfläche] installiert werden, denn sie erleichtert die Programmierung, u. a. durch Autovervollständigung, automatische Einrückungen, Syntax-Hervorhebungen oder Hilfsfunktionen. 

Auch RStudio steht für die gängigen Betriebssysteme bereit und ist frei zugänglich [Open Source]. RStudio setzt eine funktionierende Installation von R [derzeit Version 3.0.1 oder höher] voraus. Die Desktop-Version von RStudio steht hier zum Download bereit:

1.3. Nützliche Zusatzpakete

In der herunterladbaren Distribution von R sind bereits 29 grundlegende Pakete [Basispakete] enthalten, die für den Anfang ausreichend sind. Der Funktionsumfang von R kann jedoch durch zusätzliche Pakete [und vor allem auch selbst programmierte Lösungen] erweitert werden. Ein erster Einblick in die weite Welt der Pakete findet sich bspw. hier:

Die Installation und Aktivierung von zusätzliche Paketen ist ohne größeren Aufwand machbar, wenn man weiß wonach man genau sucht. Es gibt derzeit mehr als 15 Tsd. Pakete, die eine Vielzahl an Themen abdecken, insbesondere:

Nützliche Pakete[sammlungen] für Data Science und z. T. spezifische Analysen im Finanzsektor sind:

1.4. Erste Schritte

Schritt 1: Start von RStudio

Nach erfolgreichen Installation [von R und RStudio] ist der Start von RStudio möglich. Ein gesonderter Start von R ist hierfür nicht erforderlich. In Windows findet sich i. d. R. ein Icon auf dem Desktop oder im Startmenü. Bei anderen Betriebssystemen kann man "rstudio" in ein Terminal tippen, um es zu starten.

Die nun geöffnete Arbeitsumgebung von RStudio besteht im Standard-Layout aus vier Bereichen bzw. Fenstern:

Hinweis vorab: Das Erscheinungsbild von RStudio kann nach Belieben verändert werden. Im Screenshot sieht man bspw. weiße Schrift auf schwarzem Hintergrund. Eine Anpassung kann oben in der Menüleiste unter "Tools" [ → Global Options → Appearance] vorgenommen werden.

Schritt 2: R-Skript nutzen

Zunächst ist es sinnvoll ein R-Skript zu erstellen, um den eigenen Programmcode zu sichern. 

Neben dem Programmcode können im Skript auch Kommentare hinzugefügt werden, denen das Symbol # vorangestellt werden muss [damit sie als solche erkannt werden]. Es bietet sich an die Kommentare zur Strukturierung und für Erläuterungen zu nutzen. So kann man sich auch nach längerer Auszeit besser zurecht finden und Dritte können die Programmierung leichter nachvollziehen. Zudem helfen Einrückungen längere Befehlszeilen [oder komplexere Programmierungen] übersichtlicher zu strukturieren. 

Schritt 3: Beispiel ausprobieren

Das nachfolgende Beispiel kann per Copy & Paste in das neu erstellte R-Skript eingefügt werden, dann lässt man es "laufen". Hier gibt es mehrere Wege, die zum Ziel führen. Mein Vorschlag: