Datenanalyse mit R

Online-Tutorial für Anfänger

2.1. Vorbemerkung

In diesem Kapitel wird eine kurze Zusammenfassung zu den verschiedenen Datenobjekten in R gegeben. Alle Datenobjekte sind Vektoren, die eine gewisse Struktur aufweisen. Ebendiese wird durch

  • die Länge des Vektors und

  • den Modus der einzelnen Vektorelemente und des ganzen Vektors charakterisiert.

  • Neben den beiden grundlegenden Eigenschaften Länge und Modus gibt es spezielle Objekt- und Datentypen.

2.2. Länge und Modus

Die Länge eines Vektors ist nicht-negativ und endlich. Sie heißt n. Erwähnenswerte Spezialfälle sind:

  • Nullvektoren (n = 0)

  • Skalare (n = 1)

Die Elemente eines Vektors können die folgenden sieben Modi haben:

  • logical → boolesche Werte, d. h. TRUE oder FALSE

  • numeric: integer → ganze Zahlen, bspw. 5 oder -4

  • numeric: double → Fließkommazahlen, bspw. 2.3 oder 4.5e8
    (Achtung: In R fungieren Punkte als Dezimalzeichen)

  • complex → komplexe Zahlen, bspw. -5 + 4i

  • character → Zeichenketten, bspw. abc123

  • raw → Byte

  • list → Falls die Elemente eines Vektors unterschiedliche Modi haben, spricht man von "rekursiven" Vektoren mit dem Modus list (kurz: Listen). Listen sind gängige und wichtige Datenobjekte in R. Falls alle Elemente eines Vektors den selben Modus 1 bis 6 (wie der ganze Vektor) haben, spricht man von "atomaren" Vektoren.

2.3. Spezielle Objekt- und Datentypen

Objekttypen:

  • factor → Objekttyp ermöglicht die gemeinsame Speicherung von zwei Informationen (level, label) in nur einer Variable: level hat meistens den Modus numeric (integer), z. B. 1, 2, und Label

  • arrays → ähneln Vektoren, erlauben zudem die Erzeugung höherdimensionaler Objekte. In der Praxis werden Arrays genutzt, um Matrizen (2-dimensionale Arrays; alle Elemente haben den gleichen Modus) zu erzeugen.

  • dataframe → eine Liste mit atomaren Vektoren gleicher Länge

  • xts → Datentyp (bzw. Paket) für Zeitreihenanalysen, z. B. hilfreich bei der Analyse von Aktienkursen


Datentypen:

  • NA → fehlende Werte

  • NULL → leere Werte

  • Inf → zu große Zahl bzw. unendlich (zumindest wenn es nach R geht)

  • NaN → mathematisch nicht definiert