Erkunden der Pandas-Bibliothek von Python zur Datenanalyse

Pandas ist eine leistungsstarke Python-Bibliothek zur Datenmanipulation und -analyse. Sie bietet Datenstrukturen und Funktionen, die für die nahtlose Arbeit mit strukturierten Daten erforderlich sind. Mit seinen benutzerfreundlichen Datenstrukturen ist Pandas besonders nützlich für die Datenbereinigung, -transformation und -analyse. Dieser Artikel untersucht die Kernfunktionen von Pandas und wie Sie damit Daten effizient verarbeiten können.

Erste Schritte mit Pandas

Um Pandas verwenden zu können, müssen Sie es mit pip installieren. Sie können dies tun, indem Sie den folgenden Befehl ausführen:

pip install pandas

Kerndatenstrukturen

Pandas bietet zwei primäre Datenstrukturen: Series und DataFrame.

Serie

Eine Serie ist ein eindimensionales arrayähnliches Objekt, das verschiedene Datentypen enthalten kann, darunter Ganzzahlen, Zeichenfolgen und Gleitkommazahlen. Jedes Element in einer Serie hat einen zugehörigen Index.

import pandas as pd

# Creating a Series
data = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print(data)

Datenrahmen

Ein DataFrame ist eine zweidimensionale, größenveränderliche und heterogene tabellarische Datenstruktur mit beschrifteten Achsen (Zeilen und Spalten). Es handelt sich im Wesentlichen um eine Sammlung von Serien.

# Creating a DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

Datenmanipulation

Pandas bietet zahlreiche Funktionen zur Datenbearbeitung, darunter Indizierung, Slicing und Filterung.

Indizieren und Slicen

# Selecting a single column
print(df['Name'])

# Selecting multiple columns
print(df[['Name', 'City']])

# Selecting rows by index
print(df.loc[0])  # First row
print(df.iloc[1]) # Second row

Filtern von Daten

# Filtering data based on conditions
filtered_df = df[df['Age'] > 30]
print(filtered_df)

Datenbereinigung

Die Datenbereinigung ist ein entscheidender Schritt bei der Datenanalyse. Pandas bietet mehrere Methoden zum Umgang mit fehlenden Daten, doppelten Datensätzen und zur Datentransformation.

Umgang mit fehlenden Daten

# Creating a DataFrame with missing values
data = {
    'Name': ['Alice', 'Bob', None],
    'Age': [25, None, 35]
}
df = pd.DataFrame(data)

# Filling missing values
df_filled = df.fillna({'Name': 'Unknown', 'Age': df['Age'].mean()})
print(df_filled)

Duplikate entfernen

# Removing duplicate rows
df_unique = df.drop_duplicates()
print(df_unique)

Abschluss

Pandas ist ein unverzichtbares Tool für die Datenanalyse in Python. Seine leistungsstarken Datenstrukturen und Funktionen erleichtern die Handhabung, Manipulation und Analyse von Daten. Durch die Beherrschung von Pandas können Sie Ihre Datenanalysefähigkeiten erheblich verbessern und Ihren Arbeitsablauf optimieren.