From Beginner to Pro: Pandas Hacks for Streamlined Data Processing

18 January, 2024

1. Data Loading and Handling

Reading data:
- pd.read_csv(): Read CSV files.
- pd.read_excel(): Read Excel files.
- pd.read_json(): Read JSON files.
- Specify data types for faster reading: dtype = {'column_name': 'category'}
Converting to DataFrames:
- pd.DataFrame(): Create DataFrames from lists, dictionaries, or arrays.

2. Data Type Conversion

df.astype({'column_name': 'new_type'}): Convert column data types (e.g., to numeric or category).
pd.to_numeric(errors='coerce'): Convert to numeric, handling errors gracefully.

3. Datetime Handling

4. Aggregation and Grouping

df.groupby(grouping_column)[column_to_aggregate].agg(aggregation_function): Group data and apply aggregations.
df.describe(): Get summary statistics for numerical columns.

5. Indexing and Selection

6. Filtering and Cleaning

df.drop(labels, axis = 'rows or columns'): Drop rows or columns.
df.dropna(thresh=threshold): Drop rows with a certain number of missing values.
df.fillna(value): Fill missing values with a specified value.

7. Renaming and Ordering

df.rename(columns={'old_name': 'new_name'}): Rename columns.
df.sort_values(by='column_name'): Sort DataFrame by a column.
df.rate.cat.reorder_categories(['good', 'very good', 'excellent']): Order a categorical column.

8. Merging and Joining

Dawoud