Transformasi DataFrame di Pandas: Cara Efisien Mengolah Data dalam Python

Dataframe transformation adalah proses mengubah bentuk atau struktur data dengan tujuan tertentu, seperti mengelompokkan data, menambah atau menghapus kolom, atau mengubah tipe data.

Data transformation sering dilakukan dalam proses data wrangling atau data preparation, dimana data yang awalnya tidak sesuai dengan kebutuhan analisis atau modeling diolah menjadi bentuk yang lebih sesuai.

Di Pandas, terdapat berbagai fungsi yang dapat digunakan untuk melakukan data transformation, seperti groupby(), pivot_table(), melt(), stack(), dan lain-lain.

kamu dapat menggunakan fungsi-fungsi tersebut sesuai dengan kebutuhan kamu untuk mengubah bentuk atau struktur data pada dataframe.

Selain itu, kamu juga dapat menggunakan operasi aritmatika dan logika pada dataframe untuk melakukan data transformation.

Misalnya, kamu dapat menambahkan kolom baru yang merupakan hasil penjumlahan dari dua kolom lain, atau mengelompokkan data berdasarkan nilai pada suatu kolom.

Mengubah tipe data dataframe

Anda dapat mengubah tipe data pada dataframe dengan menggunakan fungsi astype(). Berikut ini adalah contoh kode untuk mengubah tipe data pada dataframe:

# Mengubah tipe data kolom "Usia" menjadi tipe integer
df['Usia'] = df['Usia'].astype(int)
print(df.dtypes)

# Mengubah tipe data kolom "Nama" menjadi tipe string
df['Nama'] = df['Nama'].astype(str)
print(df.dtypes)

# Mengubah tipe data kolom "Tanggal Lahir" menjadi tipe datetime
df['Tanggal Lahir'] = pd.to_datetime(df['Tanggal Lahir'])
print(df.dtypes)

Di sini, kita menggunakan fungsi astype() untuk mengubah tipe data pada kolom “Usia” menjadi tipe integer, kolom “Nama” menjadi tipe string, dan kolom “Tanggal Lahir” menjadi tipe datetime.

kamu dapat menggunakan tipe data yang tersedia di Pandas seperti int, float, str, datetime, dan lain-lain sesuai dengan kebutuhan kamu.

kamu juga dapat menggunakan fungsi to_numeric() untuk mengubah tipe data pada kolom yang berisi data numerik dengan lebih fleksibel.

Misalnya, untuk mengubah tipe data kolom “Usia” yang berisi data string menjadi tipe integer, kamu dapat menggunakan sintaks seperti berikut:

df['Usia'] = pd.to_numeric(df['Usia'], errors='coerce')

Di sini, kita menggunakan parameter errors='coerce' untuk mengubah nilai yang tidak dapat diconversi menjadi tipe integer menjadi nilai null (missing value).

Menghapus baris di dataframe

kamu dapat menghapus baris pada dataframe dengan menggunakan fungsi drop(). Berikut ini adalah contoh kode untuk menghapus baris pada dataframe:

# Menghapus baris ke-2 pada dataframe (index dimulai dari 0)
df = df.drop(df.index[1])
print(df)

# Menghapus baris ke-3 sampai ke-5 pada dataframe (index dimulai dari 0)
df = df.drop(df.index[2:5])
print(df)

# Menghapus baris yang memiliki usia di atas 30
df = df.drop(df[df['Usia'] > 30].index)
print(df)

Untuk menghapus kolom pada dataframe, Anda dapat menggunakan sintaks seperti berikut:

# Menghapus kolom "Usia" pada dataframe
df = df.drop('Usia', axis=1)
print(df)

Merubah nama kolom pada dataframe

kamu dapat merubah nama kolom pada dataframe dengan menggunakan atribut columns dan metode rename(). Berikut ini adalah contoh kode untuk merubah nama kolom pada dataframe:

# Merubah nama kolom "Usia" menjadi "Age"
df.columns = ['Nama', 'Alamat', 'Age']
print(df)

# Merubah nama kolom "Nama" menjadi "Name" menggunakan metode rename()
df = df.rename(columns={'Nama': 'Name'})
print(df)

# Merubah nama semua kolom menggunakan metode rename()
df = df.rename(columns={'Name': 'Nama', 'Age': 'Usia', 'Alamat': 'Address'})
print(df)

Di sini, kita menggunakan atribut columns untuk merubah nama kolom secara langsung, dan menggunakan metode rename() dengan parameter columns yang berisi dictionary yang menyimpan pasangan nama lama dan nama baru kolom.

kamu dapat merubah nama satu atau lebih kolom sesuai dengan kebutuhan kamu.

kamu juga dapat menggunakan parameter inplace=True pada metode rename() untuk merubah nama kolom secara langsung pada dataframe tanpa perlu menggunakan assignment. Misalnya:

df.rename(columns={'Nama': 'Name'}, inplace=True)

Menambah dan menghapus kolom pada dataframe

kamu dapat menambah dan menghapus kolom pada dataframe dengan menggunakan operator indexing dan assignment.

Berikut ini adalah contoh kode untuk menambah dan menghapus kolom pada dataframe:

import pandas as pd

# Membaca data dari file CSV
df = pd.read_csv('data.csv')

# Menambah kolom baru bernama "Pekerjaan" dengan nilai default "Tidak diketahui"
df['Pekerjaan'] = 'Tidak diketahui'
print(df)

# Menambah kolom baru bernama "Gaji" dengan nilai default 0
df['Gaji'] = 0
print(df)

# Menghapus kolom "Usia" dari dataframe
df = df.drop('Usia', axis=1)
print(df)

# Menghapus kolom "Nama" dan "Alamat" dari dataframe
df = df.drop(['Nama', 'Alamat'], axis=1)
print(df)

Di sini, kita menggunakan operator indexing dengan assignment untuk menambah kolom baru pada dataframe. Kemudian kita gunakan metode drop() dengan parameter nama kolom yang ingin dihapus.

Demikian informasi mengenai Dataframe Transformation.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.