Pandas adalah sebuah library Python yang digunakan untuk melakukan manipulasi dan analisis data secara efisien. Pandas memiliki banyak fitur yang berguna, seperti:
- Membaca dan menulis data dari berbagai format file seperti CSV, Excel, dan SQL.
- Mengolah dan mengubah data dengan mudah, seperti mengisi data yang hilang, mengubah tipe data, dan lain-lain.
- Melakukan agregasi dan transformasi data, seperti menghitung rata-rata, mencari nilai maksimum, dan lain-lain.
- Menggabungkan data dari berbagai sumber menjadi satu dataframe.
- Menggunakan label pada baris dan kolom data untuk memudahkan pengindeksan dan slicing data.
Pandas sangat berguna untuk data scientist dan analis data yang ingin mengelola dan menganalisis data dengan cepat dan mudah.
kamu dapat menggunakan Pandas untuk mengolah data dari berbagai sumber, seperti database, file CSV, atau file Excel, dan kemudian menganalisis data tersebut dengan menggunakan fungsi-fungsi yang tersedia di Pandas.
Pandas juga sangat berguna untuk menyiapkan data sebelum dilakukan analisis lebih lanjut dengan menggunakan library lain seperti NumPy atau scikit-learn.
Dataframe
Dataframe adalah struktur data berupa tabel yang terdiri dari baris dan kolom.
Dataframe merupakan salah satu fitur utama dari library Pandas di Python, dan sangat berguna untuk mengelola dan menganalisis data.
Dataframe dapat dianggap seperti tabel di program spreadsheet seperti Microsoft Excel, tetapi memiliki banyak fitur yang lebih canggih dan berguna untuk melakukan manipulasi dan analisis data.
Sebagai contoh, kamu dapat dengan mudah mengolah data dengan menggunakan label pada baris dan kolom, menggabungkan data dari berbagai sumber menjadi satu dataframe, atau melakukan agregasi dan transformasi data dengan menggunakan fungsi-fungsi yang tersedia di Pandas.
Contoh sederhana dari dataframe adalah seperti tabel berikut:
kamu dapat membaca data ke dalam dataframe dengan menggunakan fungsi read_csv()
atau read_excel()
dari Pandas. Kemudian mengelola dan menganalisis data dengan menggunakan fungsi-fungsi yang tersedia di Pandas.
Berikut ini adalah contoh kode untuk membaca data dari file Excel dan CSV menggunakan Pandas:
import pandas as pd
# Membaca data dari file Excel
df = pd.read_excel('data.xlsx')
# Membaca data dari file CSV
df = pd.read_csv('data.csv')
Di sini, kita menggunakan fungsi read_excel()
untuk membaca data dari file Excel dengan nama data.xlsx
, dan menyimpannya dalam variabel df
. Fungsi read_csv()
digunakan untuk membaca data dari file CSV dengan nama data.csv
.
Setelah data dibaca ke dalam dataframe, kamu dapat mengelola dan menganalisis data dengan menggunakan fungsi-fungsi yang tersedia di Pandas.
Perlu diingat bahwa kamu perlu menginstall library Pandas terlebih dahulu sebelum dapat menggunakannya. kamu dapat menginstall Pandas dengan menjalankan perintah pip install pandas
di terminal atau command prompt.
Setelah selesai, kamu juga dapat menyimpan hasilnya kembali ke dalam file dengan menggunakan fungsi to_csv()
atau to_excel()
.
Operasi Dasar DataFrame
Berikut ini adalah beberapa operasi dasar lain yang dapat dilakukan pada dataframe menggunakan Pandas, beserta contoh kodenya:
Menampilkan ukuran dataframe
kamu dapat menampilkan ukuran dataframe dengan menggunakan atributshape
. Atribut ini akan mengembalikan tuple yang terdiri dari jumlah baris dan kolom pada dataframe.
# Menampilkan ukuran dataframe
print(df.shape)
Menampilkan statistik deskriptif
kamu dapat menampilkan statistik deskriptif pada data numerik pada dataframe dengan menggunakan fungsidescribe()
. Fungsi ini akan menampilkan informasi seperti mean, std, min, max, dan quartile pada setiap kolom numerik pada dataframe.
# Menampilkan statistik deskriptif
print(df.describe())
Menampilkan 5 baris pertama
kamu dapat menampilkan 5 baris pertama pada dataframe dengan menggunakan fungsihead()
. kamu juga dapat menentukan jumlah baris yang ingin ditampilkan dengan menambahkan parametern
pada fungsi tersebut.
# Menampilkan 3 baris pertama
print(df.head(3))
Menampilkan 5 baris terakhir
kamu dapat menampilkan 5 baris terakhir pada dataframe dengan menggunakan fungsitail()
. Anda juga dapat menentukan jumlah baris yang ingin ditampilkan dengan menambahkan parametern
pada fungsi tersebut.
# Menampilkan 3 baris terakhir
print(df.tail(3))
Mengurutkan data
kamu dapat mengurutkan data pada dataframe dengan menggunakan fungsisort_values()
pada Pandas. Berikut ini adalah contoh kode untuk mengurutkan data pada dataframe:
# Mengurutkan data pada kolom "Usia" secara ascending
df.sort_values(by='Usia', ascending=True, inplace=True)
print(df)
# Mengurutkan data pada kolom "Usia" secara descending
df.sort_values(by='Usia', ascending=False, inplace=True)
print(df)
Di sini, kita menggunakan fungsi sort_values()
untuk mengurutkan data pada kolom “Usia” dengan tipe pengurutan ascending (mulai dari yang terkecil) dan descending (mulai dari yang terbesar).
Kita juga menggunakan parameter inplace=True
untuk menyimpan hasil pengurutan ke dalam dataframe yang sama.
kamu juga dapat mengurutkan data pada beberapa kolom sekaligus dengan menambahkan kolom-kolom tersebut ke dalam parameter by
.
Misalnya, untuk mengurutkan data pada kolom “Nama” dan “Usia” secara ascending, kamu dapat menggunakan sintaks seperti berikut:
df.sort_values(by=['Nama', 'Usia'], ascending=True, inplace=True)
Filtering column pada DataFrame
kamu apat melakukan filtering pada dataframe dengan menggunakan operator perbandingan seperti >
, <
, ==
, dan lain-lain.
Berikut ini adalah contoh kode untuk melakukan filtering pada dataframe:
# Menampilkan baris-baris yang memiliki usia di atas 30
filtered_df = df[df['Usia'] > 30]
print(filtered_df)
# Menampilkan baris-baris yang memiliki usia di bawah 30
filtered_df = df[df['Usia'] < 30]
print(filtered_df)
# Menampilkan baris-baris yang memiliki usia sama dengan 30
filtered_df = df[df['Usia'] == 30]
print(filtered_df)
Di sini, kita menggunakan operator perbandingan untuk menyaring baris-baris yang memenuhi kondisi yang ditentukan, kemudian menyimpan hasilnya ke dalam dataframe baru bernama filtered_df
.
kamu dapat menggunakan operator in
untuk melakukan filtering dataframe dengan mencocokkan beberapa nilai pada satu kolom.
Berikut ini adalah contoh kode untuk melakukan filtering dataframe dengan menggunakan operator in
:
# Menampilkan baris-baris yang memiliki usia 30 atau 35
filtered_df = df[df['Usia'].isin([30, 35])]
print(filtered_df)
Di sini, kita menggunakan fungsi isin()
untuk mencocokkan nilai-nilai yang terdapat dalam list [30, 35] pada kolom “Usia”.
Fungsi ini akan mengembalikan series boolean yang menunjukkan baris-baris mana yang memenuhi kondisi tersebut, kemudian kita gunakan operator []
untuk menyaring baris-baris tersebut dan menyimpannya ke dalam dataframe baru bernama filtered_df
.
filter berdasarkan null value dari suatu kolom
Untuk melakukan filtering berdasarkan nilai null dari suatu kolom pada python, kamu dapat menggunakan tanda isnull()
dari library pandas
. Berikut ini adalah contoh bagaimana menggunakan isnull()
untuk melakukan filtering pada suatu DataFrame:
# Menampilkan baris-baris yang memiliki usia null
filtered_df = df[df['Usia'].isnull()]
print(filtered_df)
# Menampilkan baris-baris yang tidak memiliki usia null
filtered_df = df[df['Usia'].notnull()]
print(filtered_df)
Multi-Column Filter
kamu dapat melakukan filtering dataframe dengan menggunakan lebih dari satu kolom sekaligus dengan menggunakan operator logika &
(and) atau |
(or).
Berikut ini adalah contoh kode untuk melakukan multi-column filtering pada dataframe:
# Menampilkan baris-baris yang memiliki usia di atas 30 dan tinggal di kota "Jakarta"
filtered_df = df[(df['Usia'] > 30) & (df['Kota'] == 'Jakarta')]
print(filtered_df)
# Menampilkan baris-baris yang memiliki usia di bawah 30 atau tinggal di kota "Surabaya"
filtered_df = df[(df['Usia'] < 30) | (df['Kota'] == 'Surabaya')]
print(filtered_df)
Di sini, kita menggunakan operator logika &
dan |
untuk menyatukan kondisi-kondisi pada masing-masing kolom.
Demikianlah Pengenalan Dataframe dan Pandas Semoga bermanfaat.