Tujuan Exploratory Data Analysis (EDA)

Tujuan Exploratory Data Analysis (EDA) , Pada Artikel Data Science Metodologi sudah dijelaskan pengertian dari EDA untuk artikel ini kita akan membahas lebih rinci tentang hal tersebut. Berikut adalah beberapa poin tujuan dari EDA:

  1. Menemukan pola dan korelasi dalam data: EDA membantu dalam menemukan pola dan korelasi yang mungkin tidak terlihat secara langsung dari data. Ini bisa berguna untuk memahami lebih baik data yang ada dan mengambil keputusan berdasarkan data tersebut.

  2. Memvalidasi hipotesis yang telah dibuat sebelumnya: EDA membantu dalam memvalidasi hipotesis yang telah dibuat sebelumnya dengan menganalisis data secara lebih terperinci.

  3. Membuat hipotesis baru: EDA juga dapat membantu dalam membuat hipotesis baru berdasarkan pola dan korelasi yang ditemukan dalam data.

  4. Memahami dan mengerti data yang ada: EDA membantu dalam memahami dan mengerti data yang ada dengan lebih baik, yang dapat membantu dalam pengambilan keputusan berdasarkan data tersebut.

  5. Mempersiapkan data untuk analisis yang lebih lanjut: EDA juga membantu dalam mempersiapkan data untuk analisis yang lebih lanjut, seperti pemodelan statistik atau machine learning. Ini termasuk mengecek dan membersihkan data, menentukan variabel yang sesuai, dan mengubah data ke dalam format yang lebih sesuai untuk analisis.

Untuk dapat melaksanakan tujuan dari EDA kita dapat melakukan Descriptive Statistics , Correlation Analysis, Visualization pada data yang kita miliki.

Descriptive Statistics

Statistika deskriptif adalah cabang dari statistika yang bertujuan untuk mengumpulkan, mengorganisir, mengevaluasi, dan menyajikan data dengan cara yang sistematis.

Statistika deskriptif menggunakan berbagai metode dan teknik untuk mengolah data dan mengelompokkannya dengan cara yang sesuai.

Ada beberapa cara yang digunakan dalam statistika deskriptif, diantaranya:

  1. Menghitung jumlah data: Statistika deskriptif dapat menghitung jumlah data yang ada, seperti jumlah data yang valid atau jumlah data yang hilang.

  2. Menghitung nilai rata-rata: Statistika deskriptif dapat menghitung nilai rata-rata dari sekumpulan data, seperti rata-rata usia atau rata-rata pendapatan.

  3. Menghitung deviasi: Statistika deskriptif dapat menghitung deviasi dari sekumpulan data, yang menunjukkan seberapa jauh nilai-nilai data tersebut terpisah dari nilai rata-rata.

  4. Menghitung frekuensi: Statistika deskriptif dapat menghitung frekuensi suatu nilai atau kategori dalam sekumpulan data.

  5. Menggambarkan data: Statistika deskriptif dapat menggambarkan data dengan menggunakan berbagai jenis diagram atau plot, seperti diagram batang, diagram pie, atau plot scatter.

Statistika deskriptif berguna dalam mengumpulkan dan menyajikan data secara sistematis, sehingga dapat membantu dalam pengambilan keputusan dan pembuatan kebijakan berdasarkan data.

Berikut ini adalah contoh kode program Python untuk menghitung statistika deskriptif dari sekumpulan data:

# import library yang diperlukan
import numpy as np
import pandas as pd

# membuat sekumpulan data dengan numpy
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# menghitung nilai rata-rata
mean = np.mean(data)
print("Nilai rata-rata:", mean)

# menghitung deviasi
std = np.std(data)
print("Deviasi:", std)

# menghitung frekuensi
unique, counts = np.unique(data, return_counts=True)
frequency = dict(zip(unique, counts))
print("Frekuensi:", frequency)

# menggunakan pandas untuk menggambarkan data dengan diagram batang
df = pd.DataFrame({'data': data})
df.plot.bar()

Kode di atas akan menghitung nilai rata-rata, deviasi, dan frekuensi dari sekumpulan data, serta menggambarkan data dengan diagram batang menggunakan library pandas.

Perhatikan bahwa untuk menggunakan fungsi-fungsi statistika deskriptif di atas, Anda harus mengimport library numpy dan pandas terlebih dahulu.

Anda juga dapat menggunakan library lain, seperti scipy atau statsmodels, yang juga menyediakan fungsi-fungsi statistika deskriptif.

Correlation analysis

Correlation analysis adalah teknik yang digunakan dalam EDA untuk menemukan korelasi antara dua atau lebih variabel dalam data.

Korelasi merupakan hubungan yang terdapat antara dua atau lebih variabel, dimana perubahan dari salah satu variabel akan mempengaruhi perubahan dari variabel lain.

Ada beberapa jenis korelasi yang dapat ditemukan dalam data, diantaranya:

  1. Korelasi positif: Jika kedua variabel tersebut berkorelasi positif, maka jika salah satu variabel meningkat, maka variabel lain juga akan meningkat. Sebaliknya, jika salah satu variabel menurun, maka variabel lain juga akan menurun.

  2. Korelasi negatif: Jika kedua variabel tersebut berkorelasi negatif, maka jika salah satu variabel meningkat, maka variabel lain akan menurun. Sebaliknya, jika salah satu variabel menurun, maka variabel lain akan meningkat.

  3. Korelasi nol: Jika kedua variabel tersebut tidak berkorelasi sama sekali, maka tidak ada hubungan antara kedua variabel tersebut.

Correlation analysis bisa dilakukan dengan menggunakan berbagai metode, seperti:

  1. Pearson correlation coefficient: Menghitung korelasi antara dua variabel kontinu dengan menggunakan koefisien korelasi Pearson.

  2. Spearman rank correlation: Menghitung korelasi antara dua variabel dengan menggunakan nilai rank dari setiap variabel.

  3. Kendall rank correlation: Menghitung korelasi antara dua variabel dengan menggunakan nilai rank dari setiap variabel dan jumlah pasangan yang berbeda urutan.

Correlation analysis berguna dalam menemukan hubungan antara dua atau lebih variabel dalam data.

Sehingga dapat membantu dalam pemahaman lebih lanjut tentang data yang ada dan membantu dalam pengambilan keputusan berdasarkan data tersebut.

Berikut ini adalah contoh kode program Python untuk melakukan correlation analysis dalam EDA:

# import library yang diperlukan
import pandas as pd
import seaborn as sns

# memuat data ke dalam dataframe
df = pd.read_csv('data.csv')

# menghitung koefisien korelasi Pearson antara variabel 'x' dan 'y'
pearson_coef = df['x'].corr(df['y'])
print("Koefisien korelasi Pearson:", pearson_coef)

# menghitung koefisien korelasi Spearman antara variabel 'x' dan 'y'
spearman_coef, _ = stats.spearmanr(df['x'], df['y'])
print("Koefisien korelasi Spearman:", spearman_coef)

# menghitung koefisien korelasi Kendall antara variabel 'x' dan 'y'
kendall_coef, _ = stats.kendalltau(df['x'], df['y'])
print("Koefisien korelasi Kendall:", kendall_coef)

# menggambarkan plot scatter untuk menunjukkan korelasi antara variabel 'x' dan 'y'
sns.scatterplot(x='x', y='y', data=df)

Kode di atas akan menghitung koefisien korelasi Pearson, Spearman, dan Kendall antara dua variabel ‘x’ dan ‘y’ dalam dataframe df, serta menggambarkan plot scatter untuk menunjukkan korelasi antara kedua variabel tersebut menggunakan library seaborn.

Perhatikan bahwa untuk menggunakan fungsi-fungsi correlation analysis di atas, Anda harus mengimport library pandas dan seaborn terlebih dahulu.

Anda juga dapat menggunakan library lain, seperti scipy atau statsmodels, yang juga menyediakan fungsi-fungsi correlation analysis.

Visualisation

Dalam EDA, ada banyak jenis chart atau plot yang dapat digunakan untuk menggambarkan dan mengeksplorasi data.

Beberapa contoh chart yang sering digunakan dalam EDA adalah:

  1. Diagram batang (bar chart): Diagram batang digunakan untuk menggambarkan distribusi frekuensi dari sekumpulan data.

  2. Diagram pie: Diagram pie digunakan untuk menggambarkan proporsi atau persentase dari sekumpulan data.

  3. Scatter plot: Scatter plot digunakan untuk menggambarkan korelasi antara dua variabel kontinu.

  4. Line plot: Line plot digunakan untuk menggambarkan perubahan dari sebuah variabel sepanjang waktu.

  5. Histogram: Histogram digunakan untuk menggambarkan distribusi frekuensi dari sekumpulan data kontinu.

  6. Box plot: Box plot digunakan untuk menggambarkan distribusi data dengan menunjukkan nilai minimum, maximum, median, dan quartile.

  7. Violin plot: Violin plot merupakan gabungan dari histogram dan box plot, yang digunakan untuk menggambarkan distribusi data dengan menunjukkan nilai minimum, maximum, median, dan quartile serta distribusi frekuensi data.

  8. Heatmap: Heatmap digunakan untuk menggambarkan korelasi antara dua atau lebih variabel dengan menggunakan warna untuk menunjukkan intensitas korelasi.

Terdapat banyak library Python yang dapat digunakan untuk menggambarkan chart dalam EDA, seperti matplotlib, seaborn, dan plotly.

Anda dapat menggunakan library yang sesuai dengan kebutuhan dan preferensi Anda.

Berikut ini adalah contoh kode program Python untuk menampilkan beberapa jenis chart yang dapat digunakan dalam EDA menggunakan library matplotlib:

# import library yang diperlukan
import matplotlib.pyplot as plt
import numpy as np

# membuat sekumpulan data
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# menampilkan diagram batang
plt.bar(range(len(data)), data)
plt.show()

# menampilkan diagram pie
plt.pie(data, labels=data)
plt.show()

# menampilkan scatter plot
plt.scatter(range(len(data)), data)
plt.show()

# menampilkan line plot
plt.plot(range(len(data)), data)
plt.show()

# menampilkan histogram
plt.hist(data)
plt.show()

# menampilkan box plot
plt.boxplot(data)
plt.show()

# menampilkan heatmap
plt.imshow(np.random.rand(10, 10), cmap='Blues')
plt.show()

Kode di atas akan menampilkan diagram batang, diagram pie, scatter plot, line plot, histogram, box plot, dan heatmap dari sekumpulan data. Anda dapat mengubah data dan menyesuaikan properti chart sesuai dengan kebutuhan dan preferensi Anda.

Perhatikan bahwa untuk menampilkan chart di atas, Anda harus mengimport library matplotlib dan numpy terlebih dahulu

Demikianlah Artikel Tentang Exploratory Data Analysis , Semoga Bermanfaat

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.