Supervised Learning adalah salah satu jenis Machine Learning yang paling umum digunakan dan bekerja dengan mempelajari hubungan antara data yang tersedia dengan label/target yang tepat ketika proses training.
Supervised Learning sebagai subkategori dari Machine Learning menggunakan dataset yang memiliki label/target untuk melatih algoritma yang dapat mengklasifikasikan data atau memprediksi hasilnya secara akurat.
Kemudian setelah training, model supervised learning akan mengambil data baru sebagai input dan kemudian memprediksi label dari data tersebut berdasarkan data yang digunakan saat training.
Umumnya, supervised learning dapat dibedakan menjadi dua jenis:
- Klasifikasi, yaitu jenis supervised learning di mana tipe data dari variabel label/target adalah diskrit.
- Regresi, yaitu jenis supervised learning di mana tipe data dari variabel label/target adalah numerikal kontinu.
Masing-masing jenis supervised learning tersebut menggunakan algoritma yang berbeda dan juga metrik yang digunakan untuk mengukur performa antar keduanya juga akan berbeda.
Contoh metrik performa yang digunakan pada regresi adalah Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Mean Absolute Error (MAE).
Sedangkan, contoh metrik performa yang dipakai untuk mengukur performa klasifikasi adalah akurasi, precision, recall, AUC.
Algoritma Supervised Learning
Ada banyak algoritma yang dapat digunakan untuk melakukan training model supervised learning. Perlu diperhatikan bahwa algoritma yang dipakai dalam Klasifikasi dan Regresi berbeda. Beberapa contoh algoritma supervised learning adalah sebagai berikut:
- Linear Regression (untuk regresi)
- Logistic Regression (untuk klasifikasi)
- Support Vector Machine
- Decision Tree
- Random Forest
- XGBoost
Hyperparameter Tuning
Ketika membangun suatu model machine learning, kita akan diperhadapkan dengan pilihan-pilihan untuk mendesain struktur dari model machine learning tersebut.
Sering data scientiest tidak akan langsung tahu secara pasti struktur model seperti apa yang terbaik sehingga dibutuhkan percobaan untuk mengubah parameter-parameter model.
Parameter yang mendefinisikan struktur model machine learning disebut hyperparameter.
Sementara itu hyperparameter tuning adalah proses pencarian parameter-parameter yang paling sesuai untuk menciptakan suatu struktur model machine learning yang terbaik.
Contoh metode dalam melakukan hyperparameter tuning yang paling populer adalah sebagai berikut:
- Grid Search, yaitu hyperparameter tuning yang dilakukan dengan menyediakan sekumpulan nilai-nilai hyperparameter yang hendak diuji, kemudian mesin akan melakukan pencarian terhadap seluruh kombinasi nilai yang disediakan dan mengembalikan informasi kombinasi mana yang terbaik.
- Random Search, yaitu hyperparameter tuning yang dilakukan dengan hanya menyediakan distribusi statistik dari calon nilai-nilai hyperparameter yang hendak diuji (berbeda dengan Grid Search yang
menyediakan nilai-nilai diskrit).