Mengenal Supervised Learning

Cara Terbaik untuk Memecahkan Masalah Klasifikasi dan Regresi

Ujang Riswanto
4 min readJan 16, 2023
Photo by Al Amin Shamim on Unsplash

Supervised learning merupakan teknik machine learning yang paling populer. Pada dasarnya, supervised learning adalah proses pembelajaran dengan memberikan data yang telah ditandai kepada model. Model tersebut kemudian dipelajari dan dioptimalkan untuk dapat memprediksi output yang diinginkan untuk data yang belum diketahui.

Ada dua jenis supervised learning, yaitu klasifikasi dan regresi.

  1. Klasifikasi merupakan proses pembagian data ke dalam beberapa kelas berdasarkan karakteristik yang dimilikinya. Contoh aplikasi klasifikasi adalah sistem yang dapat mengklasifikasikan email masuk ke dalam spam atau tidak spam.
  2. Regresi merupakan proses prediksi nilai output yang merupakan nilai numerik. Contoh aplikasi regresi adalah sistem yang dapat memprediksi harga rumah berdasarkan faktor-faktor seperti lokasi, ukuran, dan fasilitas yang dimiliki.

Dalam supervised learning, model harus diberi data latih (training data) yang terdiri dari input dan output yang sesuai. Model kemudian dipelajari dan dioptimalkan dengan menggunakan algoritma optimisasi yang sesuai. Setelah pelatihan selesai, model tersebut dapat digunakan untuk memprediksi output dari data yang belum diketahui (test data).

Kelebihan supervised learning

Salah satu kelebihan supervised learning adalah bahwa model yang dihasilkan cenderung lebih akurat dibandingkan dengan model yang dibuat dengan menggunakan teknik lain, seperti unsupervised learning. Namun, terdapat beberapa kekurangan supervised learning, yaitu:

  1. Membutuhkan data yang banyak dan berkualitas tinggi untuk melatih model yang akurat.
  2. Model yang dihasilkan hanya dapatdigunakan untuk memprediksi output yang telah ditentukan sebelumnya, sehingga tidak dapat menangani masalah yang tidak terduga. 3. Jika ada kekurangan dalam data latih, model yang dihasilkan mungkin tidak akurat.

Meskipun demikian, supervised learning masih merupakan teknik yang sangat populer dan berguna untuk memecahkan berbagai masalah, terutama untuk klasifikasi dan regresi. Ada banyak algoritma yang tersedia dalam supervised learning, seperti linear regression, logistic regression, dan support vector machine.

Algoritma yang terdapat dalam supervised learning

Berikut adalah beberapa algoritma supervised learning yang penting Anda ketahui:

  1. Linear Regression adalah salah satu metode supervised yang masuk dalam golongan regression, sesuai namanya. Contoh paling terkenal dari regresi linier adalah memperkirakan harga rumah berdasarkan fitur yang terdapat pada rumah seperti luas rumah, jumlah kamar tidur, lokasi dan sebagainya. Ini adalah model paling sederhana yang perlu diketahui guna memahami metode machine learning lain yang lebih kompleks. Regresi linier cocok dipakai ketika terdapat hubungan linear pada data. Namun untuk implementasi pada kebanyakan kasus, ia kurang direkomendasikan.
  2. Logistic Regression adalah salah satu algoritma yang sering digunakan dalam supervised learning untuk memecahkan masalah klasifikasi. Algoritma ini menggunakan teori probabilitas untuk memprediksi kemungkinan terjadinya suatu event. Pada dasarnya, logistic regression memprediksi probabilitas terjadinya suatu event berdasarkan input yang diberikan. Jika probabilitas terjadinya event tersebut lebih dari 50%, maka event tersebut akan diklasifikasikan sebagai kelas 1. Sebaliknya, jika probabilitas terjadinya event kurang dari 50%, maka event tersebut akan diklasifikasikan sebagai kelas 0.
  3. Classification adalah teknik untuk menentukan kelas atau kategori berdasarkan atribut yang diberikan. Klasifikasi yang menghasilkan dua kategori disebut klasifikasi biner, sedangkan klasifikasi yang menghasilkan 3 kategori atau lebih disebut multiclass classification atau klasifikasi banyak kelas.
  4. Decision Trees adalah salah satu algoritma supervised learning yang dapat dipakai untuk masalah klasifikasi dan regresi. Decision tree merupakan algoritma yang powerful alias mampu dipakai dalam masalah yang kompleks. Decision tree juga merupakan komponen pembangun utama algoritma Random Forest, yang merupakan salah satu algoritma paling powerful saat ini.
  5. Support Vector Machines adalah salah satu algoritma yang sering digunakan dalam supervised learning untuk memecahkan masalah klasifikasi dan regresi. Algoritma ini menggunakan teori matematika yang kompleks untuk memisahkan data ke dalam kelas yang berbeda. Pada dasarnya, SVM akan mencari garis atau hyperplane yang paling baik untuk memisahkan data ke dalam kelas yang berbeda. Garis atau hyperplane tersebut disebut dengan “decision boundary”. Data yang berada di satu sisi decision boundary akan diklasifikasikan ke dalam satu kelas, sedangkan data yang berada di sisi lainnya akan diklasifikasikan ke dalam kelas yang lain.
  6. Neural Networks adalah salah satu algoritma yang sering digunakan dalam machine learning untuk memecahkan masalah klasifikasi, regresi, dan pengenalan pola. Algoritma ini meniru cara kerja otak manusia dalam memproses informasi dan membuat keputusan. Neural network terdiri dari lapisan-lapisan node atau “neuron” yang terhubung satu sama lain. Setiap neuron akan menerima input dari neuron-neuron di lapisan sebelumnya, kemudian menghitung output berdasarkan weight yang diberikan, dan mengirimkan output tersebut ke neuron-neuron di lapisan berikutnya.

Untuk memilih algoritma yang tepat, pertimbangkan masalah yang ingin Anda selesaikan, jenis data yang tersedia, dan kebutuhan komputasi yang diperlukan. Selain itu, juga perlu dipertimbangkan kemampuan algoritma tersebut dalam menangani overfitting atau underfitting.

Beberapa hal yang perlu dipertimbangkan dalam memilih algoritma supervised learning adalah:

  1. Masalah yang ingin diselesaikan: Pertimbangkan jenis masalah yang ingin diselesaikan, apakah itu masalah klasifikasi, regresi, atau pengenalan pola. Setiap algoritma memiliki kelebihan dan kekurangan masing-masing dalam menangani masalah tersebut.
  2. Jenis data yang tersedia: Pertimbangkan jenis data yang tersedia, apakah itu data numerik, data kategorik, atau data yang tidak terstruktur seperti gambar atau teks. Setiap algoritma memiliki kemampuan yang berbeda dalam menangani jenis data tersebut.
  3. Kebutuhan komputasi: Pertimbangkan juga kebutuhan komputasi yang diperlukan oleh setiap algoritma. Jika data yang tersedia sangat besar atau memiliki banyak fitur, maka algoritma yang membutuhkan komputasi yang lebih tinggi mungkin lebih cocok.
  4. Kemampuan menangani overfitting atau underfitting: Pertimbangkan juga kemampuan algoritma tersebut dalam menangani masalah overfitting atau underfitting. Overfitting terjadi jika model terlalu sesuai dengan data latih, sehingga tidak dapat menangani data yang belum diketahui dengan baik. Sedangkan underfitting terjadi jika model terlalu umum, sehingga tidak dapat menangani data latih dengan baik. Beberapa algoritma seperti decision trees cenderung lebih rentan terhadap overfitting, sedangkan algoritma seperti linear regression cenderung lebih rentan terhadap underfitting.
  5. Kemampuan interpretasi: Pertimbangkan juga kemampuan interpretasi dari setiap algoritma. Algoritma seperti decision trees dan linear regression cenderung lebih mudah diinterpretasikan dibandingkan algoritma seperti neural network yang memiliki banyak lapisan tersembunyi.

Dengan memahami konsep dan mengimplementasikan model dengan tepat, Anda dapat memanfaatkan supervised learning untuk memecahkan masalah yang Anda hadapi. Jangan ragu untuk terus mempelajari dan mencoba berbagai algoritma yang tersedia untuk menemukan solusi yang paling sesuai dengan kebutuhan Anda.

Sumber:

--

--

Ujang Riswanto

web developer, uiux enthusiast and currently learning about artificial intelligence