Langsung ke konten utama

Machine Learning: Supervised Learning

Pada artikel sebelumnya, kita telah mempelajari bahwa supervised learning adalah jenis machine learning yang dilatih model dan akurasinya dengan dataset yang sudah diketahui ketepatan outputnya. Nah, pada post kali ini aku bakal sedikit jelasin mengenai supervised learning.

Sebelum lebih jauh, mari kita bahas lagi cara penyelesaian supervised learning. Pada dasarnya, masalah pada supervised learning dibagi menjadi dua,  yakni data kontinu serta diskrit. Dari data itu lah, nantinya kita bisa menentukan metode apa yangf tepat untuk kita gunakan dalam machine learning kita. Mari kita bahas satu persatu. 

1) Data Kontinu (Regression Problem)

Data berjenis kontinu adalah data yang memiliki nilai kontinu. Nilai kontinu adalah nilai yang didapat dari suatu pengukuran, dan nilainya merupakan sebuah nilai antara dua titik. Ciri dari data kontinu adalah tiap nilainya memiliki kesinambungan dengan nilai lainnya. Contoh dari data kontinu adalah skor tes, harga rumah, luas rumah, luas halaman, dan ketinggian tanah.

Banyak metode untuk menghandle data kontinu. Namun, tidak ada metode yang fit at all, artinya, untuk mencari metode yang paling pas, kita harus menguji coba dan membandingkan hasilnya. Di antara metode yang dapat digunakan untuk meng-handle data kontinu adalah 

  • regresi linear 
  • pohon keputusan 
  • neural network, dan  
  • K-Nearewst Neighbors.

2) Data Diskrit (Classification Problem)

Data diskrit adalah data yang sifatnya pasti. Data ini bukan merupakan nilai hasil pengukuran, melainkan berasal dari perhitungan. Nilai dari data diskrit bukan suatu nilai dari rentang. Namun, suatu nilai pasti. Data ini merupakan data jumlah dari suatu kategori (kategorikal). Contoih dari data diskrit adalah jumlah meja dalm ruangan, angka pada mata dadu, dan data tumor berbahaya atau tidak.

Data diskrit atau yang juga disebut  data kategorikal digunakan untuk mengklasifikasikan atau menggolongkan objek amatan atau kejadian dalam kelompok, kategori atau klasifikasi tertentu. Data digunakan untuk menunjukkan kesamaan atau perbedaan pada ciri tertentu suatu objek. Data ini umumnya diperoleh dari pengkategorian suatu survei atau eksplorasi buakn pengukuran.

Dalam menghadapi data diskrit cukup banyak model atau metode yang dapat digunakan. Seperti data kontinu, tidak ada model yang fit at all. Untuk itu, berikut merupakan beberapa model atau metode yang dapat digunakan utnuk menghandle data diskrit, di antaranya, klasifikasi biner, klasifikasi multikelas, klasifikasi multilabel, serta klasifikasi tak imbang. 

Agar lebih jelas, mari kita pecah satu persatu model untuk tiap metode satu persatu. 

Klasifikasi Biner (Binary Classification)

 Biasanya digunakan untuk mengklasifikasi sesuatu dengan dasar satu kelas, atau satu variabel. contoh masalah: pendeteksi email spam. 

  • Regresi logistik 
  • K-Nearest Neighbors
  • Decision Tree
  • Support vector machines
  • Naive bayes

 Klasifikasi Multikelas (Multi-Class Classification)

 Biasanya digunakan untuk mengklasifikasi sesuatu yang inputnya memiliki banyak variabel(kelas).  Contoh masalah: pendeteksi muka, jenis tanaman, karakter opstis. Beberapa masalah multikelas juga dapat diselesaikan dengan klasifikasi biner.

  • Regresi logistik 
  • K-Nearest Neighbors
  • Decision Tree
  • Support vector machines
  • Naive bayes
  • Random forest
  • Gradient boosting

Klasifikasi Multilabel(Multi-label Classification)

Biasanya digunakan untuk mengklasifikasi sesuatu dengan multiple output. Contoh masalah: mendeteksi objek-objek dalam foto(orang, apel, sepeda)  

  • Multilabel decision tree
  • Multilabel random forest
  • Multilabel gradient boosting

Klasifikasi Multilabel(Multi-label Classification)

Biasanya digunakan upadqa data yang data tiap kelasnya tidak terditribusi secara seimbang. Contoh masalah: pendeteksi fraud, outlier, diagnosis medis. Problem yang ada biasanya merupakan problem biner, meskipun penyelesaiannya membutuhkan teknbik spesial.

Teknik khusus (spesial) digunakan untuk mengubah kompisisi sampel dataset train yang ada dengan undersampling mayority data atau oversampling minority data. 

  • Random undersampling
  • SMOTE oversampling

Ăšntuk menyempurnakan sistem diperlukan metrik performa alternatif karena akurasi klasifikasi yang dilakukan mungkin kurang tepat. Contoh dari metrik performa alternatif di antaranya

  • Precission 
  • Recall
  • F-Measure

 Akhirnya, pada artikel ini kamu mempelajari lebih jauh mengenai jenis-jenis modeling, serta metode untuk mengurus data kontinu dan diskrit. Nantinya, kamu perlu mendefinisikan metode atau model mana yang paling sesuai dengan data dan output yang kamu harapkan. Pada tahap selanjutnya kamu akan memelajari tiap jenis serta metode yang lebih dalam dari supervised learning ini.

Terima kasih sudah membaca. Kami sangat menghargai berbagai masukan yang diberikan. Sampai jumpa pada artikel selanjutnya, dan semoga bermanfaat.


sumber:

http://file.upi.edu/Direktori/FIP/JUR._PEND._LUAR_BIASA/195602141980032-TJUTJU_SOENDARI/Power_Point_Perkuliahan/statistik_deskriptif/ST._DESKRIPTIF_-2.ppt_%5BCompatibility_Mode%5D.pdf

https://machinelearningmastery.com/types-of-classification-in-machine-learning/

https://srnghn.medium.com/machine-learning-trying-to-predict-a-numerical-value-8aafb9ad4d36

coursera - Machine Learning Course by Stanford University 

Komentar

Postingan populer dari blog ini

Sebuah Catatan Semester III dan 2021

Grafik pengunjung blog [Mungkin mengandung kata kasar, dan menganggu]  Katanya " Orang yang beruntung adalah yang hari ini lebih baik dari kemarin, orang merugi adalah yang hari ini tak lebih baik dari hari kemarin, sedangkan orang celaka adalah yang hari ini lebih buruk dari hari kemarin". Begitulah gambaran awalnya, mungkin kalo dievaluasi. Muncul pertanyaan besar, kiranya di manakah posisi Risqi sekarang? Jika boleh jujur, menurut penulis, Risqi sekarang ada di titik celaka. Ya, yang hari kemarinnya masih lebih baik dari hari ini. Baik dari spiritual, moral hingga akademik. Sudah banyak teman ia minta saran, tapi rasanya sama saja. Sepertinya beda saja, dulu dua amat rajin membuat artikel machine learning di blog, mencoba hal atau teknologi baru, ikut hackathon dan lomba, tapi sekarang progressnya macet, liburan diisi dengan hal tak bermanfaat. Bukannya tak bersyukur, memang kadang dalam mengevaluasi diri perlu disadari dan diakui bahwa DIRIMU S*MPAH. Orang berkata, banya...

Seberapa Penting Data Pribadi Kita?

sc: kliklegal.com Di era digital ini, data tidak hanya disimpan dalam bentuk kertas atau hardfile   saja, tetapi mulai beralih ke data digital. Sebut saja e-ktp, menjadi salah satu data pribadi yang diwacanakan menjadi digital. Namun, banyak dari kita masi belum menyadari penting dan berharganya data pribadi yang kita miliki. Belakangan ini, kita banyak mendengar berita tentang pembobolan data pribadi di beberapa e-commerce , bahkan kabarnya data pemilih pada pemilu tahun 2019 pun ikut raib. Namun, sejak kapan si data pribadi mulai dibahasa? Isu tentang perlindungan tentang data pribadi menjadi hangat diperbincangkan pasca kasus Cambridge Analitica yang mengolah data pribadi pengguna Facebook di awal tahun 2018. Padahal isu tentang data pribadi telah didiskusikan 38 tahun sebelumnya, yaitu dalam forum internasional OECD dalam Guidelines Governing the Protection of Privacy and Transborder Flow of Personal Data pada tahun 1980. Sebegitu concer- nya, data pribadi dibahas. Namun ...

Sumber Daya Lahan dan Manusia : Keterbergantungan dan Keberadaan

 Bismillahirahmanirrahimm Assalamulaikum warahtullahi wabarakatuh, Salam sejahtera bagi kita semua. Segala puji bagi Allah, Tuhan Yang Maha Esa, karena berkat rahmatnya tugas ini dapat saya terbiitkan. Selawat dan salam pada Rasulullah SAW.  Pada kesempatan kali ini, saya akan membagikan sedikit pandangan saya mengenai hubungan antara manusia dan sumber daya lahan. Saya melihat makin hari, jumlah lahan menurun sedangkan jumlah manusia di bumi ini terus meningkat. Tak dapat dimungkiri, peningkatan jumlah penduduk Bumi aka membuat kebutuhan akan lahan, baik untuk tempat tinggal, industri, hingga lumbung pangan meningkat. Peningkatan signifikan pada jumlah penduduk Bumi tanpa ada penangganan yang tepat justru akan menyebabkan krisis. baik dari sisi ekonomi, kemasyarakatan, bahkan teknologi. Oleh karena itu, diperlukan sebuah kajian komperehensif mengenai masalah tersebut. Pada kesempatan kali ini saya akan melampirkan sedikit pandangan saya mengenai masalah tersebut menggunakan m...