Langsung ke konten utama

Mengenal Librari Pandas, Hewan yang Menyukai Data

source: twoarddatascience.com

Pandas merupakan salah satu librari pemrosesan data yang tersedia di python. Librari pandas digunakan untuk memberikan pengetahuan terhadap data yang dianalisis. Biasanya penggunaan pandas digunakan bersama library numpy. Sebelum mengenal lebih jauh, mari kita mulai dengan meng-install librari pandas dan numpy. Penginstallan dapat dilakukan pada terminal atau cmd, command promt. Dengan mengetikkan berikut 

pip install numpy
pip install pandas
Setelah melakukan instalisasi, pada file program yang kita buat perlu di-import kedua library tersebut agar pemrosesan dapat dilakukan.
In [1]: import pandas as pd
In [2]: import numpy as np
Bila program dilakukan melalui notebook baris data bersifat intrisik, hubungan antara data tidak dapat dipatahkan kecuali oleh anda sendiri dengan mengulang kernel. Perlu diingat untuk setiap pemrosesan data, pengerjaan harus algoritmik sehingga hal yang diharapkan dapat terjadi. Ada beberapa perintah dasar yang perlu dipahami sebelum menggunakan pandas lebih lanjut. Pada artikel kali ini, penulis menggunakan dataset penjualan game dari kaggle berupa dataset vgsales.csv. Berikut adalah method dasar yang wajib diketahui sebelum melakukan analisis data menggunakan python.

1. method (".info()")

Method ini digunakan untuk mendapatkan informasi mendasar dari sebuah data frame. Informasi yang didapatkan seperti indeks kolom, nama kolom, jenis isi kolom, dan jumlah data yang tak kosong pada tiap kolom. Kita dapat menentukan jumlah, kolom null dengan mencari kolom dengan non-null terbanyak dikurangi non-null pada kolom yang kita cari, bisa terjadi eror jika tiap kolom terdapat data null pada baris yang berbeda-beda.
Pada contoh, misalnya, pada dataframe vgsales.csv, jumlah non-null paling adalah 16598 baris, ada pada setiap kolom kecuali kolom publisher dan year. Dengan method ini pula, kita dapat mengklasifikasi tiap kolom bergantung pad jenis data yang disimpan. Pada dataframe terdapat 6 kolom float, 1 kolom integer dan 4 kolom object.



2. method (".describe()")

Methon ini digunakan untuk mendapatkan data statistik dasar pada tiap kolom numerik. Data yang termuat ialah count(jumlah tiap baris pada kolom), mean(rata-rata kolom), std(standar deviasi), min(nilai terendah), 25%(persentil per empat), 50%(nilai tengah), 75%(persentil akhir), dan max(nilai tertinggi).
Menggunakan method ini, kita dapat menentukan apakah ada data yang aneh seperti nilai tak wajar, seperti negatif pada kolom kuantitas, atau nilai yang melampaui batas((cek artikel tentang pembersihan data)). Statistik pada method ini juga dapat digunakan untuk mencari pengetahuan lebih lanjut mengenai dataset yang kita teliti, sebagai dasar pencarian.



3. method (".head()" & ".tail()")

method .head() digunakan untuk mencetak dataframe dari dari awal. Basically, method ini akan mencetak lima data teratas. Selanjutnya, untuk mengonfigurasi pencetakan dapat dilakukan dengan memasukkan jumlah pada dalam kurung. Anda bebas measukkan angka pada rentag data, bila dimasukkan angka negatif maka pencetakkan indeks akan dihitung dari belakang.
Method ini berguna untuk mengklasifikasi data dan mencocokkan data atas analisis yang kita gunakan. Selain itu, kita juga dapat menggunakan method ini untuk melakukan preview sebelum mengalisis data. Dengan begitu, analisis yang kita lakukan dapat lebih tepat sasaran.

Method ".tail()" pada dasarnya mirip dengan ".head()". Perbedaan dari kedua method itu terletak pada di mana perhitungan dimulai. Jika ".head()", secara mendasar dimulai dari indeks 0 atau awal, ".tail()" perhitungan dimulai dari indeks terakhir atau -1.



4. Method (".loc[...]")

Method ini digunakan untuk mendapatkan data tertentu berdasar pada baris yang ingin diakses. Akses data dapat dilakukan dengan langsung memasukkan indeks atau dengan klasifikasi logika yang diinginkan. Logika yang diterapkan mirip pada penggunaan conditional pada pemrograman struktural.



5. Akses langsung kolom ("df[...]")

Pengaksesan langsung kolom dapat dilakukan dengan menggunakan kurung siku. Pada method ini kita juga bisa mengaplikasikan logika seperti method ".loc", perbedaan keduanya terdapat pada fokus utama, jika kurung siku langsung digunakan untuk mengakses kolom tertentu, sedangkan ".loc" lebih ke arah indeks.


6. Dimensi Data Frame (".shape")
Method ini digunakan untuk mengetahui ukuran total dari sebuah dataframe. Method ini akan menampilkan dimensi dataframe dalam bentuk angka. Angka yang ditampilkan berurutan dari ukuran total baris, diikuti koma dan total kolom total.

7. Menghitung Jumlah Perbagian (".value_counts()")
Method ini digunakan untuk menghitung banyaknya jenis pada bagian tertentu dari dataframe. Kerapnya method ".value_counts()" digunakan untuk menghitung bagian dari suatu kolom. Misal kita ingin menghitung jumlah data pada tiap genre pada dataset vgsales.csv

8. Menghitung banyak suatu data (".count()")
Hampir mirip dengan method sebelumnya, method ".count()" ini menghitung banyaknya data non-null pada suatu dataset. 


Komentar

Postingan populer dari blog ini

Identitas Mahsiswa dan Budaya Korupsi

  Posisi Potensi dan Peran atau yang biasa disingkat PoPoPe merupakan gambaran dari identitas mahasiswa. Popope mengambarkan bagaimana lingkungan dan tugas yang harusnya mahasiswa emban. Berisi tangung jawab dan empati, bukan sekadar omongan atau gelar kebanggan semata. Mahasiswa harus peka mengenai posisinya di masyarakat dalam bernegara. Selain itu, ia harus peka melihat potensi yang dimiliki lingkungannya, bukan malah menjadi eksklusif dan menjadi manusia yang merasa di atas. Berperan lantgsung bukan hanya sebagai mediator melainkan katalisator, bukan hanya orang yang banyak bicara tanpa aksi nyata dan mencari nama tanpa manfaat semat. Meskipun pandemi Covid melanda dunia. Namun, sungguh disayangkan, kerguian negara akibat koruipsi tak menurun. Sadisnya, justru terjadi tren pengingkatan kerugian negara akibat korupsdi sejak 2016 (ICW, 2021). Dari 444 kasus korupsi 107 di antaranya merupakan korupsi proyek Covid19, baik dpengadaan bansos, hingga proyek lainnya. Mahasiswa seba...

Sistem Cerdas untuk Peningkatan Kualitas Hidup

src: STEI ITB Kemarin Rabu (02/02/2021), aku mengikuti kuliah umum yang disampaikan Prof. Suhono. Pada kuliah umum kali ini, Prof. Suhono mengangkat isu pengaplikasian sistem cerdas untuk meningkatakan kualitas hidup. Kuliah umum ini diadakan oleh KK Teknologi Informasi, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung. Berikut adalah hal-hal yang kudapat dari kuliah umum kali ini. Kemajuan teknologi infomrasi yang sangat cepat telah masuk ke segala bidang. Perkembangan sistem teknologi informasi tak berhenti di sistem otomasi saja, tetapi kehadiran sistem otonom dan cerdasnya juga telah membawa angin segar bagi tatanan kehidupan renaisance 4.0 atau society 5.0 . Pola kehidupan bermasyrakt pun ikut berubah. Namun, bila ditelisik, Indonesia masih cukup tertinggal dalam pengaplikasian sistem cerdas. Sebelum kita bahas lebih lanjut, mari kita telaah dulu, apasih sistem cerdas itu. Menurut Prof. Suhono, sistem cerdas bukan sebuah sistem dengan banyak aplikasi atau sistem ...

Masalah Air Bersih di Gunung Putri Bogor

  -- Pendahuluan Haloo guys,  kembali lagi bersama ku di post-an kesekian ku ini. Kali ini aku tidak sendiri loh, aku bersama teman kelompokku yaitu ada Juan Kevin dan Risqi Firdaus. Kami dari kelompok 9 Kelas PRD 20. Kami akan membahas masalah mengenai air bersih di daerah Gunung Putri, Kabupaten Bogor . Kondisi air bersih disini terkadang mengalami masalah, yaitu bisa saja tiba-tiba mati dan mengeluarkan air yang kotor. Kondisi ini juga bisa diperparah jika daerah sekitar sedang dilanda banjir. Terkadang di beberapa tempat di lingkungan ini juga kekurangan untuk mendapatkan air bersih. Kasus ini menarik bagi kami untuk dibahas karena kebutuhan air bersih ini sangat penting bagi masyarakat, contohnya untuk memasak, mencuci, mandi, minum, dan berbagai kegiatan yang membutuhkan air bersih. Kasus ini juga menarik karena masih banyak sebagian masyarakat yang kekurangan air bersih.  Menurut Lestari, et al., penelitian dengan metode sampel acak yang mereka lakukan menunjukkan,...