source: twoarddatascience.com |
Pandas merupakan salah satu librari pemrosesan data yang tersedia di python. Librari pandas digunakan untuk memberikan pengetahuan terhadap data yang dianalisis. Biasanya penggunaan pandas digunakan bersama library numpy. Sebelum mengenal lebih jauh, mari kita mulai dengan meng-install librari pandas dan numpy. Penginstallan dapat dilakukan pada terminal atau cmd, command promt. Dengan mengetikkan berikut
pip install numpy pip install pandasSetelah melakukan instalisasi, pada file program yang kita buat perlu di-import kedua library tersebut agar pemrosesan dapat dilakukan.
In [1]: import pandas as pd In [2]: import numpy as npBila program dilakukan melalui notebook baris data bersifat intrisik, hubungan antara data tidak dapat dipatahkan kecuali oleh anda sendiri dengan mengulang kernel. Perlu diingat untuk setiap pemrosesan data, pengerjaan harus algoritmik sehingga hal yang diharapkan dapat terjadi. Ada beberapa perintah dasar yang perlu dipahami sebelum menggunakan pandas lebih lanjut. Pada artikel kali ini, penulis menggunakan dataset penjualan game dari kaggle berupa dataset vgsales.csv. Berikut adalah method dasar yang wajib diketahui sebelum melakukan analisis data menggunakan python.
1. method (".info()")
Method ini digunakan untuk mendapatkan informasi mendasar dari sebuah data frame. Informasi yang didapatkan seperti
indeks kolom, nama kolom, jenis isi kolom, dan jumlah data yang tak kosong pada tiap kolom. Kita dapat menentukan
jumlah, kolom null dengan mencari kolom dengan non-null terbanyak dikurangi non-null pada kolom yang kita cari, bisa
terjadi
eror jika tiap kolom terdapat data null pada baris yang berbeda-beda.
Pada contoh, misalnya, pada dataframe
vgsales.csv, jumlah non-null paling adalah 16598 baris, ada pada setiap kolom kecuali kolom publisher dan year.
Dengan method ini pula, kita dapat mengklasifikasi tiap kolom bergantung pad jenis data yang disimpan. Pada
dataframe terdapat 6 kolom float, 1 kolom integer dan 4 kolom object.
2. method (".describe()")
Methon ini digunakan untuk mendapatkan data statistik dasar pada tiap kolom numerik. Data yang termuat ialah
count(jumlah tiap baris pada kolom), mean(rata-rata kolom), std(standar deviasi), min(nilai terendah), 25%(persentil
per empat), 50%(nilai tengah), 75%(persentil akhir), dan max(nilai tertinggi).
Menggunakan method ini, kita dapat menentukan apakah ada data yang aneh seperti nilai tak wajar, seperti negatif
pada kolom kuantitas, atau nilai yang melampaui batas((cek artikel tentang pembersihan data)). Statistik pada method
ini juga dapat digunakan untuk mencari pengetahuan lebih lanjut mengenai dataset yang kita teliti, sebagai dasar
pencarian.
3. method (".head()" & ".tail()")
method .head() digunakan untuk mencetak dataframe dari dari awal. Basically, method ini akan mencetak lima
data teratas. Selanjutnya, untuk mengonfigurasi pencetakan dapat dilakukan dengan memasukkan jumlah pada dalam
kurung. Anda bebas measukkan angka pada rentag data, bila dimasukkan angka negatif maka pencetakkan indeks akan
dihitung dari belakang.
Method ini berguna untuk mengklasifikasi data dan mencocokkan data atas analisis yang kita gunakan. Selain itu, kita
juga dapat menggunakan method ini untuk melakukan preview sebelum mengalisis data. Dengan begitu, analisis
yang kita lakukan dapat lebih tepat sasaran.
4. Method (".loc[...]")
Method ini digunakan untuk mendapatkan data tertentu berdasar pada baris yang ingin diakses. Akses data dapat
dilakukan dengan langsung memasukkan indeks atau dengan klasifikasi logika yang diinginkan. Logika yang diterapkan
mirip pada penggunaan conditional pada pemrograman struktural.
5. Akses langsung kolom ("df[...]")
Pengaksesan langsung kolom dapat dilakukan dengan menggunakan kurung siku. Pada method ini kita juga bisa mengaplikasikan logika seperti method ".loc", perbedaan keduanya terdapat pada fokus utama, jika kurung siku langsung digunakan untuk mengakses kolom tertentu, sedangkan ".loc" lebih ke arah indeks.
8. Menghitung banyak suatu data (".count()")
Komentar
Posting Komentar