Berita11.com— Saat mempelajari data science, maka seseorang akan dihadapkan banyak data, sehingga kadang menyulitkan proses untuk mendapatkan informasi yang dibutuhkan karena harus melewati data atau tabel yang panjang. Namun demikian, proses itu dapat disingkat melalui grafik atau visualisasi.
Visualisasi data yang menarik dan mudah mengerti melalui tabel, grafik maupun tampilan bentuk lain yang sesuai keperluan, memudahkan seseorang cepat menangkap informasi yang dibutuhkan.
Secara umum, visualisasi data merupakan teknik yang membantu ilmuwan data mengubah data mentah menjadi informasi yang ditampilkan secara grafik, sehingga menghasilkan wawasan berharga. Diagram yang disajikan membantu mengurangi kerumitan informasi yang ada dan membuatnya lebih mudah dipahami oleh para pengguna yang masih awam.
Python dapat menjadi pilihan terbaik saat seseorang bekerja dengan data mentah yang memerlukan adanya perubahan data dan tempat penyimpanan data yang tepat. Kendati penerapannya lebih rumit karena membutuhkan pengetahuan mendalam, Python memberikan kemungkinan melakukan manipulasi, perubahan, dan visualisasi data. Yang tentunya hal tersebut sangat ideal untuk ilmuwan data.
Salah satu alasan penting menggunakan phyton untuk mengembangkan ilmu data karena ekosistem perpustakaannya. Adanya banyak pustaka besar yang tersedia untuk bahasa phyton yang dikhususkan untuk mengolah data seperti matplotlib, panda, numpy, dan tensorflow.
Matplotlib adalah perpustakaan grafik yang paling dikenal di luar sana, yang menyediakan untuk bahasa Python dan bahasa pemrograman lainnya seperti R. Tingkat penyesuaian dan pengoperasian yang mengaturnya sejak awal. Sementara developer membangun sebuah perpustakaan baru yang di dasarkan pada matplotlib yang disebut seaborn.
Untuk diketahui Seaborn adalah library untuk membuat visualisasi data grafik statistik dengan Python, di mana desain Seaborn memungkinkan menjelajahi dan memahami data Anda dengan cepat.
Cara kerja Seaborn dengan menangkap keseluruhan kerangka data atau informasi yang berisikan keseluruhan data Anda dan menjalankan semua fungsi internal yang diperlukan untuk melakukan kegiatan pemetaan semantik dan agregasi statistik, di mana hal itu bertujuan untuk mengubah data menjadi plot informatif.
Hal itu dapat memberikan abstraksi yang kompleks bersamaan dengan ketika merancang grafik sesuai dengan kebutuhan.
Cara Memasang Seaborn
Untuk menginstal seaborn semudah menginstal satu pustaka menggunakan pengelola paket Python favorit. Ketika Anda menginstal seaborn, perpustakaan akan secara otomatis menginstal dependensi, termasuk Panda, numpy, matplotlib, dan scipy.
Selain menginstal Seaborn juga perlu menyiapkan atau menginstal notebook paket untuk mendapatkan akses ke playground data.
pipenv install seaborn notebook
Selain itu, kita akan mengimpor beberapa modul sebelum memulai.
import seaborn as sns
import panda as pd
import numpy as np
import matplotlib
Membangun Latar pertama
Sebelum merencanakan visualisasi data apapun, seseorang membutuhkan data. Keuntungan dari seaborn karena bekerja langsung dengan panda dataframes, sehingga super nyaman. Terlebih lagi, pustaka dilengkapi dengan beberapa set data bawaan yang sekarang dapat muat dari kode, tidak perlu mengunduh file secara manual.
flights_data = sns.load_dataset(“flights”)flights_data.head()
Semua keajaiban terjadi saat memanggil fungsi load_dataset, yang mengharapkan nama data dimuat dan mengembalikan kerangka data. Semua set data ini tersedia di repositori GitHub .
Plot Sebar
Scatter plot atau plot sebar adalah diagram yang menampilkan titik-titik berdasarkan dua dimensi dataset. Membuat plot grafik yang tersebar di perpustakaan seaborn sangatlah sederhana dan mudah hanya dengan satu baris kode.
sns.scatterplot(data=flights_data, x=”tahun”, y=”tamu”)
Fungsi ini scatterplotmengharapkan dataset yang ingin diplot dan kolom yang mewakili sumbu xdan y.
Plot Garis
Grafik plot menampilkan garis yang mewakili perubahan data secara kontinu maupun kategorikal. Grafik ini adalah jenis bagan yang populer dan terkenal, serta dalam pembuatannya sangat mudah dibuat. Sama dengan contoh sebelumnya, menggunakan fungsi lineplot dengan menginputkan dataset serta kolom yang dalam hal ini diwakili oleh sumbu x dan y. Seaborn akan melakukan sisanya.
sns.lineplot(data=flights_data, x=”tahun”, y=”tamu”)
Plot Batang
Jenis bagan yang paling terkenal, dan seperti yang telah diperkirakan, Anda dapat memplot jenis plot ini dengan Seaborn cara yang sama seperti yang dilakukan untuk garis dan plot sebar dengan menggunakan fungsi barplot.
sns.barplot(data=flights_data, x=”tahun”, y=”tamu”)
Memperluas dengan matplotlib
Seaborn dibangun di atas matplotlib, memperluas fungsionalitasnya dan mengabstraksi kompleksitasnya. Dengan demikian, tidak membatasi kemampuannya. Setiap seaborn visualisasi data grafik dapat disesuaikan menggunakan fungsi dari matplotlib perpustakaan.
Hal itu dapat berguna untuk menjalankan operasi tertentu dan memberikan kemungkinan bahwa seaborn memanfaatkan kekuatan matplotlib tanpa perlu menulis kembali semua fungsinya.
Misalnya ingin memplot beberapa grafik secara bersamaan menggunakan seaborn; maka dapat menggunakan subplotfungsi dari matplotlib.
diamonds_data = sns.load_dataset(‘diamonds’)plt.subplot(1, 2, 1)sns.countplot(x=’carat’, data=diamonds_data)plt.subplot(1, 2, 2)sns.countplot(x=’depth’, data=diamonds_data)
Dengan menggunakan subplotfungsi tersebut, dapat menggambar lebih dari satu grafik pada satu plot.
Dalam praktik ini merender seaborn bagan di setiap subplot, mencampur matplotlib dengan seaborn fungsi.
Seaborn menggunakan Panda
Seaborn sangat menyukai panda sehingga semua fungsinya dibangun di atas panda kerangka data.
Jika hendak menampilkan gambar plot dari data yang telah diinputmenggunakan panda sebelumnya
drinks_df = pd.read_csv(“data/drinks.csv”)sns.barplot(x=”country”, y=”beer_servings”, data=drinks_df)
Membuat plot yang indah dengan gaya
Seaborn memberi kemampuan untuk mengubah antarmuka grafik dan menyediakan lima gaya berbeda di luar kotak: darkgrid , whitegrid , dark , white , dan ticks .
sns.set_style(“darkgrid”)sns.lineplot(data = data, x = “tahun”, y = “tamu”)
contoh lainnya
sns.set_style(“whitegrid”)sns.lineplot(data=flights_data, x=”tahun”, y=”tamu”)
Pertama, muat kumpulan data.
tips_df = sns.load_dataset(‘tips’)tips_df.head()
total_bill tip Jenis kelamin Take Away hari waktu ukuran 1 200.000 20.000 Perempuan Tidak Minggu Makan malam 2 2 150.000 10.000 Pria Tidak Minggu Makan malam 3 3 500.000 50.000 Pria Tidak Minggu Makan malam 3 4 300.000 25.000 Pria Tidak Minggu Makan malam 2 5 800.000 100.000 Perempuan Tidak Minggu Makan malam 4
Ketika mencetak beberapa baris pertama dari kumpulan data untuk menampilkan kolom dan datanya sendiri. Maka akan menggunakan beberapa panda fungsi untuk memperbaiki beberapa masalah data seperti null nilai dan menambahkan informasi ke kumpulan data yang mungkin berguna.
Membuat kolom tambahan ke kumpulan data dengan persentase yang mewakili jumlah tip di atas total tagihan.
tips_df[“tip_percentage”] = tips_df[“tip”] / tips_df[“total_bill”]tips_df.head()
Sekarang bingkai data akan terlihat seperti berikut:total_bill tip Jenis kelamin Take Away hari waktu ukuran tip_percentage 1 200.000 20.000 Perempuan Tidak Minggu Makan malam 2 0,05 2 150.000 10.000 Pria Tidak Minggu Makan malam 3 0,16 3 500.000 50.000 Pria Tidak Minggu Makan malam 3 0,16 4 300.000 25.000 Pria Tidak Minggu Makan malam 2 0,14 5 800.000 100.000 Perempuan Tidak Minggu Makan malam 4 0,14
Selanjutnya, bisa mulai merencanakan beberapa grafik.
Memahami persentase tip
Coba dulu untuk memahami distribusi persentase tip. Untuk itu, kita dapat menggunakan histplotgrafik histogram yang akan dihasilkan.
sns.histplot(tips_df[“tip_percentage”], binwidth=0.05)
Selanjutnya menyesuaikan binwidth properti agar lebih mudah dibaca dan sekarang dapat dengan cepat menghargai pemahaman tentang data.
Sebagian besar pelanggan akan memberi tip antara 15 hingga 20%, dan kita memiliki beberapa kasus edge di mana tipnya lebih dari 70%. Nilai-nilai itu adalah anomali, dan selalu layak untuk ditelusuri untuk menentukan apakah nilainya salah atau tidak.
Menarik juga untuk mengetahui apakah persentase tip berubah tergantung pada momen hari itu,
sns.histplot(data=tips_df, x=”tip_percentage”, binwidth=0.05, hue=”time”)
Kali ini kita akan memuat grafik dengan kumpulan data lengkap, bukan hanya satu kolom, lalu kita juga perlu menyetel properti hueke kolom time. Ini akan memaksa bagan untuk menggunakan warna berbeda untuk setiap nilai timedan menambahkan legenda padanya.
Total tip per hari dalam seminggu
Matrix yang menarik lainnya adalah contoh di bawah ini yang bertujuan untuk mengetahui berapa banyak uang yang didapat dari tip yang diharapkan oleh personel tergantung pada hari dalam satu minggu.
sns.barplot(data=tips_df, x=”day”, y=”tip”, estimator=np.sum)
Dampak ukuran tabel dan hari di ujung
Terkadang kita ingin memahami bagaimana variabel bermain bersama untuk menentukan keluaran. Misalnya, diumpamakan apabila suatu hari dalam seminggu dan bagaimana ukuran tabel memberikan pengaruh pada persentase tip?
Untuk menggambar diagram berikutnya, kita akan menggabungkan pivot fungsi panda untuk memproses informasi terlebih dahulu dan kemudian menggambar diagram peta panas.
pivot = tips_df.pivot_table( index=[“day”], columns=[“size”], values=”tip_percentage”, aggfunc=np.average)sns.heatmap(pivot)
Sumber: Web App.