Visualisasi Data Dengan Phyton dan Seaborn

Berita11.com— Saat mempelajari data science, maka seseorang akan dihadapkan banyak data, sehingga kadang menyulitkan proses untuk mendapatkan informasi yang dibutuhkan karena harus melewati data atau tabel yang panjang. Namun demikian, proses itu dapat disingkat melalui grafik atau visualisasi.

Visualisasi data yang menarik dan mudah mengerti melalui tabel, grafik maupun tampilan bentuk lain yang sesuai keperluan, memudahkan seseorang cepat menangkap informasi yang dibutuhkan.

Secara umum, visualisasi data merupakan teknik yang membantu ilmuwan data mengubah data mentah menjadi informasi yang ditampilkan secara grafik, sehingga menghasilkan wawasan berharga. Diagram yang disajikan membantu mengurangi kerumitan informasi yang ada dan membuatnya lebih mudah dipahami oleh para pengguna yang masih awam.

Python dapat menjadi pilihan terbaik saat seseorang bekerja dengan data mentah yang memerlukan adanya perubahan data dan tempat penyimpanan data yang tepat. Kendati penerapannya lebih rumit karena membutuhkan pengetahuan mendalam, Python memberikan kemungkinan melakukan manipulasi, perubahan, dan visualisasi data. Yang tentunya hal tersebut sangat ideal untuk ilmuwan data.

Salah satu alasan penting menggunakan phyton untuk mengembangkan ilmu data karena ekosistem perpustakaannya. Adanya banyak pustaka besar yang tersedia untuk bahasa phyton yang dikhususkan untuk mengolah data seperti matplotlib, panda, numpy, dan tensorflow.

Matplotlib adalah perpustakaan grafik yang paling dikenal di luar sana, yang menyediakan untuk bahasa Python dan bahasa pemrograman lainnya seperti R. Tingkat penyesuaian dan pengoperasian yang mengaturnya sejak awal. Sementara developer membangun sebuah perpustakaan baru yang di dasarkan pada matplotlib yang disebut seaborn.

Untuk diketahui Seaborn adalah library untuk membuat visualisasi data grafik statistik dengan Python, di mana desain Seaborn memungkinkan menjelajahi dan memahami data Anda dengan cepat.

Cara kerja Seaborn dengan menangkap keseluruhan kerangka data atau informasi yang berisikan keseluruhan data Anda dan menjalankan semua fungsi internal yang diperlukan untuk melakukan kegiatan pemetaan semantik dan agregasi statistik, di mana hal itu bertujuan untuk mengubah data menjadi plot informatif.

Hal itu dapat memberikan abstraksi yang kompleks bersamaan dengan ketika merancang grafik sesuai dengan kebutuhan.

Cara Memasang Seaborn

Untuk menginstal seaborn semudah menginstal satu pustaka menggunakan pengelola paket Python favorit. Ketika Anda menginstal seaborn, perpustakaan akan secara otomatis menginstal dependensi, termasuk Panda, numpy, matplotlib, dan scipy.

Selain menginstal Seaborn juga perlu menyiapkan atau menginstal notebook paket untuk mendapatkan akses ke playground data.

pipenv install seaborn notebook

Selain itu, kita akan mengimpor beberapa modul sebelum memulai.

import seaborn as sns

import panda as pd

import numpy as np

import matplotlib

Membangun Latar pertama

Sebelum merencanakan visualisasi data apapun, seseorang membutuhkan data. Keuntungan dari seaborn karena bekerja langsung dengan panda dataframes, sehingga super nyaman. Terlebih lagi, pustaka dilengkapi dengan beberapa set data bawaan yang sekarang dapat muat dari kode, tidak perlu mengunduh file secara manual.

flights_data = sns.load_dataset(“flights”)flights_data.head()

Semua keajaiban terjadi saat memanggil fungsi load_dataset, yang mengharapkan nama data dimuat dan mengembalikan kerangka data. Semua set data ini tersedia di repositori GitHub .

Plot Sebar

Scatter plot atau plot sebar adalah diagram yang menampilkan titik-titik berdasarkan dua dimensi dataset. Membuat plot grafik yang tersebar di perpustakaan seaborn sangatlah sederhana dan mudah hanya dengan satu baris kode.

sns.scatterplot(data=flights_data, x=”tahun”, y=”tamu”)

Fungsi ini scatterplotmengharapkan dataset yang ingin diplot dan kolom yang mewakili sumbu xdan y.

Plot Garis

Grafik plot menampilkan garis yang mewakili perubahan data secara kontinu maupun kategorikal. Grafik ini adalah jenis bagan yang populer dan terkenal, serta dalam pembuatannya sangat mudah dibuat. Sama dengan contoh sebelumnya, menggunakan fungsi lineplot dengan menginputkan dataset serta kolom yang dalam hal ini diwakili oleh sumbu x dan y. Seaborn akan melakukan sisanya.

sns.lineplot(data=flights_data, x=”tahun”, y=”tamu”)

Plot Batang

Jenis bagan yang paling terkenal, dan seperti yang telah diperkirakan, Anda dapat memplot jenis plot ini dengan Seaborn cara yang sama seperti yang dilakukan untuk garis dan plot sebar dengan menggunakan fungsi barplot.

sns.barplot(data=flights_data, x=”tahun”, y=”tamu”)

Memperluas dengan matplotlib

Seaborn dibangun di atas matplotlib, memperluas fungsionalitasnya dan mengabstraksi kompleksitasnya. Dengan demikian, tidak membatasi kemampuannya. Setiap seaborn visualisasi data grafik dapat disesuaikan menggunakan fungsi dari matplotlib perpustakaan.

Hal itu dapat berguna untuk menjalankan operasi tertentu dan memberikan kemungkinan bahwa seaborn memanfaatkan kekuatan matplotlib tanpa perlu menulis kembali semua fungsinya.

Misalnya ingin memplot beberapa grafik secara bersamaan menggunakan seaborn; maka dapat menggunakan subplotfungsi dari matplotlib.

diamonds_data = sns.load_dataset(‘diamonds’)plt.subplot(1, 2, 1)sns.countplot(x=’carat’, data=diamonds_data)plt.subplot(1, 2, 2)sns.countplot(x=’depth’, data=diamonds_data)

Dengan menggunakan subplotfungsi tersebut, dapat menggambar lebih dari satu grafik pada satu plot.

Dalam praktik ini merender seaborn bagan di setiap subplot, mencampur matplotlib dengan seaborn fungsi.

Seaborn menggunakan Panda

Seaborn sangat menyukai panda sehingga semua fungsinya dibangun di atas panda kerangka data.

Jika hendak menampilkan gambar plot dari data yang telah diinputmenggunakan panda sebelumnya

drinks_df = pd.read_csv(“data/drinks.csv”)sns.barplot(x=”country”, y=”beer_servings”, data=drinks_df)

Membuat plot yang indah dengan gaya

Seaborn memberi kemampuan untuk mengubah antarmuka grafik dan menyediakan lima gaya berbeda di luar kotak: darkgrid , whitegrid , dark , white , dan ticks .

sns.set_style(“darkgrid”)sns.lineplot(data = data, x = “tahun”, y = “tamu”)

contoh lainnya

sns.set_style(“whitegrid”)sns.lineplot(data=flights_data, x=”tahun”, y=”tamu”)

Pertama, muat kumpulan data.

tips_df = sns.load_dataset(‘tips’)tips_df.head()

	total_bill	tip	Jenis kelamin	Take Away	hari	waktu	ukuran
1	200.000	20.000	Perempuan	Tidak	Minggu	Makan malam	2
2	150.000	10.000	Pria	Tidak	Minggu	Makan malam	3
3	500.000	50.000	Pria	Tidak	Minggu	Makan malam	3
4	300.000	25.000	Pria	Tidak	Minggu	Makan malam	2
5	800.000	100.000	Perempuan	Tidak	Minggu	Makan malam	4

Ketika mencetak beberapa baris pertama dari kumpulan data untuk menampilkan kolom dan datanya sendiri. Maka akan menggunakan beberapa panda fungsi untuk memperbaiki beberapa masalah data seperti null nilai dan menambahkan informasi ke kumpulan data yang mungkin berguna.

Membuat kolom tambahan ke kumpulan data dengan persentase yang mewakili jumlah tip di atas total tagihan.

tips_df[“tip_percentage”] = tips_df[“tip”] / tips_df[“total_bill”]tips_df.head()

Sekarang bingkai data akan terlihat seperti berikut:

	total_bill	tip	Jenis kelamin	Take Away	hari	waktu	ukuran	tip_percentage
1	200.000	20.000	Perempuan	Tidak	Minggu	Makan malam	2	0,05
2	150.000	10.000	Pria	Tidak	Minggu	Makan malam	3	0,16
3	500.000	50.000	Pria	Tidak	Minggu	Makan malam	3	0,16
4	300.000	25.000	Pria	Tidak	Minggu	Makan malam	2	0,14
5	800.000	100.000	Perempuan	Tidak	Minggu	Makan malam	4	0,14

Selanjutnya, bisa mulai merencanakan beberapa grafik.

Memahami persentase tip

Coba dulu untuk memahami distribusi persentase tip. Untuk itu, kita dapat menggunakan histplotgrafik histogram yang akan dihasilkan.

sns.histplot(tips_df[“tip_percentage”], binwidth=0.05)

Selanjutnya menyesuaikan binwidth properti agar lebih mudah dibaca dan sekarang dapat dengan cepat menghargai pemahaman tentang data.

Sebagian besar pelanggan akan memberi tip antara 15 hingga 20%, dan kita memiliki beberapa kasus edge di mana tipnya lebih dari 70%. Nilai-nilai itu adalah anomali, dan selalu layak untuk ditelusuri untuk menentukan apakah nilainya salah atau tidak.

Menarik juga untuk mengetahui apakah persentase tip berubah tergantung pada momen hari itu,

sns.histplot(data=tips_df, x=”tip_percentage”, binwidth=0.05, hue=”time”)

Kali ini kita akan memuat grafik dengan kumpulan data lengkap, bukan hanya satu kolom, lalu kita juga perlu menyetel properti hueke kolom time. Ini akan memaksa bagan untuk menggunakan warna berbeda untuk setiap nilai timedan menambahkan legenda padanya.

Total tip per hari dalam seminggu

Matrix yang menarik lainnya adalah contoh di bawah ini yang bertujuan untuk mengetahui berapa banyak uang yang didapat dari tip yang diharapkan oleh personel tergantung pada hari dalam satu minggu.

sns.barplot(data=tips_df, x=”day”, y=”tip”, estimator=np.sum)

Dampak ukuran tabel dan hari di ujung

Terkadang kita ingin memahami bagaimana variabel bermain bersama untuk menentukan keluaran. Misalnya, diumpamakan apabila suatu hari dalam seminggu dan bagaimana ukuran tabel memberikan pengaruh pada persentase tip?

Untuk menggambar diagram berikutnya, kita akan menggabungkan pivot fungsi panda untuk memproses informasi terlebih dahulu dan kemudian menggambar diagram peta panas.

pivot = tips_df.pivot_table( index=[“day”], columns=[“size”], values=”tip_percentage”, aggfunc=np.average)sns.heatmap(pivot)

Sumber: Web App.

Pos terkait

Jaringan Social