
Dalam dunia matematika, statistika adalah metode di mana kita mengumpulkan, menganalisis, meringkas dan mengambil kesimpulan dari data eksperimental atau nyata. Untuk menyelesaikan proses tersebut, statistika dipecah menjadi 2 jenis: Deskriptif dan Inferensial.
Apa perbedaan dari kedua jenis statistika tersebut?
STATISTIKA DESKRIPTIF
Statistika Deskriptif adalah sebuah cara untuk mengatur, merepresentasikan dan mendeskripsikan kumpulan data menggunakan tabel, grafik, dan banyak parameter numerik lainnya.
Berikut beberapa istilah dari Statistika yang termasuk di golongan Deskriptif:
- Mean – Nilai rata-rata dari data yang bertipe numerik/angka.
- Median – Nilai tengah yang membagi data terurut menjadi 2 bagian sama besar.
- Mode – Nilai yang paling sering muncul dari data.
- Standard Deviation – Rata-rata kuadrat dari selisih/jarak setiap observasi dengan nilai mean.
- Correlation – Nilai yang menggambarkan keeratan hubungan antara dua variabel numerik. Belum tentu menggambarkan hubungan sebab akibat.
- Variance – Nilai yang menggambarkan seberapa bervariasi/beragamnya suatu data bertipe numerik/angka.

Statistika Deskriptif sangat penting bagi Data Scientists untuk melihat sebuah pattern dari data.
Tetapi, jenis statistika ini hanya bisa digunakan untuk sampel data yang sedang dipelajari, tidak bisa digunakan untuk melakukan generalisasi atau mengambil kesimpulan tentang populasi atau kelompok lainnya.
Contoh dari Statistika Deskriptif adalah koleksi data di dalam kota yang menggunakan internet atau memiliki mobil. Misalkan, menurut BPS (Badan Pusat Statistik), jumlah kendaraan mobil penumpang di Indonesia pada tahun 2018 mencapai 16,44 juta. Jumlah kendaraan sepeda motor mencapai 120,10 juta. Data deskriptif ini bisa dibuat dalam bentuk tabel maupun grafik.
STATISTIKA INFERENSIAL
Jenis statistika ini digunakan untuk menarik kesimpulan terhadap karakteristik sebuah populasi dengan memanfaatkan informasi dari sampel yang dihasilkan dari Statistika Deskriptif.
Kesimpulan tersebut tergantung pada data yang bervariasi seperti:
- Linear Regression Analysis – Suatu model statistik yang berfungsi untuk mengetahui seberapa besar hubungan antara variabel dependent dan independent. Variabel dependent berupa data numerik.
- Logistic Regression Analysis – Suatu model statistik yang berfungsi untuk mengetahui hubungan antara variabel dependent dan independent dalam konteks peluang. Variabel dependent berupa kategori dengan 2 kelas/kategori saja.
- Hypothesis Testing – Suatu metode yang digunakan untuk menarik kesimpulan dari dua dugaan atau hipotesis yang saling bertolak belakang berdasarkan sampel data.
- Confidence Interval – Rentang nilai yang menggambarkan kemungkinan atau estimasi nilai dari parameter populasi.

Sebagai contoh, kita lihat hasil studi kasus nyata. Kita ingin menjawab pertanyaan ini: Apakah Vitamin C dapat membantu menyembuhkan flu? Pertama kita membuat null hipotesis dan hipotesis alternatif.
- Null hipotesis – Anak-anak yang mengonsumsi vitamin C kemungkinan besar akan tetap sakit flu.
- Hipotesis alternatif – Anak-anak yang mengonsumsi vitamin C kemungkinan besar akan sembuh atau imun terhadap flu.
Untuk menguji hipotesis ini, kita membagi 2 sample group. Group pertama kita beri vitamin C, group kedua kita beri plasebo. Kita mulai mengoleksi data pada musim flu. Setelah data ini dianalisis, kita ternyata mendapatkan p-value 0.20, sedangkan significance level yang diinginkan adalah 0.05. Semakin kecil p-value, semakin kuat buktinya bahwa kita harus menolak null hipotesis. Karena hasil p-value ini lebih tinggi dibanding significance level kita, kita bisa menyimpulkan bahwa vitamin C belum terbukti memberikan efek yang signifikan terhadap flu.
SUMMARY
Dua jenis statistika harus digunakan untuk membuahkan insights yang berguna. Supaya kamu lebih ngerti lagi, saya kasih contoh yang sederhana bagaimana cara mengaplikasikan statistika deskriptif dan inferensial.
Anggap saja kamu lagi jalan-jalan di mall dan memutuskan untuk survey 100 orang. Survey tersebut tujuannya untuk mengetahui apakah mereka suka belanja di H&M atau tidak. Dari hasil survey tersebut, kamu bisa membuat tabel dan chart. Misal 50 orang bilang ‘ya suka belanja di H&M’ dan 50 orangnya lagi bilang ‘tidak suka’. Ini adalah proses Statistika Deskriptif.
Nah selanjutnya, kamu bisa melakukan research lagi untuk mengambil insights yang lebih dalam. Sebagai contoh, kita mau menguji hipotesis usia pengunjung H&M. Setelah mengumpulkan sampel data dan melakukan uji hipotesis, kita bisa mengambil kesimpulan bahwa terdapat 95% kemungkinan usia pengunjung itu berada di antara 16-25. Insights ini sangat berguna bagi H&M sehingga mereka bisa mengalokasikan resourcenya untuk strategi yang tepat. Nah proses ini yang disebut oleh Statistika Inferensial.






