Istilah-Istilah Penting di Dunia Data (Panduan Lengkap untuk Pemula)

 

Kalau kamu baru terjun ke dunia data, pasti akan ketemu banyak istilah asing yang awalnya terasa membingungkan.
Kata-kata seperti dataset, outlier, mean, atau korelasi akan sering muncul, baik di artikel, tutorial, maupun percakapan sehari-hari dengan orang yang sudah berpengalaman di bidang ini.

Tenang saja — semua orang yang jago sekarang juga pernah bingung waktu pertama kali mendengar istilah-istilah ini.
Di artikel ini, kita akan membahas istilah-istilah dasar di dunia data, lengkap dengan penjelasan, contoh, dan cara penggunaannya di kehidupan nyata.

📂 1. Dataset

Definisi:
Dataset adalah kumpulan data yang disusun dalam format tertentu, biasanya untuk tujuan analisis.
Dataset bisa berbentuk tabel (baris dan kolom), file CSV, Excel, atau bahkan kumpulan gambar, video, dan teks.

Contoh dalam kehidupan sehari-hari:
Bayangkan kamu punya catatan pengeluaran bulanan di Excel. Setiap baris adalah transaksi, dan setiap kolom berisi informasi seperti tanggal, kategori pengeluaran, dan jumlah uang. File Excel ini adalah dataset kamu.

Kenapa penting?
Semua analisis data berawal dari dataset. Kalau dataset-nya rapi dan berkualitas, proses analisis akan lebih mudah dan hasilnya lebih akurat.

🧩 2. Variabel / Kolom (Feature)

Definisi:
Variabel adalah jenis informasi yang dikumpulkan dalam dataset.
Setiap kolom dalam tabel biasanya mewakili satu variabel.

Contoh:
Dalam dataset penjualan, kolom “Tanggal” adalah variabel waktu, kolom “Nama Produk” adalah variabel kategori, dan kolom “Jumlah Terjual” adalah variabel numerik.

Kenapa penting?
Mengetahui variabel membantu kita memahami struktur data dan memilih metode analisis yang tepat. Misalnya, variabel numerik cocok dihitung rata-ratanya, sedangkan variabel kategori lebih cocok dihitung persentasenya.

🧍 3. Observasi / Baris (Record)

Definisi:
Observasi adalah satu entri atau data unik di dataset.
Setiap baris di tabel biasanya merepresentasikan satu observasi.

Contoh:
Jika kamu punya dataset penjualan kopi, satu baris data bisa berisi informasi:

12 Agustus 2025 | Cappuccino | 3 cup | Rp75.000

Itu adalah satu observasi dari seluruh dataset.

Kenapa penting?
Observasi adalah unit terkecil dari data yang akan dianalisis. Semakin banyak observasi yang kita miliki, semakin lengkap gambaran yang bisa kita dapatkan.

🔢 4. Mean, Median, dan Mode

Mean (Rata-rata):
Jumlah semua nilai dibagi jumlah data. Cocok untuk melihat nilai tengah jika data tidak memiliki perbedaan ekstrem.
Contoh: Nilai ujian 70, 80, 90 → Mean = (70 + 80 + 90) / 3 = 80.

Median (Nilai Tengah):
Nilai yang berada di tengah setelah semua data diurutkan. Cocok digunakan jika ada data ekstrem (outlier).
Contoh: Nilai ujian 50, 70, 100, 200 → Median = (70 + 100) / 2 = 85.

Mode (Nilai Paling Sering Muncul):
Nilai yang paling sering muncul dalam dataset.
Contoh: 2, 2, 3, 3, 3, 4 → Mode = 3.

Kenapa penting?
Mean, median, dan mode membantu kita memahami distribusi data. Dalam analisis, memilih mana yang digunakan tergantung pada sifat datanya.

🚩 5. Outlier

Definisi:
Outlier adalah data yang nilainya jauh berbeda dari mayoritas data lainnya.

Contoh:
Rata-rata pengeluaran karyawan adalah Rp5 juta, tapi ada satu orang dengan pengeluaran Rp50 juta. Nilai ini adalah outlier.

Kenapa penting?
Outlier bisa menunjukkan error dalam data atau fenomena yang memang unik.
Dalam analisis, kita perlu memutuskan apakah akan menghapus outlier atau mempelajarinya lebih dalam.

🔗 6. Korelasi (Correlation)

Definisi:
Korelasi adalah ukuran hubungan antara dua variabel. Nilainya berkisar dari -1 sampai +1.

  • +1 = hubungan positif sempurna (jika satu naik, yang lain ikut naik)

  • -1 = hubungan negatif sempurna (jika satu naik, yang lain turun)

  • 0 = tidak ada hubungan

Contoh:
Semakin tinggi suhu, semakin banyak es krim terjual → korelasi positif.
Semakin sering orang tidur larut malam, semakin sedikit jam tidur → korelasi negatif.

Kenapa penting?
Korelasi membantu kita melihat hubungan antarvariabel. Tapi hati-hati, korelasi tidak selalu berarti sebab-akibat (correlation does not imply causation).

📊 7. Statistik Deskriptif

Definisi:
Metode untuk meringkas data menjadi informasi yang lebih singkat, seperti rata-rata, minimum, maksimum, dan persentase.

Contoh:
Daripada menampilkan semua 10.000 baris data, kita bisa menyebutkan:

Rata-rata penjualan per hari: 120 cup
Penjualan tertinggi: 200 cup
Penjualan terendah: 80 cup

Kenapa penting?
Statistik deskriptif membuat kita bisa melihat gambaran umum data secara cepat tanpa membaca setiap baris.

🗄 8. Data Terstruktur & Tidak Terstruktur

Data Terstruktur:
Data yang rapi, berbentuk tabel, dengan format yang konsisten. Contoh: spreadsheet, database.

Data Tidak Terstruktur:
Data yang tidak mengikuti format tertentu. Contoh: foto, video, audio, teks bebas di media sosial.

Kenapa penting?
Data terstruktur lebih mudah dianalisis langsung, sedangkan data tidak terstruktur biasanya perlu diproses terlebih dahulu (misalnya, mengubah teks jadi angka dengan teknik text mining).


🛠 9. Cleaning Data (Data Cleaning)

Definisi:
Proses membersihkan data dari error, duplikasi, atau data kosong agar siap dianalisis.

Contoh:

  • Menghapus baris kosong di Excel

  • Memperbaiki salah ejaan nama produk

  • Mengganti “-” menjadi 0 pada kolom jumlah penjualan

Kenapa penting?
Data yang kotor bisa menghasilkan analisis yang salah. Pepatah di dunia data: Garbage in, garbage out — kalau datanya buruk, hasil analisisnya juga buruk.


📈 10. Visualisasi Data

Definisi:
Mengubah data menjadi bentuk visual seperti grafik, diagram, atau peta untuk memudahkan pemahaman.

Contoh:

  • Pie chart untuk melihat persentase kategori

  • Line chart untuk melihat tren penjualan dari waktu ke waktu

  • Bar chart untuk membandingkan jumlah antarproduk

Kenapa penting?
Otak manusia lebih cepat memproses informasi visual dibanding deretan angka. Visualisasi yang baik bisa membuat data “berbicara”.


Memahami istilah-istilah dasar ini adalah langkah awal yang sangat penting dalam perjalanan belajar data.
Dengan kosa kata ini, kamu akan lebih percaya diri membaca artikel, mengikuti kursus, atau bahkan berdiskusi tentang data dengan orang lain.

Ingat, semua ahli data yang hebat dulu juga memulai dari sini. Jadi nikmati prosesnya, terus belajar, dan jangan takut bertanya.


Comments

Popular posts from this blog

Mengintegrasikan Front-End dan Back-End dengan GraphQL

Dampak AI bagi Front-End dan Back-End Programmer: Ancaman atau Peluang?

Bahasa Pemrograman yang Wajib Dipelajari di 2025 dan Manfaatnya untuk Karier Anda