Menentukan Kualitas dari Suatu Data
Tulisan ini adalah kelanjutan dari tulisan saya sebelumnya mengenai tipe data. Jadi kalau belum baca, saya sarankan untuk membacanya terlebih dahulu yah.
Gara-gara saya sering ngomongin soal data, seringkali saya mendapatkan pertanyaan seperti ini:
Data yang saya miliki ini sudah bagus atau belum?
Seharusnya pertanyaan tersebut bukan saya yang pantas untuk menjawabnya.
Lalu kalau begitu siapa?
Sebenarnya pihak yang bisa menjawab pertanyaan tersebut adalah si penanya sendiri sebagai peneliti (researcher).
Kok gitu?
Oke, untuk menjawabnya saya akan merunut dari pembahasan mengenai workflow dalam melakukan suatu project penelitian. Perhatikan flow berikut ini.
Bagi saya, ada 3
titik kritis pada workflow di atas yang tidak boleh
salah. Yakni:
- Formulasi masalah; Saya pernah menulis artikel mengenai formulating market research problem, kindly refer to this post yah. Bagian ini adalah titik kritis terpenting yang tidak boleh salah. Salah dalam merumuskan masalah mengakibatkan keseluruhan flow akan menjadi sia-sia. Luangkan waktu lebih banyak untuk merumuskan masalah. Jangan tergesa – gesa dalam hal ini!
- Designing research; Mencakup mendefinisikan data apa yang hendak diambil, designing target sample, sampling technique, questioner making, sampai conducting interview jika project-nya terkait survey.
- Analisa data; Jika dua titik kritis sebelumnya sudah benar, kesalahan pada saat analisa data cenderung bisa dimaafkan. Kemungkinan terburuknya adalah dengan mengulang analisa lagi selama sekian hari.
Lalu apa hubungannya dengan kualitas dari data?
Perhatikan bahwa pada titik kritis pertama dan kedua, kita hendaknya telah memiliki formulasi masalah yang tepat dan tajam. Masalah yang ada tersebut akan kita turunkan menjadi research objectives atau tujuan. Research objectives adalah petunjuk bagi kita dalam membuat suatu design research.
Data yang bagus adalah data yang bisa menjawab research objectives!
Selama syarat tersebut terpenuhi, maka saya bisa katakan bahwa data tersebut sudah bagus.
Selain itu, ada juga 2
parameter yang bisa menjadi pertimbangan bagi
kita untuk menilai seberapa bagus data yang kita miliki, yakni:
- Data yang bagus biasanya berasal dari random sampling. Ada kondisi dimana data tidak bisa cari secara acak. Tapi jika kita berhadapan dengan data yang relatif mudah diambil, saya akan sangat menyarankan untuk diambil secara acak atau ambil semua data yang ada.
- Untuk data yang diambil berulang-ulang (periodik, misal harian, mingguan, bulanan, atau tahunan), sebaiknya cara pengambilan data harus sama.
Saatnya Untuk Menganalisa Data!
Jangan terburu-buru untuk melakukan analisa data. Kenapa?
Walaupun data kita sudah bisa menjawab tujuan TAPI tetap harus dicek terlebih dahulu secara statistik.
Apa saja proses pengecekannya?
- Data preparation.
- Data cleaning.
Consistency check adalah mengecek konsistensi content dari suatu cells yang ada di dalam data kita (misalkan tabel di Ms. Excel). Hal-hal yang biasa dicek adalah:
- Konsistensi antara
character
ataunumber
. - Penggunaan tanda baca tertentu seperti:
,
atau.
. - Standarisasi penulisan
character
di dalam cell. - Structured dan format checked.
Ada kalanya kita menemui data yang kosong (bolong-bolong). Bagaimana menghadapi masalah ini?
- Jangan terburu-buru untuk menghapus baris data yang kosong tersebut!
- Jika kita memiliki baris data yang relatif banyak, kita bisa mempertimbangkan untuk menghapus baris data yang kosong tersebut.
- Kita bisa mengisi kekosongan data yang ada dengan nilai
mean
,median
, ataumodus
tergantung dari tipe data yang kita miliki.
Ada juga kalanya kita menemui data yang memiliki nilai pencilan (extreme values). Bagaimana menghadapi masalah ini?
- Jangan terburu-buru untuk menghapus baris data yang memiliki nilai pencilan tersebut!
- Ingat! untuk menghapus nilai pencilan ada aturan secara statistik yang harus dilakukan (analisa boxplot).
- Daripada menghapus baris data yang mengandung nilai pencilan, ada baiknya untuk menambah banyaknya baris data kita.