7 minute read

Mengenal Data

Sebelum memulai bekerja dengan R, ada baiknya saya jelaskan dan ingatkan kembali beberapa hal penting terkait data. Dengan demikian, kita bisa memilih jenis analisa statistika apa yang tepat untuk tipe-tipe data yang berbeda.

Tipe Data (statistika)

Secara statistika, berikut adalah pembagian data berdasarkan tipenya:

  1. Data kualitatif: adalah data yang tidak bisa dilakukan operasi aritmatika (penjumlahan, pengurangan, pembagian, dan perkalian). Data seperti ini, kita akan sebut sebagai data kategorik.
    1. Nominal; Representasi dari sesuatu. Contoh: gender, 1 saya tulis sebagai pria dan 2 saya tulis sebagai wanita.
    2. Ordinal; Urutan dari data menjadi penting. Contoh: skala likert 1 - 6.
  2. Data kuantitatif: adalah data yang bisa dilakukan operasi aritmatika (penjumlahan, pengurangan, pembagian, dan perkalian). Data seperti ini, kita akan sebut sebagai data numerik.
    1. Diskrit; bilangan bulat (integer).
    2. Kontinu; bilangan real (mengandung koma).

Tipe Data di R

Di R ada beberapa tipe data yang sering digunakan. Secara hierarki, bisa diurutkan sebagai berikut:

character > numeric > integer > logical

Oke, saya coba jelaskan satu persatu yah:

  1. character: merupakan tipe data berupa karakter atau string. Semua data bisa dilihat sebagai character. Oleh karena itu, secara hierarki tipe data ini ditempatkan di urutan paling atas. Namun, data tipe ini tidak bisa dilakukan operasi aritmatika yah.
  2. numeric: merupakan tipe data angka berupa bilangan real. Kalau saya boleh bilang, tipe data ini mirip dengan data numerik di data kuantitatif.
  3. integer: merupakan tipe data angka berupa bilangan bulat. Sekilas mirip dengan tipe data diskrit di data kuantitatif. Namun di beberapa kondisi, tipe data ini bisa dijadikan data kategorik sehingga kita bisa sebut tipenya menjadi factor.
  4. logical: merupakan tipe data boolean. Hanya berisi TRUE atau FALSE. Tipe data ini sangat berguna saat kita melakukan if conditional, looping, atau membuat regex (reguler expression).
  5. Date and time; merupakan salah satu tipe data yang rumit dalam R karena sejatinya kita harus berhati-hati dalam hal format penulisan tanggal dan jam.

Struktur Data di R

Ada beberapa bentuk struktur data di R, yakni:

  1. Single value; satu objek yang berisi satu value saja.
  2. Vector; kumpulan dari beberapa single value(s) yang menjadi satu objek. Bayangkan sebagai satu buah kolom di file Ms. Excel.
  3. Data frame atau tibble; merupakan kumpulan dari beberapa vectors yang memiliki ukuran sama. Bayangkan sebagai satu tabel di Ms. Excel yang banyaknya baris di setiap kolom sama.
  4. List; merupakan bentuk struktur data yang sangat kompleks. Berisi multiple data dengan struktur bermacam-macam.

Apa gunanya kita mengetahui jenis dan struktur data di R?

Beberapa algoritma yang tersedia di library mengharuskan kita memiliki input yang ter-standar, baik dari segi jenis dan strukturnya.

Dengan mengetahui jenis dan struktur data, kita bisa lebih mudah bekerja dengan algoritma yang ada di library.

Contoh:

Algoritma analisa simple linear regression (lm()) memerlukan input berupa data.frame() dengan masing-masing variables yang ada di dalamnya berjenis numeric.

Tata Cara Memberikan Nama Object atau Variabel

Setiap object atau variabel di R bisa diberikan nama sesuai dengan keinginan kita. Tidak ada aturan baku dalam memberikan nama.

Tapi, dengan memberikan nama yang tepat kita bisa bekerja dengan ebih cepat dan efisien. Berikut adalah tata cara pemberian nama yang akan membuat pekerjaan kita lebih efisien:

  1. Seragamkan kapital atau non kapital dari nama variabel kita. Jika menggunakan lowercase, maka harus konsisten di setiap data yang ada di environment R.
  2. Hindari penggunaan spasi “ “. Jika memang tidak bisa dihindari, gunakan tanda”.” atau “_”.
  • Contoh: variabel tinggi badan akan lebih baik ditulis dalam bentuk tinggi.badan atau tinggi_badan.

Jika sudah terlanjur memiliki nama variabel yang tidak seragam atau mengandung spasi (biasanya terjadi saat kita meng- import data dari sumber lain seperti: excel), kita bisa merapikannya dengan otomatis dengan memanfaatkan library(janitor) fungsi make_clean_names() atau clean_names().


to be continued

if you find this article helpful, support this blog by clicking the ads.