TUTORIAL R for DATA SCIENCE - part 1: Intro
Untuk apa saya belajar R?
Di era digitalisasi ini, disadari atau tidak data tersebar di mana-mana. Data juga dihasilkan dengan volume yang besar dalam waktu singkat.
Analoginya seperti ada sungai yang memiliki arus yang deras dan kencang. Seperti itulah kondisi saat ini.
Tools analisa data klasik seperti Ms. Excel dan SPSS sudah tidak mampu lagi melakukan analisa big data yang seringkali berbentuk unstructured data.
R tidak sendirian, ada juga software lain bernama Python. Keduanya digunakan untuk membuat algoritma artificial intelligence (bahasa keren dari machine learning. Bahasa kerennya dari computational science).
Pendahuluan
R merupakan salah satu bahasa pemrograman yang biasa digunakan untuk menyelesaikan permasalahan terkait dengan data. Kita bisa membuat model prediksi (machine learning, artificial intelligence, dan deep learning) sampai membuat algoritma automasi menggunakan R.
Apa perbedaan R dan Python?
Salah satu kelebihan R adalah:
R is made by statistician for statistician. Setiap package atau library yang di-launching di R biasanya disertakan dengan jurnal ilmiah sehingga kita bisa dengan yakin memakainya.
R tersedia secara open source sehingga software ini gratis dan dikembangkan secara massal oleh komunitas-komunitas di seluruh dunia. Sehingga package atau library yang disediakan untuk analisis statistika dan analisa numerik juga sangat lengkap dan terus bertambah setiap saat.
Bagaimana dengan Python?
Sejatinya Python digunakan untuk membangun aplikasi. Namun, belakangan ini ternyata Python disadari bisa untuk melakukan pengolahan data. Berbeda dengan R yang memang dibangun untuk kebutuhan data science, Python membutuhkan libraries setiap kali melakukan pengolahan data.
Materi training ini saya kumpulkan dari berbagai sumber dan saya customize berdasarkan pengalaman selama ini berkutat dengan data yang ada (dari mulai data pabrik hingga finance).
Sejarah
R Merupakan bahasa yang digunakan dalam komputasi statistik yang pertama kali dikembangkan oleh Ross Ihaka dan Robert Gentlement di University of Auckland New Zealand yang merupakan akronim dari nama depan kedua pembuatnya. Sebelum R dikenal ada S yang dikembangkan oleh John Chambers dan rekan-rekan dari Bell Laboratories yang memiliki fungsi yang sama untuk komputasi statistik. Hal yang membedakan antara keduanya adalah R merupakan sistem komputasi yang bersifat gratis.
Fitur dan Karakteristik
Sama halnya dengan bahasa pemograman lainnya. Berbeda bahasa berarti berbeda peraturan / cara menulis code (algoritma). Tapi jangan khawatir, dengan memanfaatkan tidy principle di R, kita bisa menulis algoritma dengan mudah (bagi kita dan pembaca algoritmanya).
Oleh karena itu, menurut saya R menawarkan learning curve yang jauh lebih baik dibandingkan Python. Beberapa karakter dari R adalah sebagai berikut:
- Bahasa R bersifat case sensitive. Setiap perbedaan cara penulisan (kapital vs non kapital) akan membedakan suatu objek. Contoh:
x = 'DATA'
y = 'Data'
x == y
## [1] FALSE
- Segala sesuatu yang ada pada program R akan diangap sebagai objek. konsep objek ini sama dengan bahasa pemrograman berbasis objek yang lain seperti Java, C++, Python, dll. Perbedaannya adalah bahasa R relatif lebih sederhana dibandingkan bahasa pemrograman berbasis objek yang lain.
- Interpreted language atau script. Bahasa R memungkinkan pengguna untuk melakukan kerja pada R tanpa perlu melakukan compile menjadi executionable file (.exe).
- Mendukung proses loop, decision making, dan menyediakan berbagai jenis operator (aritmatika, logika, dll).
- Mendukung export dan import berbagai format file, seperti:
.txt
,.xlsx
,.csv
,.json
,sql
, dll. - Mudah ditingkatkan melalui penambahan fungsi atau library. Penambahan ini dapat dilakukan secara online melalui CRAN atau melalui sumber seperti github.
- Menyedikan berbagai fungsi untuk keperluan visualisasi data.
Visualisasi data pada R dapat menggunakan library bawaan atau
lainnya seperti
ggplot2
,ggvis
,plotly
, dll.
Kelebihan dan Kekurangan R
Selain karena R dapat digunakan secara gratis terdapat kelebihan lain yang ditawarkan, antara lain:
- Protability, penggunaan software dapat digunakan kapanpun tanpa terikat oleh masa berakhirnya lisensi.
- Multiplatform, R bersifat Multiplatform Operating Systems, dimana R bisa dijalankan di OS manapun. Baik Windows, iOS, Linux, Raspbian, bahkan Android! Dengan fitur yang sama (tidak ada perbedaan fitur di semua OS).
- Programable, pengguna dapat membuat fungsi dan metode baru atau mengembangkan modifikasi dari analisis statistika yang telah ada pada sistem R.
- Fasiltas grafik yang lengkap.
Adapun kekurangan dari R antara lain:
- Point and Click GUI, interaksi utama dengan R bersifat CLI
(Command Line Interface), walaupun saat ini telah dikembangkan
library yang memungkinkan kita berinteraksi dengan R
menggunakan GUI (Graphical User Interface) sederhana
menggunakan
library(R-Commander)
yang memiliki fungsi yang terbatas.
R vs R Studio
Pada dasarnya, software R bisa di-download dan di-install langsung dari situs CRAN. Software R ini bersifat CLI.
Bayangkan Anda membuka aplikasi notepad. Putih dan bersih kan? Seperti itulah software R.
Bagi Kamu yang kaget dan tidak terbiasa melihat tampilan yang intimidating seperti itu, Kamu bisa meng-install software R Studio. Sebuah software GUI yang bisa membuat R terlihat lebih user friendly. R Studio bisa di-download di sini.
Tapi tolong diperhatikan bahwa R Studio hanya tambahan tampilan dari R standar. Jadi Kamu tetap harus meng- install R yah!
Kelebihan R Studio antara lain:
- Free, kita bisa memilih versi gratis dari R Studio tanpa ada pengurangan fitur dasar dari R.
- R Studio Cloud, tersedia layanan cloud sehingga bisa diakses dan digunakan menggunakan browser di gadget manapun. Layanan cloud ini bisa diakses di sini dan dikoneksikan ke akun github Kamu. Kira-kira seperti ini tampilannya jika dibuka di Chrome for Android:
- Shiny Apps, kita bisa membuat apps berbasis web dari R. Apps ini bisa dijadikan dashboard atau mesin kalkulasi otomatis. Tergantung seberapa jauh Kamu membuat coding algoritmanya.
- R Markdown, ini fitur yang paling saya sukai. Bahkan untuk menulis
web ini, saya menggunakan R Markdown. Output files -nya beragam,
mulai dari
docx
,pptx
,pdf
,html
,md
, dll. Bahkan kita bisa membuat e-book dengan memanfaatkanlibrary(bookdown)
.
Jadi, setelah membaca bagian ini pastikan Kamu sudah meng- install R dan R Studio yah.
Jangan sampai terbalik urutan instalasinya!
Google Colab
Selain menggunakan installed software seperti R dan R Studio, kita juga bisa membuat algoritma menggunakan R secara cloud service pada situs Google Colab.
Kelebihannya menggunakan Google Colab adalah:
- Tidak perlu install apapun!. Bisa diakses menggunakan gadget manapun asal tersambung dalam koneksi internet.
- Pre-installed dengan libraries untuk melakukan machine learning bahkan deep learning.
- Sering digunakan dalam kompetisi data sains.
Kelemahannya adalah:
- Untuk libraries yang
jarang
dipakai, kita harus meng-install-nya setiap kali menjalankan environment Google Colab.
to be continued
if you find this article helpful, support this blog by clicking the
ads.