Saat Model Prediksi Memberikan Hasil yang Akurat Tapi Jelek
Nah lho? Apakah kalian pusing membaca judul artikel ini? Hehe
Jadi begini ceritanya:
Beberapa minggu belakangan ini, saya diminta melakukan analisa
kausalitas dari dua variabel ke suatu variabel tertentu. Semua variabel
yang terlibat berupa numerik. Misalkan saya berikan nama variabel
dan
sebagai
predictors dan
sebagai targetnya.
Salah satu bentuk model kausalitas yang paling sederhana adalah regresi. Jadilah saya mencoba membuat model regresi sebagai berikut:
Sebelum membuat regresi, tentu saya harus melihat kembali asumsi-asumsi yang ada, seperti:
- Linearitas; Hubungan antara predictors dan target harus linear. Artinya, perubahan pada variabel independen harus menghasilkan perubahan yang proporsional pada variabel dependen.
- Independensi; Observasi atau data harus independen satu sama lain. Tidak boleh ada korelasi atau ketergantungan antar observasi.
- Tidak Ada Multikolinearitas; predictors tidak boleh berkorelasi tinggi satu sama lain. Multikolinearitas dapat menyebabkan masalah dalam estimasi koefisien regresi dan interpretasi hasil.
Beberapa asumsi penting lain baru akan saya hitung setelah model saya selesai dibuat, seperti:
- Normalitas Residual; Selisih antara nilai observasi dan nilai prediksi harus berdistribusi normal. Asumsi ini penting untuk validitas uji hipotesis dan interval kepercayaan.
- Homoskedastisitas; Varians dari residual harus konstan di seluruh rentang nilai predictors.
Singkat cerita, saya telah selesai membuat model regresi.
Untuk menguji seberapa baik performa modelnya, saya menghitung
dan mean
absolute error (MAE).
Saya mendapatkan hasil yang menarik, yakni:
yang saya dapatkan kecil.
- MAE yang saya dapatkan kecil alias error yang dihasilkan kecil sehingga bisa dibilang hasil prediksi model saya akurat.
Sebuah hasil yang saling bertolak belakang.
Kenapa hal ini bisa terjadi? Mari kita telaah bersama.
Memahami Metrik
mengukur
seberapa besar proporsi varians dalam variabel terikat yang dapat
dijelaskan oleh variabel bebas dalam model.
yang rendah
menunjukkan bahwa model tidak menjelaskan banyak variasi dalam data.
Sedangkan MAE mengukur rata-rata perbedaan antara nilai prediksi dan
nilai aktual. MAE yang rendah berarti prediksi model cukup akurat.
dan MAE
fokus pada aspek yang berbeda dari kinerja model:
: seberapa baik model menjelaskan data secara keseluruhan.
- MAE : Seberapa akurat prediksi model.
Karakteristik Data
Bisa jadi beberapa hal ini ditemukan dalam data saya:
- Variabilitas Tinggi; Jika predictors memiliki variabilitas
yang tinggi, sulit untuk mencapai
yang tinggi, meskipun prediksi cukup akurat (MAE rendah).
- Hubungan Non-linear;
mengasumsikan hubungan linear. Jika hubungan antar variabel non-linear,
mungkin rendah meskipun MAE baik.
Apa Artinya?
Model saya mungkin:
- Prediktif, tetapi tidak Explanatory: Model dapat membuat prediksi yang baik, tetapi tidak serta merta menjelaskan hubungan antar variabel dengan baik.
- Baik untuk Tujuan Tertentu: Jika tujuan utama adalah prediksi yang
akurat,
yang rendah mungkin tidak menjadi masalah selama MAE rendah.
Namun ada satu hal yang saya curigai sebagai penyebabnya, yakni:
Overfitting; oleh karena data yang saya miliki terbatas, saya tidak membagi data sebagai train dan test sehingga semua data dijadikan data input pembuatan model. Data yang dijadikan input hanya memiliki 30-40 baris saja.
Lho kenapa dipaksakan untuk dibuat?
Justru saya sengaja ingin membuat model prediksi ini sebagai bentuk pembuktian bahwa hal-hal semacam ini bisa terjadi.
if you find this article helpful, support this blog by clicking the ads.