Text Analysis: Pertanyaan Netizen Seputar Diabetes
Setiap tanggal 14 November diperingati sebagai World Diabetes Day. Setiap tanggal tersebut, Tropicana Slim melakukan berbagai macam event sebagai bentuk meningkatkan awareness publik terkait penyakit diabetes.
Jujurly, sebelum masuk Nutrifood, saya benar-benar blank sama sekali terkait apa itu penyakit diabetes. Satu-satunya hal yang saya ketahui adalah diabetes merupakan penyakit gula atau kencing manis. Padahal beberapa orang keluarga besar (Uwak, oom, dan tante - dari pihak ayah dan ibu) waktu itu sudah menjadi diabetesi. Beberapa tahun berselang saya harus menerima bahwa ibu saya seorang diabetesi juga.
Saya sangat beruntung bekerja di Nutrifood karena edukasi terkait diabetes sudah sangat kencang dan masif. Saya jadi membayangkan bagaimana dengan masyarakat awam yang masih jarang terpapar dengan edukasi diabetes. Bisa jadi pengetahuan mereka belum terlalu banyak.
Bagaimana mengukur pengetahuan masyarakat umum? Pertanyaan apa saja di benak mereka terkait diabetes?
Pikir saya.
Untuk menjawab pertanyaan saya tersebut, saya coba melakukan data collection melalui web scraping dan melakukan sedikit analisa teks. Yuk kita mulai!
Data Collection
Salah satu situs yang saya bisa gunakan untuk menjawab pertanyaan saya adalah situs alodokter.com. Di situs tersebut, masyarakat umum bisa melakukan tanya jawab kepada dokter yang ada terkait berbagai macam topik penyakit. Setelah saya cek, ternyata ada enam topik khusus terkait diabetes.
Jika kita pilih salah satu topik terkait diabetes, kita bisa melihat berbagai macam pertanyaan yang diajukan oleh netizen terkait topik ini.
Untuk masing-masing topik, saya akan ambil (hampir) semua pertanyaan yang diajukan masyarakat umum. Nah kali ini saya akan melakukan suatu hal yang berbeda.
Kalau biasanya saya develop sendiri algoritma web scraping
bermodalkan RSelenium
dan rvest
di R, kali ini saya akan
menggunakan tools web scraping yang dibuat oleh kolega saya di
komunitas R Indo dan Asosiasi Ilmuwan Data Indonesia (AIDI),
yakni Mas
Apriandito
bernama thescraper.id.
Singkat cerita, saya mendapatkan total 446 unique pertanyaan. Jika saya bagi per topik di situs Alodokter, berikut adalah sebarannya:
Objectives
Tujuan awal saya adalah mengukur seberapa aware masyarakat awam terhadap diabetes. Salah satu pendekatan yang saya bisa lakukan adalah dengan melihat hal-hal apa saja yang ditanyakan masyarakat umum di situs alodokter.
Syukur-syukur saya bisa mendapatkan hal konklusif dari analisa tersebut.
Metode
Untuk memudahkan saya melakukan analisa, saya hanya akan menganalisa judul pertanyaan yang diajukan daripada isi pertanyaannya. Alasannya karena judul pertanyaan sudah merupakan intisari dari isi pertanyaan. Jika ada rekan-rekan yang hendak melakukan analisa terhadap isi pertanyaannya, feel free untuk meminta datanya langsung ke saya yah.
Analisa
Analisa pertama yang hendak saya lakukan adalah bigrams. Saya ingin mengetahui kira-kira pasangan kata apa saja yang sering muncul dalam pertanyaan. Namun ada tahapan pre processing yang saya kerjakan terlebih dahulu, yakni menghapus semua stopwords Bahasa Indonesia dari judul pertanyaan.
Berikut adalah hasil grafiknya:
Dari temuan di atas, kita bisa mengambil beberapa hipotesa seputar hal apa saja yang sering muncul pada pertanyaan seperti:
- Pemeriksaan kadar gula darah, termasuk cara menurunkan dan berapa kadar gula yang normal.
- Penyebab, cara mengatasi, dan pengobatan diabetes, termasuk obat minum metformin dan suntik insulin.
- Perbedaan tipe-tipe diabetes.
- Gejala, luka, kaki bengkak akibat diabetes.
Ada beberapa bigrams lain yang muncul seperti efek samping, kencing manis, dan berat badan tapi tidak tersambung dengan kata lainnya. Saya tetap menduga ada hubungan tak langsung terhadap diabetes tapi saya belum terlalu bisa dengan robust menebaknya.
Analisa berikutnya adalah saya hendak melakukan clustering. Untuk membantu saya mengukur kesamaan antara satu pertanyaan dengan pertanyaan lainnya saya memakai bantuan salah satu LLM berbahasa Indonesia sentence transformers dari situs Huggingface.
Langkah berikutnya yang saya lakukan setelah menghapus stopwords adalah membuat embedding matrix berdasarkan model LLM yang saya telah pilih. Hasil finalnya adalah matriks berukuran .
Matriks ini sejatinya adalah matriks jarak antara 446 pertanyaan yang saya dapatkan.
Bermodalkan matriks ini, saya sebenarnya sudah bisa membuat analisa clustering seperti k-means, hierarchical, atau DBScan.
Kali ini saya akan bereksperimen dengan melakukan cara lain untuk menentukan metode clustering analysis, yakni dengan melakukan reduksi dimensi dari matriks jarak tersebut. Saya akan reduksi matriks sebelumnya menjadi matriks berukuran . Bagaimana caranya?
Dimension Reduction
Saya rasa mayoritas data saintis sudah sangat familiar dengan metode principal component analysis (PCA) untuk melakukan dimension reduction. PCA bertujuan untuk menjelaskan varians terbesar dalam data. PCA mencari arah (komponen utama) di mana data memiliki varians terbesar. Metodenya menggunakan transformasi linear untuk memproyeksikan data ke ruang dimensi yang lebih rendah.
Sebenarnya selain PCA ada beberapa metode lain yang kita bisa coba. Pada kasus ini, saya menggunakan metode bernama t-SNE.
Apa itu t-SNE?
t-Distributed Stochastic Neighbor Embedding adalah teknik yang sangat berguna untuk memvisualisasikan data dengan dimensi tinggi ke dalam ruang dua atau tiga dimensi.
Bagaimana t-SNE Bekerja?
Secara sederhana, t-SNE bekerja dengan cara berikut:
- Mengukur Kemiripan:
- t-SNE pertama-tama akan menghitung seberapa mirip setiap titik data dengan tetangganya dalam ruang dimensi tinggi. Kemiripan ini diukur berdasarkan jarak antara titik-titik data.
- Kemiripan ini kemudian diubah menjadi probabilitas. Probabilitas yang tinggi menunjukkan bahwa dua titik data sangat mirip dan kemungkinan besar berada dalam kelompok yang sama.
- Membuat Peta Dimensi Rendah:
- Selanjutnya, t-SNE akan mencoba untuk membuat peta baru dalam ruang dimensi yang lebih rendah (misalnya, 2D atau 3D), di mana kemiripan antara titik-titik data tetap terjaga sebisa mungkin.
- Dalam peta yang baru ini, titik-titik data yang sangat mirip dalam ruang dimensi tinggi akan ditempatkan berdekatan, sedangkan titik-titik data yang tidak mirip akan ditempatkan jauh.
- Mengoptimalkan Peta:
- Proses pembuatan peta ini bersifat iteratif. t-SNE akan terus-menerus menyesuaikan posisi titik-titik data dalam peta dimensi rendah hingga ditemukan konfigurasi yang meminimalkan perbedaan antara kemiripan dalam ruang dimensi tinggi dan dimensi rendah.
Beberapa keunggulannya adalah:
- Sangat baik dalam menangkap struktur non-linear dalam data.
- Ideal untuk visualisasi data berdimensi tinggi.
- Dapat mengungkapkan kelompok data yang kompleks.
Saya menduga untuk data berupa kalimat, bisa saja hubungan yang terjadi non linear. Oleh karena itu saya akan gunakan metode t-SNE untuk mereduksi matriks yang ada sebelumnya.
Singkat cerita, berikut adalah visualisasi dari hasil reduksi yang telah saya lakukan:
Berasal dari dimensi baru ini, saya akan hitung kembali matriks jarak yang ada dan melakukan hierarchical clustering. Alasan saya melakukan itu adalah:
Dari visualisasi di atas, akan lebih tepat jika saya tidak menggunakan k-means. Detailnya bisa rekan-rekan refer balik ke tulisan saya yang ini.
Akhirnya saya dapatkan 22 clusters pertanyaan yang terbentuk. Ada berapa banyak pertanyaan per-cluster? Berikut visualisasinya:
Apa saja isi masing-masing cluster? Saya akan rangkum menggunakan LLM summarization, berikut adalah hasilnya:
Cluster 1
- Minuman: Apa saja minuman yang bisa membantu menurunkan gula darah, seperti teh hijau, kopi, jus tomat, dan lainnya?
- Makanan: Buah-buahan seperti mengkudu dan mentimun sering disebut-sebut dalam konteks menurunkan gula darah.
- Gejala: Tanda-tanda gula darah tinggi, seperti sering haus, sering buang air kecil, dan pandangan kabur, sering ditanyakan.
- Penyebab: Faktor-faktor yang menyebabkan gula darah tinggi, seperti gaya hidup tidak sehat, genetik, dan kondisi medis tertentu.
- Pengobatan: Baik pengobatan medis konvensional maupun alternatif seperti jamu dan obat herbal sering dicari.
- Komplikasi: Dampak jangka panjang dari gula darah tinggi, seperti penyakit jantung, stroke, dan kerusakan saraf.
Cluster 2
- Definisi: Apa itu diabetes dan apa perbedaan antara tipe 1 dan tipe 2?
- Penyebab: Apa yang menyebabkan diabetes?
- Gejala: Apa saja tanda-tanda diabetes?
- Pengobatan: Bagaimana cara mengobati diabetes, termasuk penggunaan obat herbal?
- Komplikasi: Apakah ada hubungan antara diabetes dengan masalah lain seperti asam lambung?
Cluster 3
- Pengobatan: Banyak pertanyaan seputar cara mengobati diabetes, baik secara medis maupun alami, termasuk penggunaan obat-obatan, olahraga, dan makanan seperti air kelapa.
- Penyembuhan: Banyak yang bertanya apakah diabetes bisa sembuh total.
- Komplikasi: Pertanyaan tentang komplikasi diabetes seperti disfungsi ereksi juga muncul.
Cluster 4
- Buah-buahan dan Sayuran: Banyak pertanyaan tentang jenis buah-buahan dan sayuran yang aman dikonsumsi, seperti air kelapa, jagung manis, ubi madu, dan berbagai jenis buah lainnya.
- Makanan Manis: Pertanyaan tentang makanan manis seperti es krim, madu, tape, dan gula lainnya sering muncul.
- Makanan Lain: Pertanyaan tentang makanan seperti roti, nasi, sambal, dan makanan olahan lainnya juga diajukan.
- Minuman: Pertanyaan tentang minuman seperti jus pare dan air rebusan daun salam sering muncul.
- Dampak Kesehatan: Pertanyaan tentang dampak kesehatan dari berbagai jenis makanan, seperti bahaya konsumsi makanan gurih, juga diajukan.
Cluster 5
- Metode Penggunaan: Cara menyuntikkan insulin, jenis-jenis suntikan insulin, dan penggunaan pompa insulin.
- Frekuensi Penggantian: Kapan jarum insulin perlu diganti.
- Efek Samping: Dampak samping penggunaan insulin dan cara mengatasinya.
- Alternatif: Apakah ada alternatif lain selain suntikan insulin untuk diabetes tipe 1.
- Penggunaan Saat Kondisi Tertentu: Penggunaan insulin saat demam atau pada ibu hamil.
Cluster 6
- Efektivitas Metformin: Seberapa efektif metformin untuk diabetes tipe 1 dan bagaimana cara kerjanya.
- Cara Penggunaan: Dosis, frekuensi konsumsi, dan waktu yang tepat untuk minum metformin.
- Efek Samping: Berbagai efek samping yang mungkin terjadi setelah mengonsumsi metformin, seperti diare, mual, dan penurunan nafsu makan.
- Interaksi Obat: Bagaimana metformin berinteraksi dengan obat lain, seperti diuretik, obat antihipertensi, dan obat tidur.
- Kondisi Khusus: Penggunaan metformin pada kondisi tertentu, seperti saat haid atau pada pasien dengan nilai kreatinin yang meningkat.
Cluster 7
- Frekuensi normal buang air kecil: Berapa kali buang air kecil yang dianggap normal pada berbagai usia.
- Penyebab sering buang air kecil: Infeksi saluran kemih, diabetes, pembesaran prostat, dan kondisi medis lainnya.
- Gejala tambahan: Selain sering buang air kecil, gejala lain seperti sakit saat buang air kecil, demam, dan kesulitan buang air kecil juga dibahas.
- Pengobatan: Pilihan pengobatan yang mungkin, termasuk obat-obatan.
Cluster 8
- Frekuensi Pemeriksaan: Kapan waktu yang tepat untuk memeriksa gula darah dan seberapa sering pemeriksaan harus dilakukan.
- Interpretasi Hasil: Bagaimana cara menginterpretasikan hasil pemeriksaan gula darah, termasuk saat hasil menunjukkan nilai yang tinggi, rendah, atau tidak stabil.
- Faktor yang Mempengaruhi: Bagaimana aktivitas fisik, pola makan, dan obat-obatan mempengaruhi kadar gula darah.
- Penanganan: Cara menurunkan kadar gula darah yang tinggi, termasuk penggunaan insulin dan obat-obatan oral.
- Komplikasi: Hubungan antara kadar gula darah yang tidak terkontrol dengan gejala seperti sering buang air kecil.
Cluster 9
- Efek Samping Minuman: Banyak pertanyaan tentang efek samping dari konsumsi berlebihan air putih, gula aren, dan minuman berkafein seperti kopi.
- Gejala Diabetes: Pertanyaan tentang gejala diabetes seperti lemas, sering buang air kecil, dan keinginan kuat untuk makan.
- Pengelolaan Diabetes: Pertanyaan tentang cara mengelola diabetes, termasuk pilihan makanan, minuman, dan gaya hidup sehat.
- Pengaruh Makanan: Bagaimana jenis makanan tertentu, seperti makanan manis dan berkafein, dapat mempengaruhi kadar gula darah dan kesehatan secara keseluruhan.
Cluster 10
- Komplikasi Diabetes: Pertanyaan tentang amputasi, gangguan saraf, masalah kulit, dan masalah tidur pada penderita diabetes.
- Penyakit Lain: Pertanyaan tentang penyakit lain yang sering menyertai diabetes, seperti tuberculosis, penyakit autoimun, dan gangguan hormon.
- Prosedur Medis: Pertanyaan tentang anestesi, operasi caesar, dan operasi bariatrik.
- Gejala Umum: Pertanyaan tentang gejala seperti keringat berlebih, bau mulut, dan kesulitan tidur.
- Perkembangan Penyakit: Pertanyaan tentang perubahan penyakit dari tipe 1 ke tipe 2 dan perkembangan penyakit pada anak.
Cluster 11
- Penyebab: Mengapa diabetes gestasional, diabetes insipidus, dan diabetes melitus tipe 2 terjadi.
- Gejala: Gejala-gejala umum dari masing-masing jenis diabetes, seperti sering buang air kecil, haus, dan dehidrasi.
- Pengobatan: Pilihan pengobatan untuk diabetes insipidus dan diabetes gestasional.
- Komplikasi: Hubungan antara diabetes dengan kondisi lain seperti infeksi saluran kemih dan preeklamsia.
- Kemungkinan Sembuh: Apakah diabetes insipidus dan diabetes melitus tipe 2 dapat sembuh total.
Cluster 12
Pertanyaan-pertanyaan pada cluster ini umumnya berpusat pada gejala diabetes melitus. Gejala-gejala yang sering disebutkan antara lain:
- Sering haus dan buang air kecil: Ini adalah gejala yang paling umum pada diabetes.
- Rasa lapar yang berlebihan: Meskipun sudah makan, penderita diabetes sering merasa lapar.
- Penurunan berat badan: Meskipun nafsu makan baik, penderita diabetes sering mengalami penurunan berat badan.
- Kelelahan dan lemas: Kelelahan dan lemas adalah gejala umum yang sering dirasakan oleh penderita diabetes.
- Pusing dan pandangan kabur: Gejala ini sering muncul akibat kadar gula darah yang tidak stabil.
Cluster 13
- Perbedaan antara diabetes tipe 1 dan tipe 2: Fokus pada perbedaan penyebab, gejala, dan cara pengobatan.
- Prediabetes: Apa itu prediabetes, bagaimana cara mendeteksinya, dan apakah bisa kembali normal.
- Istilah yang sering digunakan: Menjelaskan perbedaan antara istilah seperti diabetes, diabetes melitus, diabetes basah, dan diabetes kering.
Cluster 14
- Perbedaan Luka: Apa yang membedakan luka diabetes dengan luka biasa, dan mengapa luka diabetes seringkali sulit sembuh?
- Penyebab: Mengapa penderita diabetes lebih rentan mengalami luka dan infeksi?
- Pengobatan: Bagaimana cara merawat luka diabetes agar cepat sembuh dan mencegah komplikasi seperti infeksi?
- Pencegahan: Cara mencegah terjadinya luka pada penderita diabetes.
Cluster 15
- Gejala Diabetes: Pertanyaan tentang berbagai gejala diabetes, baik yang umum seperti sering buang air kecil dan haus, maupun gejala yang lebih spesifik seperti perubahan kulit, masalah penglihatan, dan kelelahan.
- Faktor Risiko: Pertanyaan tentang faktor risiko diabetes, termasuk faktor genetik (keturunan) dan gaya hidup.
- Komplikasi: Pertanyaan tentang komplikasi diabetes, seperti masalah pada kulit dan kaki.
- Pencegahan: Pertanyaan tentang cara mencegah diabetes dan komplikasi yang terkait.
Cluster 16
- Diabetes dan Kesuburan: Bagaimana diabetes memengaruhi kesuburan, baik pada pria maupun wanita?
- Kehamilan dan Diabetes: Bagaimana cara merencanakan kehamilan bagi penderita diabetes? Apa saja risiko dan tantangan yang mungkin dihadapi?
- Faktor Risiko: Apa saja faktor yang meningkatkan risiko seseorang terkena diabetes, termasuk faktor genetik dan gaya hidup?
- Komplikasi: Bagaimana diabetes dapat memengaruhi kondisi kesehatan secara keseluruhan, termasuk tekanan darah, kadar gula darah, dan fungsi pencernaan?
Cluster 17
- Komplikasi: Bagaimana diabetes dapat menyebabkan komplikasi seperti gagal ginjal, anemia, dan masalah lain.
- Pengobatan: Apa saja pilihan pengobatan untuk diabetes, termasuk penggunaan vaksin dan terapi lain.
- Pemantauan: Pentingnya pemeriksaan kadar gula darah (HbA1c) dan vaksinasi untuk penderita diabetes.
- Penyebab: Mengapa diabetes dapat terjadi dan faktor-faktor apa yang dapat memperburuk kondisi.
Cluster 18
- Jenis Diabetes: Perbedaan antara diabetes tipe 1 dan tipe 2, serta faktor risiko yang memicu masing-masing tipe.
- Diagnosis: Cara mengetahui seseorang menderita diabetes tipe 1 atau tipe 2.
- Pengobatan: Pilihan pengobatan untuk diabetes tipe 1 dan tipe 2, termasuk perubahan gaya hidup dan penggunaan obat-obatan.
- Penyebab: Faktor-faktor yang dapat menyebabkan diabetes, seperti genetik dan gaya hidup.
Cluster 19
- Kadar Gula Darah Normal: Batas normal kadar gula darah untuk berbagai kelompok usia, baik sebelum maupun sesudah makan.
- Pengaruh Puasa: Bagaimana puasa memengaruhi kadar gula darah, terutama pada ibu hamil.
- Kondisi Medis: Bagaimana kondisi seperti kehamilan dapat memengaruhi kadar gula darah.
Cluster 20
- Kaki Bengkak: Hubungan antara kaki bengkak dengan diabetes, penyebab, dan cara mengatasinya.
- Kesemutan dan Kebaas: Penyebab kesemutan dan kebas pada kaki, terutama pada penderita diabetes.
- Nyeri: Jenis-jenis nyeri yang sering dialami penderita diabetes, seperti nyeri kaki, nyeri saat berjalan, dan nyeri setelah amputasi.
- Gejala Lain: Gejala lain yang sering menyertai komplikasi diabetes pada kaki, seperti kaki dingin, keringat dingin, dan kelemahan.
Cluster 21
- Gatal-gatal: Hubungan antara kadar gula darah tinggi dan gatal-gatal pada kulit. Penyebab gatal-gatal pada penderita diabetes, seperti infeksi jamur dan kerusakan saraf.
- Kulit Menghitam: Penyebab kulit menghitam pada penderita diabetes, terutama di area kaki.
- Perawatan Kulit: Cara merawat kulit bagi penderita diabetes, termasuk mengatasi gatal-gatal, kulit kering, dan infeksi.
Cluster 22
- Keamanan Susu: Apakah susu, terutama susu bubuk, aman dikonsumsi oleh penderita diabetes?
- Nutrisi: Nutrisi apa saja yang perlu diperhatikan dalam memilih susu untuk penderita diabetes, seperti kandungan gula, lemak, dan kalsium.
- Rekomendasi: Susu merek apa yang direkomendasikan untuk penderita diabetes, terutama lansia.
Kesimpulan dan Remarks
Dari hasil di atas, saya coba rangkum beberapa hal sebagai berikut ini:
- Terkait metode dan teknik clustering yang dilakukan:
- Sepertinya penentuan berapa banyak cluster masih bisa dipertajam lagi sehingga benar-benar tidak ada clusters yang saling tumpang tindih.
- Dari temuan di atas, kita bisa lihat bahwa beberapa clusters memiliki beberapa topik yang isinya hampir mirip. Kemudian kita bisa lihat juga beberapa clusters benar-benar berbeda dengan clusters lainnya.
- Saya sempat berdiskusi dengan Mas Apriandito tentang metode mana yang lebih pas untuk membuat matriks jarak dari data teks. Saya dulu pernah mencoba menggunakan metode tf-idf. Kali ini dengan embedding matrix via LLM. Hasilnya memang masih belum 100% sesuai dengan keinginan tapi siapa tahu dalam waktu beberapa tahun ke depan akan muncul model yang lebih sempurna lagi.
- Terkait isi clusters:
- Cluster 22 khusus menyebutkan tentang susu dan nutrisi bagi penderita diabetes. Sebenarnya menarik untuk melihat bagaimana jawaban dokter dari pertanyaan yang dilontarkan netizen pada cluster ini.
- Beberapa clusters memiliki topik pertanyaan spesifik yang menarik untuk ditelusuri bagaimana jawaban dokternya.
Oke, jika kembali ke pertanyaan awal saya. Apakah saya bisa dengan konklusif mengukur seberapa pengetahuan masyarakat umum terkait diabetes?
Dilihat dari topik per clusters, clusters dengan topik yang sangat khusus (tak umum) sebenarnya sangat sedikit sekali (contohnya cluster 5, 6, dan 11). Selebihnya clusters lain lebih bersifat pertanyaan general.
Artinya memang masih banyak netizen / masyarakat umum yang masih bisa diedukasi lebih jauh tentang diabetes.
if you find this article helpful, support this blog by clicking the ads
.