Pengembangan Model Deteksi Hoaks Berbahasa Indonesia Menggunakan Kombinasi IndoBERT dan BiLSTM
Kata Kunci:
IndoBERT, BiLSTM, Deteksi Hoaks, Klasifikasi TeksAbstrak
Hoaks merupakan informasi yang secara sengaja dibuat untuk menyesatkan pembaca. Hoaks umumnya mempunyai karakteristik struktur bahasa yang tidak rapi dan penggunaan kosakata yang bernuansa emosional. Penyebaran hoaks yang cepat dan masif membuat pendeteksian hoaks secara otomatis melalui pendekatan machine learning dibutuhkan. Pendeteksian hoaks merupakan salah satu bentuk implementasi klasifikasi teks yang dapat dilakukan dengan pemrosesan linguistik secara kontekstual. Penelitian terdahulu memanfaatkan Convolutional Neural Network (CNN) dan Long-Short Term Memory (LSTM) untuk melakukan klasifikasi teks. Dalam penelitian selanjutnya, Bidirectional Encoder Representation from Transformers (BERT) mulai diperkenalkan dan banyak digunakan dalam melakukan klasifikasi teks. Indonesian Bidirectional Encoder Representation from Transformers (IndoBERT) merupakan BERT yang dikembangkan untuk dapat melakukan klasifikasi teks dalam bahasa Indonesia. Penelitian kali ini bertujuan untuk mengeksplorasi potensi peningkatan performa model machine learning dalam mendeteksi hoaks dengan mengkombinasikan IndoBERT dan Bidirectional LSTM (BiLSTM). Peneliti mengusulkan dan menguji tiga model yang berbeda: IndoBERT-BC menggunakan fine tuning approach, IndoBERT-BiC menggunakan feature-based approach, dan IndoBERT-CC menggunakan kombinasi dari dua pendekatan tersebut. Dataset yang digunakan berasal dari portal berita CNN Indonesia untuk berita bukan hoaks dan TurnBackHoax.ID untuk berita hoaks. Dalam menentukan model terbaik kami melakukan evaluasi dengan menggunakan skor akurasi, skor F1, serta skor Receiver Operating Characteristic Area Under the Curve (ROC_AUC). Dari tiga model tersebut, model IndoBERT-CC menghasilkan rata-rata skor ROC_AUC sebesar 0.999, serta rata-rata skor F1 dan akurasi masing - masing sebesar 0.988. Nilai ini lebih tinggi dibandingkan nilai skor F1, akurasi, dan ROC_AUC dari IndoBERT-BC dan IndoBERT-BiC.
Referensi
G. G. Heryanto, Media Komunikasi Politik : Relasi Kuasa Media di Panggung Politik. Yogyakarta, Indonesia: IRCiSoD, 2018.
S. Pora, R. Pora, dan D. Muksin, “Hoax Ratna Serumpaet dan perang wacana di media sosial: Ratna Serumpaet Hoax and discourse war on social media,” Journal of Goverment Science (GovSci) : Jurnal Ilmu Pemerintah, Vol. 3(1), hal. 22-34, 2022, doi: 10.54144/govsci.v3i1.28.
R. Yusuf dan S. Suyanto, “Hoax Detection on Indonesian Text using Long Short-Term Memory,” Proc. 2022 5th International Conference on Information and Communications Technology (ICOIACT'22), 2022, hal. 268-271, doi: 10.1109/ICOIACT55506.2022.9972086.
A. Z. M. Noor, R. Gernowo, dan O. D. Nurhayati, “Data Augmentation for Hoax Detection through the Method of Convolutional Neural Network in Indonesian News,” Penelitian Pendidikan IPA, Vol 9(7), hal. 5078–5084, 2023, doi: 10.29303/jppipa.v9i7.4214
F. Koto, A. Rahimi, J. H. Lau, dan T. Baldwin, “IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NL,” Proc. 28th International Conference on Computational Linguistics (ICCL'20), 2020, hal. 757-770, doi :10.18653/v1/2020.coling-main.66
J. Delvin, M-W. Chang, K. Lee, dan K. Toutanova, “BERT: Pre-Trained of Deep Bidirectional Transformer for Language Understanding,” Proc. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL), Vol. 1, 2019, hal. 4171-4186, doi : 10.18653/v1/N19-1423
S. Hochreiter dan J. Schmidhuber, “Long Short-Term Memory,” Neural Comput, Vol. 9(8), hal. 1735–1780, 1997, doi: 10.1162/neco.1997.9.8.1735
A. Graves dan J. Schmidhuber, "Framewise phoneme classification with bidirectional LSTM networks," Proc. IEEE International Joint Conference on Neural Networks, 2005, hal. 2047-2052, doi: 10.1109/IJCNN.2005.1556215.
X. Li, Y. Lei, dan S. Ji, “BERT-and BiLSTM-Based Sentiment Analysis of Online Chinese Buzzwords,” Future Internet, Vol. 14(11), hal. 332, 2022, doi: 10.3390/fi14110332.
X. Wang, H. Xu, X. Sun, dan G. Tao, “Combining Fine-Tuning with a Feature-Based Approach for Aspect Extraction on Reviews (Student Abstract),” Proc. The AAAI Conference on Artificial Intelligence, 2020, paper 34, doi: 10.1609/aaai.v34i10.7248.
Unduhan
Diterbitkan
Terbitan
Bagian
Lisensi
Hak Cipta (c) 2024 Lim Bodhi Wijaya, Yosef Nuraga Wicaksana, Sri Saraswati Widhiasari, Ari Saptawijaya
Artikel ini berlisensi Creative Commons Attribution-NonCommercial 4.0 International License.