Aplikasi
Pendeteksi Duplikasi Dokumen Teks Bahasa Indonesia Menggunakan Algoritma
Winnowing Dengan Metode K-Gram Dan Synonym Recognition
Mudafiq Riyan
Pratama1, Eko Budi Cahyono2, Gita Indah Marthasari3
Jurusan Teknik Informatika Universitas Muhammadiyah Malang
Abstract
The
practice of document plagiarism is often applied by both academics in school
and university level which does not reflect the attitude of a highly creative
and educated as intellectuals. Sometimes the act of plagiarism was modified by
replacing the words that contain synonyms, with the intention that looks
different from the original article. Duplication detection system uses an winnowing
algorithm which its output in the form of a set of hash values as a document fingerprinting obtained through the
method of k-grams. Input from document fingerprinting process is a text file.
Then its output will be a set of hash value, called a fingerprint. Fingerprint
is what will be the basis of a comparison between the text files that have been
entered. The existence of the concept synonym recognition is intended to be
able to recognize words that contain synonyms as an act of plagiarism. Detecting
duplicate using synonyms get a higher percentage than without using synonyms.
1. Pendahuluan
Pemanfaatan
teknologi digital telah menjadi kebutuhan dalam era modern saat ini. Komponen
yang ada di dalam dunia digital salah satunya adalah dokumen teks. Dokumen
dalam bentuk digital memudahkan dalam hal penyimpanan, efisien, mudah dicari,
bahkan mudah dalam hal penjiplakan.
Penjiplakan atau plagiarisme berarti mencontoh atau meniru atau mencuri tulisan dan karya orang lain yang kemudian diakui sebagai karangannya sendiri dengan ataupun tanpa seizin penulisnya. Penjiplakan dokumen digital bukanlah hal yang susah, cukup dengan menggunakan teknik copy-paste-modify pada sebagian isi dokumen dan bahkan keseluruhan isi dokumen sudah bisa dikatakan bahwa dokumen tersebut merupakan hasil duplikasi dari dokumen lain.
Praktek penjiplakan dokumen ini seringkali diterapkan oleh akademisi baik tingkat sekolah maupun perguruan tinggi. Tindakan plagiat yang dilakukan oleh siswa maupun mahasiswa ini sangat tidak mencerminkan sikap kreatif dan terpelajar sebagai kaum intelektual. Demi menyelesaikan tugas-tugasnya dengan cepat, siswa maupun mahasiswa dapat melakukan teknik copy-paste-modify tanpa perlu mempelajari dan mengeksplorasi materi terlebih dahulu. Kadangkala tindak penjiplakan ini dimodifikasi dengan mengganti kata-kata yang mengandung sinonim, dengan maksud agar terlihat berbeda dari pekerjaan teman. Hal semacam ini dapat menimbulkan masalah terhadap evaluasi hasil belajar siswa/mahasiswa.
Proses pendeteksian penjiplakan ini menggunakan algoritma Winnowing yang mana output-nya berupa sekumpulan nilai hash yang didapatkan melalui metode k-gram. Sedangkan konsep synonym recognition ini dimaksudkan untuk dapat mengenali kata-kata yang mengandung sinonim sebagai tindak penjiplakan.
Penjiplakan atau plagiarisme berarti mencontoh atau meniru atau mencuri tulisan dan karya orang lain yang kemudian diakui sebagai karangannya sendiri dengan ataupun tanpa seizin penulisnya. Penjiplakan dokumen digital bukanlah hal yang susah, cukup dengan menggunakan teknik copy-paste-modify pada sebagian isi dokumen dan bahkan keseluruhan isi dokumen sudah bisa dikatakan bahwa dokumen tersebut merupakan hasil duplikasi dari dokumen lain.
Praktek penjiplakan dokumen ini seringkali diterapkan oleh akademisi baik tingkat sekolah maupun perguruan tinggi. Tindakan plagiat yang dilakukan oleh siswa maupun mahasiswa ini sangat tidak mencerminkan sikap kreatif dan terpelajar sebagai kaum intelektual. Demi menyelesaikan tugas-tugasnya dengan cepat, siswa maupun mahasiswa dapat melakukan teknik copy-paste-modify tanpa perlu mempelajari dan mengeksplorasi materi terlebih dahulu. Kadangkala tindak penjiplakan ini dimodifikasi dengan mengganti kata-kata yang mengandung sinonim, dengan maksud agar terlihat berbeda dari pekerjaan teman. Hal semacam ini dapat menimbulkan masalah terhadap evaluasi hasil belajar siswa/mahasiswa.
Proses pendeteksian penjiplakan ini menggunakan algoritma Winnowing yang mana output-nya berupa sekumpulan nilai hash yang didapatkan melalui metode k-gram. Sedangkan konsep synonym recognition ini dimaksudkan untuk dapat mengenali kata-kata yang mengandung sinonim sebagai tindak penjiplakan.
Silahkan download jurnal lengkapnya:









