Outlier detection adalah sebuah sebuah task dalam data mining yang berupaya mengenali outlier dalam sekumpulan besar data. Outlier sendiri adalah sebuah titik data pada suatu basis data yang sangat berbeda dibandingkan dengan titik data pada basis data pada umumnya. Berbeda dengan sebagian task lain dalam data mining yang mengutamakan akurasi dari keseluruhan data (hingga tak jarang mengabaikan data yang frekuensinya kecil), outlier detection justru berusaha mengenalinya karena data tersebut mungkin memiliki informasi yang berharga.
Salah satu cara deteksi outlier dengan pendekatan data mining adalah dengan metode clustering. Clustering membagi data dalam kelompok2 dengan memaksimalkan kesamaan intra-class dan meminimalkan persamaan inter-class (hehe.. jadi inget, ini hampir jadi pertanyaan mematikan buat penulis 1 tugas akhir ini). Pada deteksi outlier dengan cara ini, sebuah titik data disebut outlier jika tidak memiliki kesamaan dengan data lain atau jika frekuensi data pada sebuah cluster sangat sedikit (dibanding cluster lain).
Kebanyakan penelitian tentang deteksi outlier menggunakan data numerik sebagai obyek pengujian, antara lain karena data jenis ini dapat mengalami perhitungan untuk menentukan jarak antar titik data. Penelitian yang dilakukan oleh Aditya Pamungkas dengan pembimbing Pak Kiki dan saya ini menerapkan deteksi outlier pada data kategoris (bukan berupa angka yang dapat dilakukan perhitungan) karena kebanyakan data yang ada justru kategoris.
LSA merupakan sebuah algoritma yang mampu melakukan clustering dengan baik pada data kategoris, dan penelitian ini (pengujian dilakukan pada parameter akurasi dan waktu terhadap peningkatan jumlah data dan jumlah outlier dalam data) menunjukkan hasil yang mendukung pernyataan tersebut.
No comments:
Post a Comment