Header Ads

Header Ads

Tugas Akhir Klasterisasi untuk deteksi topik Bencana pada sosial media Twitter

Aplikasi klasterisasi bencana menggunakan algoritma Hierarchy Frequent Text Clustering (HFTC) di sosial media twitter deteksi topik,


1. Text Mining
Text mining (penambangan teks) adalah penambangan yang dilakukan oleh komputer untuk mendapatkan sesuatu yang baru, sesuatu yang tidak diketahui sebelumnya atau menemukan kembali informasi yang tersirat secara implisit, yang berasal dari informasi yang di ekstrak secara otomatis dari sumber-sumber data teks yang berbeda – beda (Feldman & Sanger 2007). Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction dan information retrival (Berry & Kogan 2010).
Pada dasarnya proses kerja dari text mining banyak mengadopsi dari penelitian Data Mining namun yang menjadi perbedaan adalah pola yang digunakan oleh text mining diambil dari sekumpulan bahasa alami yang tidak terstruktur sedangkan dalam Data Mining pola yang diambil dari database yang terstruktur. Tahap-tahap text mining secara umum adalah text preprocessing dan feature selection. Di mana penjelasan dari tahap-tahap tersebut adalah sebagai berikut :
a. Text Preprocessing

Tahap text preprocessing adalah tahap awal dari text mining. Tahap ini mencakup semua rutinitas, dan proses untuk mempersiapkan data yang akan digunakan pada operasi knowledge discovery sistem text mining . Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil dan Tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat-kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik (.), koma (,), spasi, dan karakter angka yang ada pada kata tersebut (Weiss et al. 2005).

b. Feature Selection

Tahap seleksi fitur (feature selection) bertujuan untuk mengurangi dimensi dari suatu kumpulan teks, atau dengan kata lain menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen sehingga proses pengklasteran lebih efektif dan akurat. Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword (stopword removal) dan stemming terhadap kata yang berimbuhan.
Stopword adalah kosakata yang bukan merupakan ciri (kata unik) dari suatu dokumen (Dragut et al. 2009). Misalnya “di”, “oleh”, “pada”, “sebuah”, “karena” dan lain sebagainya. Sebelum proses stopword removal dilakukan, harus dibuat daftar stopword (stoplist). Jika termasuk di dalam stoplist maka kata-kata tersebut akan dihapus dari deskripsi sehingga kata-kata yang tersisa di dalam deskripsi dianggap sebagai kata-kata yang mencirikan isi dari suatu dokumen atau keywords. Daftar kata stopword di penelitian ini bersumber dari Tala (Agusta et al. 2009).
Setelah melalui proses stopword removal tindakan selanjutnya adalah yaitu proses stemming. Stemming adalah proses pemetaan dan penguraian berbagai bentuk (variants) dari suatu kata menjadi bentuk kata dasarnya (stem) Tujuan dari proses stemming adalah menghilangkan imbuhan-imbuhan baik itu berupa prefiks, sufiks, maupun konfiks yang ada pada setiap kata. Jika imbuhan tersebut tidak dihilangkan maka setiap satu kata dasar akan disimpan dengan berbagai macam bentuk yang berbeda sesuai dengan imbuhan yang melekatinya sehingga hal tersebut akan menambah beban database. Hal ini sangat berbeda jika menghilangkan imbuhan-imbuhan yang melekat dari setiap kata dasar, maka satu kata dasar akan disimpan sekali walaupun mungkin kata dasar tersebut pada sumber data sudah berubah dari bentuk aslinya dan mendapatkan berbagai macam imbuhan. Karena bahasa Indonesia mempunyai aturan morfologi maka proses stemming harus berdasarkan aturan morfologi bahasa Indonesia.

2. Clustering

Clustering adalah proses mengelompokkan atau penggolongan objek berdasarkan informasi yang diperoleh dari data yang menjelaskan hubungan antar objek dengan prinsip untuk memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dalam data mining berguna untuk menemukan pola distribusi di dalam sebuah dataset yang berguna untuk proses analisa data. Kesamaan objek biasanya diperoleh dari kedekatan nilai- nilai atribut yang menjelaskan objek-objek data, sedangkan objek-objek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multi dimensi .

Clustering digunakan untuk mendapatkan high availability dan scalability. Pada high available cluster, dapat digunakan fail over database cluster, dimana hanya ada satu node yang aktif melayani user, sedangkan node lainnya standby. Storage yang digunakan mempunyai koneksi ke setiap node pada cluster, sehingga jika primary node mati, database engine, listener process, dan logical host ip address akan dijalankan pada secondary node tanpa perlu menunggu operating system boot, sehingga downtime dapat di minimalisasi. Highavailability mempunyai standar duptime 99.999 persen, atau hanya boleh mati selama 5 menit dalam setahun. Beberapa contoh software yang dapat digunakan untuk membuat HA cluster adalah Sun Cluster dan Veritas Cluster. Pada scalable cluster, digunakan produk Oracle RAC, dimana setiap node aktif melayani user, sehingga diperoleh performa yang semakin baik dengan menggunakan lebih banyak node. Sun cluster dapat digunakan sampai 16 node, sedangkan Veritas Storage Foundation for Oracle RAC bias sampai 32 node. Jika ada node yang mati, tentu akan menurunkan performa, namun tidak terjadi downtime. Pada scalable cluster, seluruh node dapat terhubung secara langsung ke share di storage, namun dapat juga tidak mempunyai koneksi fisik ke storage, melainkan melalui private cluster transport (Yamin et al. 2007).




Download : klik disini 
Souce code : klik disini


kata kunci : Data Mining, Text Clustering, Twitter, Bencana Alam 

5 comments:

  1. cara jalankan aplkasinya bagaimana gan ?

    ReplyDelete
  2. cara jalankan aplkasinya bagaimana gan ?

    ReplyDelete
    Replies
    1. masuk ke directory project'a melalui cmd untuk windows atau terminal untuk ubuntu.
      trus ketik php artisan serv

      Delete
  3. minta tolong diperbaiki linknya gan, udah rusak
    atau minta tolong linknya dikirim ke email saya "nicklibra24@gmail.com"
    Terimakasih banyak

    ReplyDelete
  4. Kak boleh nanya ini pas klusterisasi pake metode apaya? Makasih

    ReplyDelete

Powered by Blogger.