Jumat, 13 Januari 2017



DATA MINING

   Assalaamu'alaikum all. Lanjut  ke pembahasan selanjutnya tentang data mining.

    1.      Pengertian Menurut Para Ahli

Pramudiono (2006) mengemukakan bahwa pengertian data mining adalah adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Larose berpendapat bahwa data mining adalah bidang yang digabung dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk pengenalan permasalahan pengambilan informasi dari database yang besar.
Menurut Jiawei data mining merupakan pemilihan atau “menambang” pengetahuan dari jumlah data yang banyak.
Menurut Berry data mining adalah aktivitas mengeksplorasi dan menganalisis data jumlah yang besar untuk menemukan pattern (pola) dan rule (aturan) yang berarti.
Hoffer dan McFadden mengemukakan bahwa pengertian  data mining adalah penemuan pengetahuan dengan menggunakan teknik-teknik yang tergabung dari statistik, tradisional, kecerdasan dan grafik komputer.
Pengertian data mining menurut Turban,dkk.(2005) data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan mesin learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait berbagai database besar.
Menurut Wikipedia data mining adalah ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tetapi tidak tahu pola apa yang bisa didapatkan.
   2.      Sejarah Data Mining
Data mining muncul sekitar tahun 90-an. Data Mining memang salah satu cabang ilmu komputer yang relatif baru. Dan sampai  sekarang orang masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena data mining menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dsb. Ada pihak yang berpendapat bahwa data mining  tidak lebih dari machine learning atau analisa statistik yang berjalan di atas  database. Namun pihak lain berpendapat bahwa  database  berperanan penting di data mining karena data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan disini terlihat peran penting database terutama dalam optimisasi query-nya.
Kehadiran data mining dilatarbelakangi dengan problema data explosion yang dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah,  data transaksi dsb.). Hampir semua data tersebut dimasukkan denganmenggunakan aplikasi komputer yang digunakan untuk  menangani transaksi sehari-hari yang kebanyakan adalah OLTP (On Line Transaction Processing). Bayangkan berapa transaksi yang dimasukkan oleh  hypermarket  semacam Carrefour atau transaksi kartu kredit dari sebuah bank dalam  seharinya dan bayangkan betapa besarnya ukuran data mereka jika  nanti telah berjalan beberapa tahun. Pertanyaannya sekarang, apakah data tersebut akan dibiarkan menggunung, tidak berguna lalu dibuang, ataukah kita dapat me-‘nambang’-nya untuk mencari ‘emas’, ‘berlian’ yaitu informasi yang berguna untuk organisasi kita. Banyak diantara kita yang kebanjiran data tapi miskin informasi.
Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka. Sementara para pelaku bisnis memiliki kebutuhan-kebutuhan untuk memanfaatkan gudang data yang sudah dimiliki, para peneliti melihat peluang untuk melahirkan sebuah teknologi baru yang menjawab kebutuhan ini, yaitu data mining. Teknologi ini sekarang sudah ada dan diaplikasikan oleh perusahaan - perusahaan untuk memecahkan berbagai permasalahan bisnis. Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata penerapan pada data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi baru yang disebut data mining ini.
Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan negara.
   3.      Langkah-Langkah Dalam Data Mining
a. Pembersihan data : Biasanya terdapat data yang kurang bagus untuk dimasukkan dalam kelengkapan data perusahaan karena hanya akan dianggap tidak valid bahkan untuk data yang hilang. Sehingga data yang seperti itu lebih baik dibuang.
b. Integrasi data : yaitu menggabungkan berbagai sumber data.
c. Transformasi data : Beberapa teknik data mining memerlukan format data yang khusus sebelum bisa digunakan dan disebarluaskan. Dalam tahap ini, dilakukan pula pemilihan data yang dibutuhkan oleh teknik data mining yang akan dipakai. Tahap inilah yang akan menentukan kualitas dari data mining.
d. Aplikasi teknik data mining : Ini merupakan salah satu langkah dari proses data mining. Gunakan teknik data mining yang sesuai dengan hasil yang dibutuhkan.
e. Evaluasi pola yang ditemukan: Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesis yang ada memang tercapai.
f. Presentasi pola : Tahap terakhir dari proses data mining adalah bagaimana formulasi keputusan atau aksi dari hasil analisis dari data mining. Dalam presentasi ini, visualisasi juga dapat membantu mengkomunikasikan hasil data mining atau pola ke pengguna.
   4.      Teknik Penggalian Data (Data Mining)
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:
  a.       Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
    Penggalian pola berulang: yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
   b.      Klasifikasi: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
    c.       Prediksi: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.
   d.      Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
      e.       Analisis outlier: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.
f.       Analisis trend dan evolusi: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.
Berikut ini adalah 10 algoritma penggalian data yang paling populer berdasarkan konferensi ICDM '06, semua algoritma dinominasikan oleh para pemenang ACM KDD Innovation Award dan IEEE ICDM Research Contributions Award :
  • C4.5 (61 suara)
  • k-Means (60 suara)
  • SVM (58 suara)
  • Apriori (52 suara)
  • EM (48 suara)
  • PageRank (46 suara)
  • AdaBoost (45 suara)
  • kNN (45 suara)
  • Naive Bayes (34 suara)
Berikut ini adalah yang hanya masuk nominasi:
  •  CART
  • FP-Tree
  • HITS
  • BIRCH
  • GSP
  • PrefixSpan
  • CBA
  • Finding Reduct
  • gSpan
    5.      Contoh Penerapan Data Mining
 Penggunaan data mining dalam kehidupan sehari-hari:
       a.       Dalam bidang kesehatan
Sekarang ini sistem informasi rumah sakit mulai menerapkan sistem informasi berbasis komputer untuk mendukung manajemen keuangan, khususnya dipakai untuk billing systems (sistem pembayaran).
       b.      Dalam bidang perkantoran
Sebagai alat absen sidik jari (finger print).
       c.       Dalam bidang olahraga:
Sebagai sensor atau alat untuk mencatat jumlah statistik pada statistik sepak bola, basket, tenis, voli, dll.
       d.      Dalam bidang telekomunikasi:
Sebagai sarana statistik untuk mencatat kepadatan jumlah penelepon di jam tertentu (jam sibuk / bukan) sehingga operator dapat memberikan tarif tertentu bagi pelanggan.
   6.      Jenis-Jenis Data Mining
1. Market Basket Analysis
 Himpunan data yang dijadikan sebagai objek penelitan pada area data mining. Market basket analysis adalah proses untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang belanjaannya. Market basket analysis memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat ditemukan pola berupa item-item yang cenderung muncul bersama dalam sebuah transaksi.
Selanjutnya pola yang ditemukan dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan ke dalam sebuah area yang berdekatan, merancang tampilan item-item di katalog, merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item tertentu), merancang penjualan item-item dalam bentuk paket, dan sebagainya.
Dengan menggunakan teknologi data mining, analisis data secara manual tidak diperlukan lagi.
2. Memory-Based Reasoning
Metode klasifikasi yang digabungkan dengan penalaran berbasis memori. proses menggunakan satu set data untuk membuat model dari prediksi atau asumsi-asumsi yang dapat dibuat tentang objek baru yang diperkenalkan.
Ada dua komponen dasar untuk metode MBR. Yang pertama adalah kesamaan fungsi, yang mengukur bagaimana anggota yang sama dari setiap pasangan object satu sama lain. Yang kedua adalah fungsi kombinasi, yang digunakan untuk menggabungkan hasil dari himpunan tetangga untuk sampai pada keputusan.
3. Cluster Detection
Ada dua pendekatan untuk clustering. Pendekatan pertama adalah dengan mengasumsikan bahwa sejumlah cluster sudah tersimpan dalam data, tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan lain, disebut clustering agglomerative, dengan asumsi keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item keluar di cluster sendiri, dan proses terjadi berulang-ulang yang berupaya untuk menggabungkan cluster, meskipun proses komputasi sama.
4. Link Analysis
Proses mencari dan membangun hubungan antara object dalam kumpulan data juga mencirikan sifat yang terkait dengan hubungan antara dua object. Link Analysis berguna untuk aplikasi analitis yang mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu Link Analysis berguna untuk proses optimasi.
5. Rule Induction
Ekstraksi aturan sebab-akibat dari data secara statistic. identifikasi aturan bisnis yang tersimpan di dalam data. Metode berhubungan dengan induksi aturan yang digunakan untuk proses penemuan. Salah satu pendekatan untuk penemuan aturan adalah menggunakan pohon keputusan.
6. Neural Networks
Model prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan nerual yang terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren-tren yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya.
    7.      Keuntungan Dan Kerugian Data Mining
·         Kelebihan Data Mining :
1. Kemampuan dalam mengolah data dalam jumlah yang besar.
2. Pencarian Data secara otomatis.
·         Kerugian Data Mining :
1. Kendala Database ( Garbage in garbage out ).
2. Tidak bisa melakukan analisa sendiri.
    8.      Kesimpulan Dan Saran
     1.      Kesimpulan
Data mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Cara kerja data mining yaitu  “menggali” hal-hal penting yang belum diketahui sebelumnya atau memprediksi apa yang akan terjadi? Teknik yang digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan dicari jawabannya. Data mining dapat diterapkan pada data sebanyak apapun dan juga pada bidang apapun, karena data mining berhubungan dengan database, dan database dapat dihubungkan pada hampir semua aspek kehidupan di dunia ini.
     2.      Saran
Jujur saja, data mining ini hampir tidak ada kekurangannya. Karena pengaplikasiannya dapat diterapkan pada bidang apapun dengan data sebesar apapun. Mungkin data mining memiliki beberapa kekurangan. Akan tetapi, kekurangan tersebut masih dapat diterima, karena bahasa yang digunakan masihlah bahasa yang dimengerti komputer. Dan karena itulah, saya menyarankan untuk lebih menggali lagi tentang pengaplikasian data mining bagi para peminat ilmu basis data. Karena jika dimaksimalkan, data mining ini akan lebih berguna bagi para pengguna database.
Saran lain yang dapat saya sampaikan adalah mengenai pengkombinasian data mining dengan NLIDB. karena dengan pengkombinasian kedua teknik tersebut, kerugian data mining yang berupa GIGO dan tidak bisanya melakukan analisa sendiri akan lebih teratasi.
Referensi :
https://id.wikipedia.org/wiki/Penggalian_data
http://hariannetral.com/2014/09/pengertian-data-mining-apa-itu-data-mining.html
http://itdare.blogspot.co.id/2014/12/pengertian-dan-sejarah-data-mining.html
http://shabri-prayogi.blogspot.co.id/2012/03/penerapan-data-mining_05.html
http://michsamuel.blogspot.co.id/2014/05/individu-2-data-mining.html