DATA MINING
Assalaamu'alaikum all. Lanjut ke pembahasan selanjutnya tentang data mining.
1.
Pengertian Menurut Para Ahli
Pramudiono (2006) mengemukakan bahwa pengertian data
mining adalah adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Larose berpendapat bahwa data mining adalah bidang
yang digabung dari beberapa bidang keilmuan yang menyatukan teknik dari
pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk
pengenalan permasalahan pengambilan informasi dari database yang besar.
Menurut Jiawei data mining merupakan pemilihan atau
“menambang” pengetahuan dari jumlah data yang banyak.
Menurut Berry data mining adalah aktivitas
mengeksplorasi dan menganalisis data jumlah yang besar untuk menemukan pattern
(pola) dan rule (aturan) yang berarti.
Hoffer dan McFadden mengemukakan bahwa
pengertian data mining adalah penemuan
pengetahuan dengan menggunakan teknik-teknik yang tergabung dari statistik,
tradisional, kecerdasan dan grafik komputer.
Pengertian data mining menurut Turban,dkk.(2005)
data mining adalah proses yang menggunakan teknik statistik, matematika,
kecerdasan buatan, dan mesin learning untuk mengekstraksi dan mengidentifikasi
informasi yang bermanfaat dan pengetahuan yang terkait berbagai database besar.
Menurut Wikipedia data mining adalah ekstraksi pola
yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila
pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna.
Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan
diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian
data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda,
seperti KDD (knowledge discovery in database), analisis pola, arkeologi data,
pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat
data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem
basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tetapi
tidak tahu pola apa yang bisa didapatkan.
2.
Sejarah Data Mining
Data mining muncul sekitar tahun 90-an. Data Mining
memang salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang masih memperdebatkan untuk
menempatkan data mining di bidang ilmu mana, karena data mining menyangkut
database, kecerdasan buatan (artificial intelligence), statistik, dsb. Ada
pihak yang berpendapat bahwa data mining
tidak lebih dari machine learning atau analisa statistik yang berjalan
di atas database. Namun pihak lain
berpendapat bahwa database berperanan penting di data mining karena data
mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan disini
terlihat peran penting database terutama dalam optimisasi query-nya.
Kehadiran data mining dilatarbelakangi dengan
problema data explosion yang dialami akhir-akhir ini dimana banyak organisasi
telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan,
data nasabah, data transaksi dsb.).
Hampir semua data tersebut dimasukkan denganmenggunakan aplikasi komputer yang
digunakan untuk menangani transaksi
sehari-hari yang kebanyakan adalah OLTP (On Line Transaction Processing).
Bayangkan berapa transaksi yang dimasukkan oleh
hypermarket semacam Carrefour
atau transaksi kartu kredit dari sebuah bank dalam seharinya dan bayangkan betapa besarnya
ukuran data mereka jika nanti telah
berjalan beberapa tahun. Pertanyaannya sekarang, apakah data tersebut akan
dibiarkan menggunung, tidak berguna lalu dibuang, ataukah kita dapat
me-‘nambang’-nya untuk mencari ‘emas’, ‘berlian’ yaitu informasi yang berguna
untuk organisasi kita. Banyak diantara kita yang kebanjiran data tapi miskin
informasi.
Data Mining mengeksplorasi basis data untuk
menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin
saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi
mereka. Sementara para pelaku bisnis memiliki kebutuhan-kebutuhan untuk
memanfaatkan gudang data yang sudah dimiliki, para peneliti melihat peluang
untuk melahirkan sebuah teknologi baru yang menjawab kebutuhan ini, yaitu data
mining. Teknologi ini sekarang sudah ada dan diaplikasikan oleh perusahaan -
perusahaan untuk memecahkan berbagai permasalahan bisnis. Kebutuhan dari dunia
bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka kumpulkan
telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang
seperti statistik, kecerdasan buatan dsb pada data berskala besar itu. Ternyata
penerapan pada data berskala besar memberikan tantangan-tantangan baru yang
akhirnya memunculkan metodologi baru yang disebut data mining ini.
Bermula dari penerapan di dunia bisnis, sekarang ini
data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa
data berskala besar seperti bioinformasi dan pertahanan negara.
3.
Langkah-Langkah Dalam Data Mining
a. Pembersihan data : Biasanya terdapat data yang
kurang bagus untuk dimasukkan dalam kelengkapan data perusahaan karena hanya
akan dianggap tidak valid bahkan untuk data yang hilang. Sehingga data yang
seperti itu lebih baik dibuang.
b. Integrasi data : yaitu menggabungkan berbagai
sumber data.
c. Transformasi data : Beberapa teknik data mining
memerlukan format data yang khusus sebelum bisa digunakan dan disebarluaskan.
Dalam tahap ini, dilakukan pula pemilihan data yang dibutuhkan oleh teknik data
mining yang akan dipakai. Tahap inilah yang akan menentukan kualitas dari data
mining.
d. Aplikasi teknik data mining : Ini merupakan salah
satu langkah dari proses data mining. Gunakan teknik data mining yang sesuai
dengan hasil yang dibutuhkan.
e. Evaluasi pola yang ditemukan: Dalam tahap ini
hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesis yang ada memang tercapai.
f. Presentasi pola : Tahap terakhir dari proses data
mining adalah bagaimana formulasi keputusan atau aksi dari hasil analisis dari
data mining. Dalam presentasi ini, visualisasi juga dapat membantu
mengkomunikasikan hasil data mining atau pola ke pengguna.
4.
Teknik Penggalian Data (Data
Mining)
Pada dasarnya penggalian data dibedakan menjadi dua
fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa
fungsionalitas penggalian data yang sering digunakan:
a. Karakterisasi dan Diskriminasi: yaitu
menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.
Penggalian
pola berulang: yaitu pencarian pola asosiasi (association rule) atau pola
intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
b. Klasifikasi: yaitu membangun suatu model yang bisa
mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah
tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari
data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
c. Prediksi: yaitu memprediksi nilai yang tidak
diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.
d. Penggugusan/Cluster analysis: yaitu mengelompokkan
sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia
dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan
intrakelas dan meminimalkan kemiripan antarkelas.
e. Analisis outlier: yaitu proses pengenalan data yang
tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise
dan pengecualian dalam data.
f. Analisis trend dan evolusi: meliputi analisis
regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis
berbasis kemiripan.
Berikut ini adalah 10 algoritma penggalian data yang
paling populer berdasarkan konferensi ICDM '06, semua algoritma dinominasikan
oleh para pemenang ACM KDD Innovation Award dan IEEE ICDM Research
Contributions Award :
- C4.5 (61 suara)
- k-Means (60 suara)
- SVM (58 suara)
- Apriori (52 suara)
- EM (48 suara)
- PageRank (46 suara)
- AdaBoost (45 suara)
- kNN (45 suara)
- Naive Bayes (34 suara)
Berikut ini adalah yang hanya masuk nominasi:
- CART
- FP-Tree
- HITS
- BIRCH
- GSP
- PrefixSpan
- CBA
- Finding Reduct
- gSpan
5.
Contoh Penerapan Data Mining
Penggunaan
data mining dalam kehidupan sehari-hari:
a. Dalam bidang kesehatan
Sekarang ini sistem informasi rumah sakit mulai
menerapkan sistem informasi berbasis komputer untuk mendukung manajemen
keuangan, khususnya dipakai untuk billing systems (sistem pembayaran).
b. Dalam bidang perkantoran
Sebagai alat absen sidik jari (finger print).
c. Dalam bidang olahraga:
Sebagai sensor atau alat untuk mencatat jumlah
statistik pada statistik sepak bola, basket, tenis, voli, dll.
d. Dalam bidang telekomunikasi:
Sebagai sarana statistik untuk mencatat kepadatan
jumlah penelepon di jam tertentu (jam sibuk / bukan) sehingga operator dapat
memberikan tarif tertentu bagi pelanggan.
6.
Jenis-Jenis Data Mining
1. Market Basket Analysis
Himpunan data
yang dijadikan sebagai objek penelitan pada area data mining. Market basket
analysis adalah proses untuk menganalisis kebiasaan pelanggan dalam menyimpan
item-item yang akan dibeli ke dalam keranjang belanjaannya. Market basket
analysis memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat
ditemukan pola berupa item-item yang cenderung muncul bersama dalam sebuah
transaksi.
Selanjutnya pola yang ditemukan dapat dimanfaatkan
untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan
menempatkan item-item yang sering dibeli bersamaan ke dalam sebuah area yang
berdekatan, merancang tampilan item-item di katalog, merancang kupon diskon
(untuk diberikan kepada pelanggan yang membeli item tertentu), merancang
penjualan item-item dalam bentuk paket, dan sebagainya.
Dengan menggunakan teknologi data mining, analisis
data secara manual tidak diperlukan lagi.
2. Memory-Based Reasoning
Metode klasifikasi yang digabungkan dengan penalaran
berbasis memori. proses menggunakan satu set data untuk membuat model dari
prediksi atau asumsi-asumsi yang dapat dibuat tentang objek baru yang
diperkenalkan.
Ada dua komponen dasar untuk metode MBR. Yang
pertama adalah kesamaan fungsi, yang mengukur bagaimana anggota yang sama dari
setiap pasangan object satu sama lain. Yang kedua adalah fungsi kombinasi, yang
digunakan untuk menggabungkan hasil dari himpunan tetangga untuk sampai pada
keputusan.
3. Cluster Detection
Ada dua pendekatan untuk clustering. Pendekatan
pertama adalah dengan mengasumsikan bahwa sejumlah cluster sudah tersimpan
dalam data, tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan
lain, disebut clustering agglomerative, dengan asumsi keberadaan setiap jumlah
yang telah ditetapkan cluster tertentu, setiap item keluar di cluster sendiri,
dan proses terjadi berulang-ulang yang berupaya untuk menggabungkan cluster,
meskipun proses komputasi sama.
4. Link Analysis
Proses mencari dan membangun hubungan antara object
dalam kumpulan data juga mencirikan sifat yang terkait dengan hubungan antara
dua object. Link Analysis berguna untuk aplikasi analitis yang mengandalkan
teori grafik untuk mengambil kesimpulan. Selain itu Link Analysis berguna untuk
proses optimasi.
5. Rule Induction
Ekstraksi aturan sebab-akibat dari data secara
statistic. identifikasi aturan bisnis yang tersimpan di dalam data. Metode
berhubungan dengan induksi aturan yang digunakan untuk proses penemuan. Salah
satu pendekatan untuk penemuan aturan adalah menggunakan pohon keputusan.
6. Neural Networks
Model prediksi non linear yang melakukan
pembelajaran melalui latihan dan menyerupai struktur jaringan nerual yang
terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data yang kompleks
dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi
tren-tren yang sangat kompleks untuk dibicarakan baik oleh manusia maupun
teknik komputer lainnya.
7.
Keuntungan Dan Kerugian Data
Mining
·
Kelebihan
Data Mining :
1. Kemampuan dalam mengolah data dalam jumlah yang
besar.
2. Pencarian Data secara otomatis.
·
Kerugian
Data Mining :
1. Kendala Database ( Garbage in garbage out ).
2. Tidak bisa melakukan analisa sendiri.
8.
Kesimpulan Dan Saran
1.
Kesimpulan
Data mining adalah suatu teknik menggali informasi
berharga yang terpendam atau tersembunyi pada suatu koleksi data (database)
yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya
tidak diketahui. Cara kerja data mining yaitu
“menggali” hal-hal penting yang belum diketahui sebelumnya atau
memprediksi apa yang akan terjadi? Teknik yang digunakan untuk melaksanakan
tugas ini disebut pemodelan. Pemodelan di sini dimaksudkan sebagai kegiatan
untuk membangun sebuah model pada situasi yang telah diketahui “jawabannya” dan
kemudian menerapkannya pada situasi lain yang akan dicari jawabannya. Data
mining dapat diterapkan pada data sebanyak apapun dan juga pada bidang apapun,
karena data mining berhubungan dengan database, dan database dapat dihubungkan
pada hampir semua aspek kehidupan di dunia ini.
2.
Saran
Jujur saja, data mining ini hampir tidak ada
kekurangannya. Karena pengaplikasiannya dapat diterapkan pada bidang apapun
dengan data sebesar apapun. Mungkin data mining memiliki beberapa kekurangan.
Akan tetapi, kekurangan tersebut masih dapat diterima, karena bahasa yang
digunakan masihlah bahasa yang dimengerti komputer. Dan karena itulah, saya
menyarankan untuk lebih menggali lagi tentang pengaplikasian data mining bagi
para peminat ilmu basis data. Karena jika dimaksimalkan, data mining ini akan
lebih berguna bagi para pengguna database.
Saran lain yang dapat saya sampaikan adalah mengenai
pengkombinasian data mining dengan NLIDB. karena dengan pengkombinasian kedua
teknik tersebut, kerugian data mining yang berupa GIGO dan tidak bisanya
melakukan analisa sendiri akan lebih teratasi.
Referensi :
https://id.wikipedia.org/wiki/Penggalian_data
http://hariannetral.com/2014/09/pengertian-data-mining-apa-itu-data-mining.html
http://itdare.blogspot.co.id/2014/12/pengertian-dan-sejarah-data-mining.html
http://shabri-prayogi.blogspot.co.id/2012/03/penerapan-data-mining_05.html
http://michsamuel.blogspot.co.id/2014/05/individu-2-data-mining.html