Definisi Data Mining
Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistic, matematika, kecerdasan buatan, dan machine elerning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar [Turban, 2005].
Data Mining adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola dan hubungan dalam set data berukuran besar. Kegunaan data mining adalah untuk menspesifikasikan pola yang harus ditemukan dalam tugas data mining. Kehadiran data mining dilatar belakangi dengan problema data explosion yang dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.)
Inti dari data mining adalah kegiatan penggalian pengetahuan data. Pengertian dari istilah lain yang hampir mirip dengan data mining adalah Knowledge discovery dan pattern recognition.
- Knowledge discovery : menemukan pengetahuan dari bongkahan data yang masih tersembunyi
- pattern recognition : pengenalan pola. Pengetahuan yang digali masih berbentuk pola-pola yang mungkin masih perlu digali dalam bongkahan data
Pengelompokkan Data Mining
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan , yaitu
- Deskripsi. Menggambarkan sekumpulan data secara ringkas. Data yang digambarkan berupa: -/- Deskripsi grafis : diagram titik, histogram. -/- Deskripsi lokasi : mean(rata-rata), median(nilai tengah), modus, kuartil,persentil. -/- Deskripsi keberagaman : range(rentang), varians dan standar deviasi
- Estimasi. Memperkirakan suatu hal dari sejumlah sample yang kita miliki(yg tidak kita ketahui) Estimasi hampir sama dengan klasifikasi, kecuali variable target. Estimasi lebih kearah numeric dari pada kearah kategori.
- Prediksi. Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada dimasa datang(memperkirakan hal yang belum terjadi). Kita bisa menunggu hingga hal itu terjadi untuk membuktikan seberapa tepat prediksi kita
- Klasifikasi. kegiatan menggolongkan, dengan menggunakan data historis(sebagai data yang digunakan untuk latihan dan sebagai pengalaman).Dalam klasifikasi terdapat variabel prediktor dan target variable,
- Pengklusteran. Pengkulusteran merupakan pengelompokan record, pengamatan atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainya dan memiliki ketidak miripan dengan record-record dalam cluster.
- Asosiasi. Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang biasa.
Berdasarkan pengelompokkan data mining tersebut, masing masing memiliki kelompok fungsi antara lain:
- Fungsi Minor (tambahan) : deskripsi, estimasi, prediksi
- Fungsi Mayor (utama) : klasifikasi, pengelompokkan, estimasi.
Knowledge Discovery In Database (Penemuan Pengetahuan dalam Database)
Data mining digambarkan sebagai proses pencarian pengetahuan yang menarik dalam database seperti pola , asosiasi, aturan, perubahan, keganjilan dan struktur penting dari sejumlah besar data yang disimpan pada bank data dan tempat penyimpanan informasi lainnya. Berikut merupakan proses KDD
- pemilihan data (data selection), pemilihan data relevan yang didapat dari basis data;
- pembersihkan data (data cleaning), proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan;
- pengintegrasian data (data integration), penggabungan data dari berbagai basisdata ke dalam satu basisdata baru;
- transformasi data, data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining;
- data mining, suatu proses di mana metoda diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data;
- evaluasi pola (pattern evaluation), untuk mengidentifikasi pola-pola menarik untuk di representasikan kedalam knowledge based;
- representasi pengetahuan (knowledge presentation), visualisasi dan penyajian pengetahuan mengenai teknik yang digunakan untuk memperoleh pengetahuan yangdiperoleh pengguna.
Teknik Penggalian Data
Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:
- Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data. Penggalian pola berulang: yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.
- Klasifikasi: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.
- Prediksi: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.
- Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.
- Analisis outlier: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.
- Analisis trend dan evolusi: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.