Pengertian
Data Mining
Data Mining adalah proses menemukan pola dalam kumpulan data besar pada data warehouse yang melibatkan metode machine learning (pembelajaran mesin), statistik, dan sistem database. Data mining menjadi sub bidang interdisipliner dalam statistik dan ilmu komputer dengan tujuan untuk mengekstrak keseluruhan informasi (dengan metode AI atau metode cerdas) dari kumpulan data dan mengolahnya menjadi struktur informasi yang dapat dipahami dan dapat digunakan untuk keperluan lainnya.
Data mining adalah langkah analisis dari proses "penemuan pengetahuan dalam database”. Data mining melibatkan aspek database, analisis mentah dan manajemen data, pra-pemrosesan data, pertimbangan model dan inferensi, metrik ketertarikan, pertimbangan kompleksitas, pasca-pemrosesan struktur yang ditemukan, visualisasi, dan pembaruan online.
Sejarah Data Mining
Pada 1990-an, istilah "Data Mining" diperkenalkan,
tetapi data mining adalah evolusi dari sektor dengan sejarah yang luas.
Teknik awal untuk mengidentifikasi pola dalam data termasuk
teorema Bayes (1700-an), dan evolusi regresi (1800-an). Generasi dan kekuatan
ilmu komputer yang terus berkembang telah meningkatkan pengumpulan,
penyimpanan, dan manipulasi data karena kumpulan data memiliki ukuran dan
tingkat kompleksitas yang luas. Investigasi data langsung secara eksplisit
telah ditingkatkan secara progresif dengan pemrosesan data tidak langsung dan
otomatis, dan penemuan ilmu komputer lainnya seperti jaringan saraf,
pengelompokan, algoritme genetika (1950-an), pohon keputusan (1960-an), dan
mesin vektor pendukung (1990-an).
Asal data mining ditelusuri kembali ke tiga garis keluarga: Statistik klasik, Kecerdasan buatan, dan Pembelajaran mesin.
· Statistik klasik:
Statistik adalah dasar dari sebagian besar teknologi dimana data mining dibangun, seperti analisis regresi, deviasi standar, distribusi standar, varian standar, analisis diskriminatif, analisis cluster, dan interval trust. Semua ini digunakan untuk menganalisis data dan koneksi data.
· Kecerdasan buatan:
AI atau Artificial intelligence didasarkan pada heuristik
dan bukan statistik. Ia mencoba menerapkan pemikiran manusia seperti pemrosesan
ke masalah statistik. Konsep AI tertentu diadopsi oleh beberapa produk
komersial kelas atas, seperti modul pengoptimalan kueri untuk sistem Relational
Database Management System (RDBMS).
· Pembelajaran mesin:
Pembelajaran mesin atau disebut sebagai Machine Learning adalah kombinasi dari statistik dan AI. Machine Learning dapat dianggap sebagai evolusi AI karena menggabungkan heuristik AI dengan analisis statistik yang kompleks. Pembelajaran mesin mencoba untuk memungkinkan program komputer mengetahui tentang data yang mereka pelajari sehingga program membuat keputusan yang berbeda berdasarkan karakteristik data yang diperiksa. Pembelajaran mesin menggunakan statistik untuk konsep dasar dan menambahkan lebih banyak heuristik dan algoritma AI untuk mencapai targetnya.
0 komentar