Rumahnya para Data Mining Enthusiast

Tempat untuk berdiskusi tentang topik yang akhir - akhir ini menjadi tren dalam pembuatan TA maupun thesis yaitu data mining. Tidak ada yang lebih hebat di sini.. tidak ada yang selalu benar di sini.. yang ada hanya orang - orang yang kebetulan lebih dulu tahu sehingga bisa memberikan pandangannya dan orang - orang yang ingin belajar bersama tentang Data Mining.

FAQ
1. Apa itu Data Mining ?
  • Data Mining sebenarnya adalah sebuah istilah yang keliru, bila kita perhatikan Mining yang ada di dunia nyata.. Gold Mining, Oil Mining, etc Mining.. maka kita bisa tarik kesimpulan bahwa topik ini harusnya berjudul Knowledge Mining (sering disebut juga dengan Knowledge Discovery in Database) karena tujuan dari topik ini adalah mendapatkan Knowledge (bukan sekedar Informasi) dari sebuah data yang besar.
  • Data Mining sendiri adalah perpaduan antara ilmu DataBase, Statistik dan Artificial Intelligence (lebih spesifiknya adalah Machine Learning). Tantangan terbesar pada topik ini adalah membuat mesin (dalam hal ini komputer) dapat menemukan knowledge (pengetahuan) yang berasal dari sebuah kumpulan data (dataset).
  • Secara spesifik tujuan terpenting dari proses data mining adalah mendapatkan pengetahuan yang sebelumnya tidak diketahui, valid, dan dapat menjadi referensi dalam mengambil sebuah keputusan (biasanya berupa keputusan bisnis).


2. Istilah istilah penting pada Data Mining
  • Dataset : Kumpulan data yang siap dimining.
  • Attribute : Komponen/Properties/Column/Field yang ada pada dataset.
  • Class : Attribute pada Dataset yang berisi penggolongan / Target Attribute.
  • Tuple : 1 data pada dataset (Row)
  • Istilah lain dapat dilihat di http://www.twocrows.com/glossary.htm


3. Apa Beda Data, Information, Knowledge, Wisdom ?

Clustering - Classification - Link Analysis

Ada 3 pembagian metode pada Data Mining yaitu Clustering, Classification, dan Link Analysis.

Perbedaan Clustering dan Classification
  • Dataset yang digunakan pada Clustering tidak menampilkan Class / target attribute, sedangkan Dataset yang digunakan pada Classification mutlak harus menampilkan class / target attribute.
  • Pengetahuan yang dihasilkan oleh metode Clustering berupa Cluster, sedangkan Pengetahuan yang dihasilkan oleh metode Classification berupa selain Cluster (bisa Decision Tree, Ruleset, Weight2 pada BackPropagation, dll).
  • Clustering pada umumnya menggunakan pembelajaran unsupervised learning, sedangkan Classification umumnya menggunakan pembelajaran supervised learning.


Link Analysis

Hampir sama dengan Clustering metode ini tidak menampilkan class/target attribute namun perbedaan antara keduanya terletak pada sifat masing masing metode. Sifat clustering adalah mengelompokkan, sedangkan sifat dari associative rule mining adalah mencari hubungan antar attribute. Link analysis sendiri terbagi menjadi 3 yaitu Association Discovery (Market Basket Analysis), Sequencial Pattern Discovery, dan Similar Time Sequence Discovery.

Beberapa Algoritma yang tergolong Clustering
  • Counter Propagation (semi-supervised learning)
  • Radial Basis Function (semi-supervised learning)
  • Kohonen SOM (unsupervised learning)
  • Agglomerative Hierarchical Algorithm by penggali_lubang


Beberapa Algoritma yang tergolong Classification


Beberapa Algoritma yang tergolong Link Analysis
istirahat dulu...
silahkan kalau ada yang mau dikritik dari tulisan tulisan di atas
mantab om

ijin mejeng dsini ya,kbetulan skripsi ane ttg data mining,text mining tepatnya

kali aja ada pencerahan dsini


===================================

ebook data mining :


Data mining: practical machine learning tools and techniques
Code:

http://rapidshare.com/files/104465139/Data.Mining.Practical.Machine.Learning.Tools.and.Techniques.Second.Edition. rar


Data mining: a knowledge discovery approach
Code:

http://uploading.com/files/c96m96a8/Data-Mining-A-Knowledge-Discovery-Approach.pdf


Discovering knowledge in data: an introduction to data mining
Code:

http://rapidshare.com/files/232296097/tlf-025dk.pdf


Data Mining Concepts and Techniques 2nd Ed
Code:

http://rapidshare.com/files/38073982/Data.Mining.Concepts.and.Techniques.2nd.Ed-1558609016.rar


Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration
Code:

http://rapidshare.com/files/105516318/fuzzy_modeling_and_genetic_algorithms.rar
Quote:Original Posted By penggali_lubang
mantab om

ijin mejeng dsini ya,kbetulan skripsi ane ttg data mining,text mining tepatnya

kali aja ada pencerahan dsini


sama sama belajar om..
ayo share - share
wah....setelah sekian lama ane mnunggu,
thread seperti ini akhirnya dibuat juga....

special thanks buat bro diboy....


ane soalnya juga lagi ngebuat TA tentang data mining...
sharing2 disini ilmu nya ya,soalnya ane baru setahun blakangan kenal datamining,

@penggali kubur :
setahu saya Decision Tree bukan termasuk algoritma namun salah satu bentuk penyajian knowledge yang didapatkan dari data mining. Beberapa algoritma yang menghasilkan Decision Tree adalah :
  • ID3
  • CART
  • C4.5
  • MARS


tool :
Pentaho Bussiness Inteligence

Tahapan Tahapan Dalam Data Mining

Menurut Peter Cabena (Discovering Data Mining : From Concept to Implementation), dalam data mining akan dilakukan proses proses sebagai berikut :
  • Business Objective Determination
    Adalah tahap di mana definisi masalah dilakukan. Tahap ini sangat penting dalam setiap proyek data mining, namun tahap ini sering tidak dijelaskan secara terperinci oleh beberapa peneliti Data Mining. Tahap ini juga yang sebenarnya adalah dasar pertanyaan dari sekitar 60% pertanyaan tentang data mining yang muncul di Programmer Forum KASKUS. Adalah sesuatu yang salah apabila kita merasa dengan memiliki cukup data maka kita telah siap melakukan mining data. Salah satu contohnya adalah pertanyaan yang dilontarkan oleh ey3n_17 di threadnya.
  • Data Preparation
    Data Preparation sendiri adalah tahap yang paling banyak mengkonsumsi waktu dalam sebuah proyek data mining. Biasanya waktu yang diinvestasikan dalam tahap ini adalah sekitar 60-70% dari total keseluruhan waktu yang diinvestasikan dalam sebuah proyek data mining. Maka jika anda merasa ketika anda mendapatkan cukup data dan cukup mengerti algoritma yang akan anda gunakan maka anda sudah memiliki semua syarat yang dibutuhkan untuk menyelesaikan suatu proyek data mining, anda SALAH. Fungsi data preparation adalah mendapatkan data yang representatif untuk dimining. Ada 3 bagian dalam tahap Data Preparation yaitu :
    • Data Selection
      Memilih data yang akan digunakan dalam proses data mining.
    • Data Preprocessing
      Memastikan kualitas data yang telah dipilih pada tahap data selection, pada tahap ini masalah yang harus dihadapi adalah Noisy Data dan Missing Values.
    • Data Transformation
      Mengubah data menjadi model yang dapat digunakan dalam tahap data mining. Lihat juga bagian tipe data yang digunakan pada data mining.

  • Data Mining
    Tahap membuat mesin (komputer) dapat mencari pengetahuan - pengetahuan yang valid dari data yang telah disediakan.
  • Analysis of Result
    Tahap menyajikan pengetahuan yang didapatkan.
  • Assimilation of Knowledge
    Tahap menggunakan pengetahuan yang didapatkan dari proses data mining sebagai pertimbangan pengambilan keputusan.


Quote:Original Posted By WoG

Spoilerfor Tahapan proses sebuah sistem data mining (Jiawei Han & Micheline Kamber , 2006)..:


Spoilerfor Model data mining (Margaret H. Dunham , 2003)..:


Spoilerfor Arsitektur sistem data mining (Jiawei Han & Micheline Kamber , 2006))..:

Tipe Data pada Data Mining

Tipe data yang dikenal dalam dunia Data Mining

Nominal
Nominal adalah tipe data diskrit yang tidak mengenal urutan.
Contoh :
- Warna Baju : Hijau , Merah, Kuning, dll
- Suku Bangsa : Jawa, Batak, Ambon, Tionghoa, dll

Biner
Biner adalah tipe data nominal yang hanya memiliki 2 varian nilai.
Contoh :
- Jenis Kelamin : Laki-laki, Perempuan
- Memiliki Rumah Sendiri : Ya, Tidak

Ordinal

Ordinal adalah tipe data diskrit yang mengenal urutan.
Contoh :
- Ukuran Baju : XS, S, M, L, XL, XXL
- Nilai : A, B+, B, C+, C, D, E

Continous
Continous adalah tipe data kontinyu.
Contoh :
- Gaji per bulan
- Jumlah Anak

NB : Dalam beberapa algoritma semua tipe data harus dilambangkan dengan bilangan..
Quote:Original Posted By diboy
@penggali kubur :
setahu saya Decision Tree bukan termasuk algoritma namun salah satu bentuk penyajian knowledge yang didapatkan dari data mining. Beberapa algoritma yang menghasilkan Decision Tree adalah :
  • ID3
  • CART
  • C4.5
  • MARS


tool :
Pentaho Bussiness Inteligence



penggali_kubur...

bener juga

kalo ane ganti dengan kata "metode",udah bener kan om?

thanks koreksi nya
Quote:Original Posted By penggali_lubang
mantab om

ijin mejeng dsini ya,kbetulan skripsi ane ttg data mining,text mining tepatnya

kali aja ada pencerahan dsini


===================================

ikutan share yak :


bantuin bikin ulasan terkait dengan data mining yang sistematis donk bro T.T
Quote:Original Posted By penggali_lubang
penggali_kubur...

bener juga

kalo ane ganti dengan kata "metode",udah bener kan om?

thanks koreksi nya


tambahin aja jadi Induksi Decision Tree

sama - sama.. kalau saya ada salah mohon dikoreksi juga

tadi udah sempet koreksi
Associative Rule Mining >> Link Analysis
Quote:Original Posted By diboy
@penggali kubur :
setahu saya Decision Tree bukan termasuk algoritma namun salah satu bentuk penyajian knowledge yang didapatkan dari data mining. Beberapa algoritma yang menghasilkan Decision Tree adalah :
  • ID3
  • CART
  • C4.5
  • MARS


tool :
Pentaho Bussiness Inteligence




gan....di classification ada bayessian naive classifier kan...??

ada pembahasannya ga?
ane lagi make algoritma itu buat TA...
Quote:Original Posted By nuxipay
gan....di classification ada bayessian naive classifier kan...??

ada pembahasannya ga?
ane lagi make algoritma itu buat TA...


sabar ya bro..
besok gw baru mau bahas contoh algoritma yang simple simple dulu.. kalo naive bayess penggali_kubur yang lagi belajar mungkin bisa kasih penjelasan sistematis tentang sifat dan cara kerja algoritma ini ?

semoga bro penggali_lubang bersedia
mantau gan,,,,,
mau belajar juga,ijin yahhhh
Bro, mau tanya dong tentang arti dari Data, Information, Knowledge and Wisdom...

Thx

Naive Bayes Classifier

inti dari teorema bayesian tuh adalah probabilitas (jdi inget plajaran sma yang lempar2 koin ),

salah satu sifat naive bayes adalah menganggap tidak ada keteraitan antar atribut,ini ngaruh banget ke akurasi,karena pada kenyataannya tiap atribut bisa ada keterkaitan (kelemahan)

untuk lebih jelas ttg teoremanya googling aj yak,ane ngejelasin langsung ke aplikasinya
Code:

misalnya :
age income \tstudent credit rating buys_computer
<=30\thigh\t\tno\t\tfair\t\tno
<=30\thigh\t\tno\t\texcellent\tno
31..40\thigh\t\tno\t\tfair\t\tyes
>40\tmedium\t\tno\t\tfair\t\tyes
>40\tlow\t\tyes\t\tfair\t\tyes
>40\tlow\t\tyes\t\texcellent\tno
31..40\tlow\t\tyes\t\texcellent\tyes
<=30\tmedium\t\tno\t\tfair\t\tno
<=30\tlow\t\tyes\t\tfair\t\tyes
>40\tmedium\t\tyes\t\tfair\t\tyes
<=30\tmedium\t\tyes\t\texcellent\tyes
31..40\tmedium\t\tno\t\texcellent\tyes
31..40\thigh\t\tyes\t\tfair\t\tyes
>40\tmedium\t\tno\t\texcellent\tno

*ada yang kenal dengan data ini? :malu:


probabilitas orang dengan usia <=30 membeli komputer adalah 2/9=22%. 2 didapat dari jumlah data yang usia >=30 dan membeli komputer. 9 didapat dari jumlah yang membeli komputer. begitu juga seterusnya, kita bisa nyari probabilitas <=30 - no, 31..40 - yes, 31..40 - no, dst..

dengan nilai2 propabilitas di atas,kita bisa menghitung probabilitas seseorang akan membeli komputer atau tidak.

misalnya kita mau menghitung probabilitas orang akan membeli komputer jika,

Code:
age <= 30, income = medium, student = yes, credit_rating = fair


trus hitung probabilitas masing2 kelas :

P(X|Ci)
Code:

P(<=30 | yes) = 2/9 = 0.222
P(<=30 | no) = 3/5 = 0.6
P(medium | yes) = 4/9 = 0.444
P(medium | no) = 0.4
P(yes | yes) = 0.667
P(yes | no) = 0.2
P(fair | yes) = 0.667
P(fair | no) = 0.4



Code:

tinggal di kaliin aja
P(X|buys_computer=yes) = 0.222 x 0.444 x 0.4667 x 0.667 = 0.044
P(X|buys_computer=no) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019



Code:

P(buys_computer=yes) = 9/14 = 0.643
P(buys_computer=no) = 5/14= 0.357


P(X|buys_computer=yes) * P(buys_computer=yes)=0.029
P(X|buys_computer=no) * P(buys_computer=no)=0.007


ksimpulannya :

untuk age <= 30, income = medium, student = yes, credit_rating = fair, masuk ke kelas buy_computer = yes


mnurut ane naive bayes lumayan mudah diaplikasiin,cuma pake oprasi2 matematis biasa (kelebihan ?)
Quote:Original Posted By Fatchoco
Bro, mau tanya dong tentang arti dari Data, Information, Knowledge and Wisdom...

Thx


IMHO

pengertian
data : mentah; tidak mengandung arti;
informasi : bagian dari data yang bermanfaat atau berguna
knowledge : pengetahuan/ilmu yang didapat berdasarkan informasi yang ada
wisdom : kemampuan untuk mengevaluasi setiap pilihan,berdasarkan knowledge yang dimiliki



contoh
data : data tentang tinggi sebuah gunung
informasi : informasi tentang karakteristik geografis gunung tersebut
knowledge : memperoleh pengetahuan tentang jalan mana saja yang bisa dilalui untuk mencapai puncak
wisdom : menentukan jalan terbaik dan teraman untuk nyampe ke puncak


coba liat gambar ini,mungkin agan jdi ngerti