Cara Menghitung Entropy Pada Decision Tree

Halo Sobat TeknoBgt! Pada artikel kali ini, kita akan membahas tentang cara menghitung entropy pada decision tree. Entropy adalah ukuran dari ketidakpastian dalam sebuah himpunan data. Sedangkan decision tree sendiri merupakan model pembelajaran mesin yang menggunakan struktur pohon untuk membuat keputusan. Dalam decision tree, entropy sangat penting untuk menentukan atribut mana yang harus dipilih sebagai pemecah.

Apa Itu Entropy?

Entropy adalah ukuran dari ketidakpastian dalam sebuah himpunan data. Semakin banyak variasi data di dalam himpunan, semakin tinggi entropinya. Sebaliknya, jika data dalam himpunan homogen atau seragam, entropinya akan rendah. Entropy dapat dihitung dengan formula sebagai berikut:

SimbolPenjelasan
p(x)Proporsi data yang termasuk dalam kategori x
H(S)Entropi dari himpunan data S
nJumlah kategori yang ada dalam himpunan data S

Dalam rumus di atas, p(x) adalah proporsi dari data yang termasuk dalam kategori x. Misalnya, jika terdapat 100 data dengan 2 kategori yang berbeda (kategori A dan B), dan terdapat 70 data yang termasuk dalam kategori A dan 30 data yang termasuk dalam kategori B, maka p(A) = 0.7 dan p(B) = 0.3.

Bagaimana Cara Menghitung Entropy Pada Decision Tree?

Pertama-tama, kita harus menentukan himpunan data yang akan digunakan untuk membuat decision tree. Himpunan data tersebut harus sudah dilabeli atau diberi kategori. Misalnya, kita memiliki himpunan data tentang buah-buahan yang terdiri dari apel, pisang, dan jeruk. Setiap buah memiliki kategori atau label yang berbeda-beda.

Setelah itu, kita perlu menentukan atribut mana yang akan digunakan sebagai pemecah pada decision tree. Atribut tersebut dapat dipilih berdasarkan nilai entropi yang rendah. Atribut dengan nilai entropi rendah akan memberikan informasi yang cukup untuk memecah himpunan data menjadi dua atau lebih bagian.

Setelah atribut dipilih, langkah selanjutnya adalah menghitung nilai entropi untuk setiap kemungkinan nilai atribut. Misalnya, jika atribut yang dipilih adalah warna buah, maka terdapat tiga kemungkinan nilai yaitu merah, kuning, dan hijau. Untuk setiap nilai tersebut, kita perlu menghitung nilai entropi dari himpunan data yang telah dipisahkan berdasarkan nilai atribut tersebut.

Setelah nilai entropi dihitung untuk setiap kemungkinan nilai atribut, kita dapat memilih nilai atribut yang memberikan nilai entropi terendah. Nilai entropi terendah menunjukkan bahwa atribut tersebut memberikan informasi yang paling banyak untuk memecah himpunan data.

Apa Keuntungan Menggunakan Entropy Pada Decision Tree?

Salah satu keuntungan menggunakan entropy pada decision tree adalah kemampuannya untuk memilih atribut yang paling informatif. Dengan memilih atribut yang paling informatif, decision tree dapat membuat keputusan yang lebih akurat dan efektif.

Entropy juga dapat digunakan untuk memilih atribut dengan mudah. Dengan menggunakan nilai entropi, kita dapat membandingkan atribut satu dengan yang lain secara numerik. Hal ini membuat pemilihan atribut menjadi lebih obyektif dan tidak bergantung pada pengalaman atau intuisi seseorang.

Bagaimana Contoh Penerapan Entropy Pada Decision Tree?

Mari kita lihat contoh penerapan entropy pada decision tree. Misalnya, kita memiliki himpunan data tentang pelanggan sebuah toko online. Setiap pelanggan memiliki kategori atau label berdasarkan apakah mereka membeli produk atau tidak. Berikut adalah data pelanggan yang kita miliki:

ID PelangganJenis KelaminUmurPendapatanMembeli
1PriaMudaRendahTidak
2PriaMudaTinggiTidak
3WanitaMudaTinggiYa
4WanitaTuaRendahTidak
5WanitaTuaRendahTidak
6PriaTuaRendahYa
7PriaMudaRendahTidak
8WanitaMudaRendahYa

Kita ingin membuat decision tree untuk memprediksi apakah seorang pelanggan akan membeli produk atau tidak berdasarkan jenis kelamin, umur, dan pendapatan.

Pertama-tama, kita perlu menghitung entropi dari himpunan data tersebut. Entropi dapat dihitung dengan menggunakan rumus yang telah dijelaskan sebelumnya. Dalam hal ini, kita memerlukan entropi awal dari himpunan data sebelum dipisahkan berdasarkan atribut tertentu.

Proporsi pelanggan yang membeli produk adalah 2/8 atau 0.25, sedangkan proporsi pelanggan yang tidak membeli produk adalah 6/8 atau 0.75. Oleh karena itu, nilai entropi awal dari himpunan data adalah:

H(S) = – (0.25 * log2(0.25) + 0.75 * log2(0.75)) = 0.811

Selanjutnya, kita dapat memilih atribut mana yang akan dipakai sebagai pemecah pada decision tree. Misalnya, kita ingin memilih atribut jenis kelamin. Terdapat dua kemungkinan nilai pada atribut jenis kelamin, yaitu pria dan wanita.

Untuk nilai pria, kita perlu memisahkan himpunan data menjadi pelanggan pria dan pelanggan wanita. Berikut adalah himpunan data yang telah dipisahkan berdasarkan atribut jenis kelamin:

ID PelangganUmurPendapatanMembeli
1MudaRendahTidak
2MudaTinggiTidak
6TuaRendahYa
7MudaRendahTidak

Untuk nilai wanita, kita juga perlu memisahkan himpunan data menjadi pelanggan pria dan pelanggan wanita. Berikut adalah himpunan data yang telah dipisahkan berdasarkan atribut jenis kelamin:

ID PelangganUmurPendapatanMembeli
3MudaTinggiYa
4TuaRendahTidak
5TuaRendahTidak
8MudaRendahYa

Setelah himpunan data dipisahkan berdasarkan atribut jenis kelamin, kita dapat menghitung nilai entropi untuk setiap himpunan data.

Himpunan data pelanggan pria memiliki 4 data. Dua data membeli produk dan dua data tidak membeli produk. Oleh karena itu, nilai entropinya adalah:

H(S_pria) = – (0.5 * log2(0.5) + 0.5 * log2(0.5)) = 1.0

Himpunan data pelanggan wanita memiliki 4 data. Dua data membeli produk dan dua data tidak membeli produk. Oleh karena itu, nilai entropinya adalah:

H(S_wanita) = – (0.5 * log2(0.5) + 0.5 * log2(0.5)) = 1.0

Setelah entropi dihitung untuk setiap himpunan data, kita dapat menghitung nilai entropi rata-rata dari pemisahan tersebut. Entropi rata-rata adalah:

H_jenis_kelamin = ((4/8) * 1.0) + ((4/8) * 1.0) = 1.0

Dalam hal ini, nilai entropi rata-rata dari pemisahan berdasarkan jenis kelamin adalah 1.0. Nilai ini dapat digunakan untuk membandingkan dengan nilai entropi rata-rata dari pemisahan berdasarkan atribut lainnya.

FAQ

1. Apa itu decision tree?

Decision tree adalah model pembelajaran mesin yang menggunakan struktur pohon untuk membuat keputusan.

2. Apa itu entropy?

Entropy adalah ukuran dari ketidakpastian dalam sebuah himpunan data.

3. Apa keuntungan menggunakan entropy pada decision tree?

Salah satu keuntungan menggunakan entropy pada decision tree adalah kemampuannya untuk memilih atribut yang paling informatif. Entropy juga dapat digunakan untuk memilih atribut dengan mudah dan membuat pemilihan atribut menjadi lebih obyektif.

4. Bagaimana cara menghitung entropi pada decision tree?

Untuk menghitung entropi pada decision tree, kita perlu menghitung nilai entropi dari setiap himpunan data yang telah dipisahkan berdasarkan atribut tertentu. Nilai entropi rat
a-rata dari semua himpunan data tersebut dapat digunakan untuk memilih atribut yang paling informatif.

5. Apa contoh penerapan entropy pada decision tree?

Salah satu contoh penerapan entropy pada decision tree adalah dalam memprediksi apakah seorang pelanggan toko online akan membeli produk atau tidak berdasarkan jenis kelamin, umur, dan pendapatan.

Semoga Bermanfaat dan Sampai Jumpa di Artikel Menarik Lainnya

Cara Menghitung Entropy Pada Decision Tree