2.3.4.1: Formale Beschreibung des ID3-Algorithmus
Nach dieser eher formlosen Beschreibung soll nun eine formalere
und ausführlichere Beschreibung gegeben werden, zunächst
für die Konstruktion des Entscheidungsbaums:
Auswahlkriterium
In Schritt 2 muss ein Attribut
Ai:D->Ri
ausgewählt werden, das zur Selektion verwendet werden soll.
Für jedes Attribut, das in Frage kommt, wird der Wert
| E |
(Ai,Kj,rm) |
= |
|
 |
k Ri |
|
|
A-1i({k}
) Kj,rm|
|
 |
| |Kj,rm|
|
|
I |
(k,Kj,rm) |
berechnet. Dabei gilt
| I |
(k,K) |
= |
|
 |
r R0 |
|
-qk,rln |
(
qk,r) |
mit
| qk,r= |
|A-10
({r})
A-1i({k}
) K| |
 |
|
A-1i({k}
) K| |
|
qk,r
gibt also den Anteil der Tupel aus der Kategorie
r
unter den Tupeln des Knotens an, bei denen das
Attribut
Ai
den Wert
k
annimmt. Der Entropiewert
I(k,K)
gibt damit an, wie durchmischt die Tupel des Knotens
in Bezug auf das Attribut
A0
, also in Bezug auf die gesuchte Kategorisierung,
sind.
Es wird das Attribut zur Selektion gewählt, bei dem der Wert
E(Ai,Kj,rm)
minimal ist, bei dem die Kindknoten also
bezüglich der gesuchten Kategorie möglichst wenig durchmischt
sind.
Die Auswahl dieser Optimierungsheuristik ist folgendermaßen
motiviert: Betrachtet man die Beispiele eines Knotens als
Informationsquelle über die Zugehörigkeit zu den
Zielkategorien, dann gibt Formel (63
)
eine Abschätzung des Informationsgehalts
bzw. der Entropie eines Kindknotens an, d.h.
des mittleren Informationsgewinns, den das Inspizieren eines Beispiels
aus der Menge bringt.
Stammen fast alle Beispiele der Knotenmenge
aus einer Kategorie, ist der zu erwartende
Informationsgewinn gering. Stammen sie sogar alle aus einer
Kategorie, ist entweder
qk,r=0
oder
qk,r=1
und damit
ln(qk,r)
=ln(1)=0
. In beiden Fällen ist das Produkt
-qk,rln(qk,r)
und damit
I(k,K)
gleich 0. In den anderen Fällen ist der Wert positiv, weil das
Argument des Logarithmus zwischen
0
und
1
liegt und der Logarithmus daher negativ
ist. Formel (63
) gibt also den
mittleren erwarteten Informationsgehalt der Kindknoten bei einer
Aufteilung nach Attribut
Ai
an. Je kleiner der ist, desto größer ist der
Informationsgewinn durch die Wahl von
Ai
.
|