Formale Beschreibung des ID3-Algorithmus [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren -> Der ID3-Algorithmus
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

2.3.4.1: Formale Beschreibung des ID3-Algorithmus

Nach dieser eher formlosen Beschreibung soll nun eine formalere und ausführlichere Beschreibung gegeben werden, zunächst für die Konstruktion des Entscheidungsbaums:

Algorithmus 3: ID3 im Detail

Auswahlkriterium

In Schritt 2 muss ein Attribut A_i:D->R_i ausgewählt werden, das zur Selektion verwendet werden soll. Für jedes Attribut, das in Frage kommt, wird der Wert

(63)

(A_i,K_{j,r_m})

kR_i

| A^-1_i({k} )K_{j,r_m}|

|K_{j,r_m}|

(k,K_{j,r_m})

berechnet. Dabei gilt

(k,K)

rR₀

-q_k,rln

( q_k,r)

mit

q_k,r=

|A^-1₀({r}) A^-1_i({k} )K|

| A^-1_i({k} )K|

q_k,r gibt also den Anteil der Tupel aus der Kategorie r unter den Tupeln des Knotens an, bei denen das Attribut A_i den Wert k annimmt. Der Entropiewert I(k,K) gibt damit an, wie durchmischt die Tupel des Knotens in Bezug auf das Attribut A₀ , also in Bezug auf die gesuchte Kategorisierung, sind.

Es wird das Attribut zur Selektion gewählt, bei dem der Wert E(A_i,K_{j,r_m}) minimal ist, bei dem die Kindknoten also bezüglich der gesuchten Kategorie möglichst wenig durchmischt sind.

Abbildung 52: Entropiewerte, nach denen die Attribute bei der Konstruktion eines ID3 Baums selektiert werden.

Abbildung 53: ID3-Entscheidungsbaum

Die Auswahl dieser Optimierungsheuristik ist folgendermaßen motiviert: Betrachtet man die Beispiele eines Knotens als Informationsquelle über die Zugehörigkeit zu den Zielkategorien, dann gibt Formel (63 ) eine Abschätzung des Informationsgehalts bzw. der Entropie eines Kindknotens an, d.h. des mittleren Informationsgewinns, den das Inspizieren eines Beispiels aus der Menge bringt. Stammen fast alle Beispiele der Knotenmenge aus einer Kategorie, ist der zu erwartende Informationsgewinn gering. Stammen sie sogar alle aus einer Kategorie, ist entweder q_k,r=0 oder q_k,r=1 und damit ln(q_k,r) =ln(1)=0 . In beiden Fällen ist das Produkt -q_k,rln(q_k,r) und damit I(k,K) gleich 0. In den anderen Fällen ist der Wert positiv, weil das Argument des Logarithmus zwischen 0 und 1 liegt und der Logarithmus daher negativ ist. Formel (63 ) gibt also den mittleren erwarteten Informationsgehalt der Kindknoten bei einer Aufteilung nach Attribut A_i an. Je kleiner der ist, desto größer ist der Informationsgewinn durch die Wahl von A_i .

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Kategorisieren -> Der ID3-Algorithmus

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

2.3.4.1	Formale Beschreibung des ID3-Algorithmus
Alg. 3	ID3 im Detail
Abb. 52	Entropiewerte, nach denen die Attribute bei der Konstruktion eines ID3 Baums selektiert werden.
Abb. 53	ID3-Entscheidungsbaum

Wertebereich

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 17-11-2003 erzeugt.