| |||||||||||||||||
2.5.2: DBLearn/DBMinerDBLearn (Han, Cai und Cercone, 1992 [->] ) bzw. seine Weiterentwicklung DBMiner (Han, Fu, Wang, Chiang et al., 1996 [->] ) arbeitet auf relationalen Datenbanken und verwendet Konzepthierarchien als Hintergrundwissen. Einige dieser Konzepthierarchien sind in Abbildung 70 dargestellt. Dort sind die Städtenamen zunächst nach Provinzen, dann nach Ländern etc. zusammengefasst. In dieser Struktur steckt also das Wissen über die (politische) Zugehörigkeit der Städte. Abbildung 70: Konzepthierarchien aus DBLearnIn real existierenden Datenbanken werden im Allgemeinen die Attribute nicht so "schön" vorliegen, dass mit ihnen direkt Konzepthierarchien gebildet werden können. Man kann aber z.B. vorhandene Attribute kombinieren, um Konzepthierarchien zu konstruieren. In dem von Han, Cai und Cercone (1992) [->] verwendeten Beispiel einer Datenbank mit Angaben über Studierende gibt es die Attribute city, province und country. Diese Attribute werden zu einem Attribut place kombiniert, zu dem eine Konzepthierarchie konstruiert werden kann. Dabei macht man sich zunutze, dass die vorhandenen Attribute in einem Beispiel bereits eine Hierarchie beschreiben: Die im Attribut city angegebene Stadt liegt in der im Attribut province angegebenen Provinz, die wiederum im in country angegebenen Land liegt. Der Wertebereich des Attributs province kann also als erste Verallgemeinerungsstufe in der Konzepthierarchie verwendet werden, der des Attributs country als zweite, etc. Die Zugehörigkeiten zu den Konzepten können aus den Tupeln der Datenbank abgelesen werden, in denen die entsprechenden Werte vorkommen (falls die Datenbank in diesem Teilbereich konsistent ist). DBLearn erzeugt allgemeine Regeln einer vorgegebenen Komplexität über eine Beispielmenge in Bezug auf eine Auswahl von Attributen. Dabei wird das in Form von Konzepthierarchien vorliegende Hintergrundwissen über diese Attribute verwendet, um Regeln, die aus den Tupeln abgeleitet wurden, zu generalisieren. Han, Cai und Cercone (1992) [->] unterscheiden drei verschiedene Arten von Regeln:
DBLearn ist wie AQ ein Bottom-up-Verfahren, bei dem zunächst die Tupel der Beispielmenge als Input verwendet werden. Sie können im Sinne des AQ-Algorithmus als Komplexe aus elementaren Bedingungen aufgefasst werden. Auf diese Komplexe werden dann bei der Generalisierung die folgenden Regeln und Strategien angewendet: Nur Selektoren generalisierenBei der Generalisierung werden nur einzelne Attribute, also Selektoren bearbeitet. Dabei dürfen in Selektoren auch Bezeichner für Teilmengen von Attributwerten aus den Konzepthierarchien verwendet werden. Aufsteigen in KonzepthierarchienLiegt die Anzahl der verschiedenen in den Beispielen angenommenen Attributwerte und Konzeptbezeichner für ein Attribut höher als eine vorgegebene Schwelle, werden die Attributwerte oder Konzeptbezeichner durch den nächsthöheren Konzeptbezeichner in der Konzepthierarchie ersetzt. Das ist die Generalisierungsoperation "Erweitern eines Wertebereichs". Es ist gleichzeitig die einzige Generalisierungsregel, die in DBLearn verwendet wird. Selektoren mit dem maximalen Element der Teilordnung weglassenBezeichnet der Konzeptbezeichner eines Attributs das maximale Element der Teilordnung, also den Wertebereich des Attributs, kann dieses Attribut weggelassen werden, denn bei der Konstruktion der Komplexe ändert der Schnitt mit der Gesamtmenge der Beispiele den Komplex nicht. Gleiche Tupel zusammenfassenTupel, die bis auf das Attribute VOTE identisch sind, werden zu einem Tupel zusammengefasst. Dabei wird das Attribut VOTE gleich der Summe der Werte der VOTE-Attribute der zusammengefassten Tupel gesetzt. Einfachere Form erzwingenFalls die Anzahl der Komplexe über einer vorgegebenen Schwelle liegt (also die Regel noch zu wenig allgemein ist) und trotzdem die Bedingung aus der Regel zum Aufsteigen in der Konzepthierarchie für keines der Attribute erfüllt ist, wird die Schwelle aus dieser Regel gesenkt. Der Algorithmus zur Extraktion von charakteristischen Regeln zu einer Beispielmenge kann jetzt folgendermaßen geschrieben werden. Eingaben
Algorithmus 8: DBLearnEin Beispiel für die Durchführung des Algorithmus aus Han, Cai und Cercone (1992) [->] ist in Abbildung 71 angegeben. Abbildung 71: Regelgenerierung mit DBLearnDie mit dem Algorithmus gewonnenen charakteristischen Regeln besagen, dass in der untersuchten Beispielmenge die angegebenen Attributwerte bzw. Werte aus den durch die Konzeptbezeichner beschriebenen Wertebereichen zusammen auftreten. Die Attribute, die in den Regeln auftauchen, werden über die Parameter n und k so ausgewählt, dass nicht zu viele und nicht zu "komplizierte" Regeln gefunden werden. Sie werden nicht danach bestimmt, ob die Regeln besonders typisch oder interessant sind. Die Bezeichnung "charakteristische Regeln" legt die Vermutung nahe, dass sich alle Eigenschaften der Beispielmenge aus diesen Regeln erschließen lassen, so wie eine Basismenge aus ihrer charakteristischen Funktion erschlossen werden kann. Das ist aber nicht der Fall. Eigenschaften der Beispielmenge, die sich nicht in der geforderten Einfachheit darstellen lassen, gehen gegebenenfalls durch Aufsteigen zu ANY verloren. Welche Eigenschaften extrahiert werden und welche nicht, hängt vor allem von dem vorhandenen Hintergrundwissen ab. Hat die Konzepthierarchie einen kleinen Verzweigungsgrad, ist die Chance des zugehörigen Attributs hoch, in der extrahierten Regel vorzukommen, hat sie einen hohen Verzweigungsgrad, ist sie eher gering. So können seltene Ausnahmen bereits zur Entfernung eines Attributs führen, auch wenn die große Mehrzahl der Werte sich auf eine kleine Menge beschränkt. Um für eine charakteristische Regel eine quantitative Regel zu erzeugen, verwendet man das VOTE-Attribut. Es gibt für die verbleibenden Komplexe an, auf wie viele Beispiele sie sich stützen. Bei der Konstruktion der Abdeckung kann man für jeden Komplex den entsprechenden Prozentwert angeben. Um Unterscheidungsregeln zu lernen, müssen zwei Beispielmengen, zwischen denen unterschieden werden soll, angegeben werden. In beiden Beispielmengen wird dann simultan der Verallgemeinerungsalgorithmus durchgeführt. Dadurch müssen die durch die Attribut-Wert-Paare beschriebenen Teilmengen der Beispielmenge nicht mehr disjunkt sein. Deshalb werden solche Komplexe, die durch die Verallgemeinerungen in beiden Mengen vorkommen, markiert und nicht weiter berücksichtigt. Bleiben am Schluss in der ersten Menge unmarkierte Komplexe übrig, gibt es also Komplexe in der ersten Abdeckung, die die zweite Abdeckung nicht überdeckt, werden diese Komplexe als Unterscheidungsregeln ausgegeben. Ein Beispiel ist ebenfalls in Han, Cai und Cercone (1992) [->] angegeben. Auch hier geht es nicht darum, die beste Unterscheidung zwischen zwei Beispielmengen zu finden, sondern darum, Mengen zu finden, die sich in einer vorgegebenen Form schreiben lassen und kein Beispiel enthalten, das in der entstehenden Obermenge der zweiten Beispielmenge liegt. | |||||||||||||||||
| |||||||||||||||||
|
Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.
Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.
Diese HTML-Datei wurde am 27-10-2003 erzeugt.