Unscharfe Mengen [R. Ferber: Information Retrieval]

Reginald Ferber	Information Retrieval Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web

Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Cluster und unscharfe Mengen
Stichwörter dieser Seite	unscharfe Menge, Cluster-Verfahren, Fuzzy Set, Grad der Mitgliedschaft, charakteristische Funktion, Vektorraummodell, leere unscharfe Menge, unscharfes Schließen, unscharfe Relation, vorherzusagendes Attribut, vorhersagendes Attribut
Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]

2.4.2: Unscharfe Mengen

Während in Cluster-Verfahren Teilmengen von ähnlichen Beispielen konstruiert werden, kann man auch versuchen, die Definition von Mengen so zu verallgemeinern, dass vage Zuordnungen von Beispielen in unterschiedliche Teilmengen besser abgebildet werden können. Dazu wurden bereits 1965 von L. A. Zadeh [->] so genannte unscharfe Mengen oder Fuzzy Sets eingeführt. Die folgende Darstellung orientiert sich an Bademer und Gottwald (1993) [->] .

Die Theorie der unscharfen Mengen stellt als eine Verallgemeinerung des Mengenkonzepts den Grad der Mitgliedschaft in einer Menge zur Verfügung. Diese Verallgemeinerung wird mit Hilfe einer Zugehörigkeitsfunktion definiert:

Definition 17: Unscharfe Menge

Bei unscharfen Mengen muss für ein Element also nicht mehr eindeutig gesagt oder bestimmt werden, ob es in einer bestimmten Menge liegt oder nicht, sondern es kann ein Zahlenwert zwischen 0 und 1 angegeben werden, der die Zugehörigkeit des Elements zu der Menge beschreibt. Das entspricht der Gewichtung von Termen in der Vektordarstellung eines Dokuments. Dort war allerdings keine Einschränkung der Werte auf das Intervall [0,1] festgelegt worden. Eine solche Einschränkung kann allerdings im Allgemeinen durch eine geeignete Normierung erreicht werden. Dabei müssen aber die Auswirkungen auf die verwendeten Ähnlichkeitsmaße berücksichtigt werden. Im Unterschied zum Vektorraummodell ist die Definition von unscharfen Mengen nicht auf eine endliche (Grund-)Menge von Termen beschränkt. Sie wurde für beliebige Mengen eingeführt. In Abbildung 66 sind verschiedene Lebensabschnitte als unscharfe Mengen über dem Grundraum der Lebensjahre dargestellt.

Die herkömmliche Mengendefinition (oder die Definition einer scharfen Menge) lässt sich als Spezialfall der Definition einer unscharfen Menge schreiben. Dazu wählt man als Zugehörigkeitsfunktion einer Menge UD die charakteristische Funktion:

m_U (d) = 1_U (d) = {

1 falls dU

0 sonst

Das ist das gleiche Vorgehen wie bei der Beschreibung des booleschen Retrieval als Spezialfall des Vektorraummodells.

Zwei unscharfe Mengen sind genau dann gleich, wenn ihre Zugehörigkeitsfunktionen gleich sind. Die leere unscharfe Menge ist durch die Zugehörigkeitsfunktion
m_Ø0
gegeben, die Grundmenge D durch
m_D1
Weiter können folgende Begriffe definiert werden:

Definition 18: Träger, Kern, Schnitte und Höhe

Bei endlichen Grundmengen, wie sie beispielsweise im Vektorraummodell auftreten, kann man das Supremum durch das Maximum ersetzen.

Abbildung 66: Unscharfe Mengen zur Beschreibung von Lebensaltern

Zur weiteren Untersuchung der Eigenschaften unscharfer Mengen bzw. zur weiteren Verallgemeinerung von Eigenschaften scharfer Mengen auf unscharfe Mengen kann man die folgende Aussage benutzen, die eine Beziehung zwischen scharfen und unscharfen Mengen herstellt.

Satz 3: Festlegung durch Schnitte

Das lässt sich folgendermaßen einsehen: 1_X^> ist die charakteristische Funktion des -Schnitts. Sie ist also so lange gleich 1 , wie d in X^> liegt. Das ist aber genau dann der Fall, wenn m_X(d)> gilt. Mit wachsendem ergibt sich das Supremum also gerade für =m_X(d)

Abbildung 67: Rekonstruktion des Werts der Zugehörigkeitsfunktion aus den Alpha-Schnitten

Mit dieser Äquivalenz lassen sich Eigenschaften und Operationen von scharfen auf unscharfe Mengen übertragen. Geht man von der Teilmengenrelation für scharfe Mengen aus, kann man fordern, dass die -Schnitte einer Teilmengenrelation unscharfer Mengen die Teilmengenrelation für scharfe Schnitte erfüllen sollen. Man erhält als Definition also
YX:Y^>=X^>= [0,1 ]
Aus der rechten Seite kann man eine äquivalente Bedingung für die Zugehörigkeitsfunktionen ableiten: Für ein beliebiges dD setzt man =m_Y(d) . Dann folgt aus dY^>= , dass auch dX^>= gilt und damit m_X(d)>= , also m_X(d)>=m_Y (d) d D . Umgekehrt folgt aus m_X(d)>=m_Y (d) d D nach der Definition des Schnitts X^>=Y^>= . Zusammen gilt also
YXm_Y(d) <=m_X(d) dD

Man kann also die Teilmengenrelation für unscharfe Mengen durch diese Äquivalenz definieren. Für sie folgt dann unmittelbar:
ØXD

YX, XYY=X
sowie
YX, XW YW
Wie bei den scharfen Mengen gibt es auch bei unscharfen Mengen verschiedene sinnvolle Maße für die Größe einer Menge, je nachdem, ob der Träger endlich, abzählbar oder messbar ist. Bei endlichem Träger kann man analog zur Anzahl der Elemente einer scharfen Menge die Summe der Werte der Zugehörigkeitsfunktion verwenden.

dsupp(X)

m_X (d)

Bei abzählbarem Träger kann diese Summe (anders als bei der scharfen Menge) endlich sein oder auch nicht. Bei messbarem, aber nicht endlichem Träger kann man das Integral über die Zugehörigkeitsfunktion als Maß für die Größe der Menge verwenden.

supp(X)

m_X (x) dx

Interessant sind dabei vor allem relative Größenangaben, also Angaben darüber, welchen Anteil der Größe der Grundmenge eine Teilmenge einnimmt. Diese relativen Größenangaben können für die verschiedenen Größenmaße berechnet werden.

Definition 19: Vereinigung, Durchschnitt und Komplement

Man sieht, dass sich diese Definitionen bei der Verwendung von scharfen Mengen, also von charakteristischen Funktionen, mit den herkömmlichen Definitionen von Vereinigung, Durchschnitt und Komplement decken.

Abbildung 68: Vereinigung und Durchschnitt von unscharfen Mengen

Aus den entsprechenden Eigenschaften der Maximumsfunktion ergeben sich auch sofort

die Kommutativität:
YX=XY
die Assoziativität:
(YX)W=X( YW)
die Idempotenz:
XX=X
und die Monotonie:
YXYWXW

Diese Eigenschaften lassen sich auch für den Durchschnitt zeigen. Entsprechend lassen sich auch Distributivgesetze und die Regeln über den Zusammenhang von Vereinigung und Durchschnitt mit der Komplementbildung (Regeln von de Morgan) auf unscharfe Mengen übertragen. Schließlich gilt

(YX)^>=Y^>X^>

und

(YX)^>=Y^>X^>

Neben dieser "kanonischen" Definition von Vereinigung und Durchschnittsbildung gibt es noch weitere Möglichkeiten, solche Operationen zu definieren. Darauf soll hier nicht eingegangen werden. Es soll aber noch angedeutet werden, wie Fuzzy-Methoden zum unscharfen Schließen bzw. unscharfen Kategorisieren verwendet werden können. Dazu kann man unscharfe Relationen analog zu scharfen Relationen als Teilmengen der entsprechenden kartesischen Produkte definieren:

Eine (scharfe) Relation zwischen zwei Attributen A₁:D->R₁ und A₂:D->R₂ kann als Teilmenge des kartesischen Produkts der Wertemenge der Attribute geschrieben werden.
TR₁×R₂={( x,y) | xR₁,yR₂}
Die Gleichheit zweier Attribute kann damit z.B. als Relation der Form
T={(x,y) | x=y}
geschrieben werden.

Kategorisierungsregeln, wie sie z.B. beim AQ-Algorithmus beschrieben wurden, können auch als Relationen dargestellt werden. Die folgende Darstellung beschränkt sich der Einfachheit halber auf Kategorisierungen, die durch ein vorherzusagendes Attribut A₂ beschrieben sind und sich nur auf ein vorhersagendes Attribut A₁ stützen. Wie beschrieben, lässt sich jede Kategorisierung durch die geeignete Wahl bzw. Konstruktion von A₁ auf diese Aufgabe reduzieren. Sie ist dann eine Funktion, die sich als Regel in der Form IF (A₁=x) THEN A₂=y schreiben lässt und als Relation in der Form
{(x,y) | A₁=x,A₂=y}
Die charakteristische Funktion der Gleichheitsrelation auf der Menge der Paare ergibt sich z.B. für R=R₁=R₂={0,1,2} in der Form:
T= (

1 0 0

0 1 0

0 0 1

)
Ein Eintrag t_i,j in dieser Matrix gibt an, ob der Wert x_i der Variablen x und der Wert y_j der Variablen y die Relation erfüllen (1) oder nicht (0).

Schreibt man ein Element aus R auch als seine charakteristische Funktion, also z.B. 1R als x=(0,1,0)^t , so ergibt sich die Kategorisierung als Multiplikation der Matrix T mit dem Vektor x . Man kann sie in der Form IF (A₁=x) THEN A₂=T·x schreiben oder einfacher als
A₂(x)=T·x
In dieser Weise werden Kategorisierungen beschrieben, solange die Matrix eine Permutationsmatrix ist, solange also in jeder Zeile und in jeder Spalte genau eine 1 steht. Allgemeiner kann man die IF-THEN-Regel als eine Verknüpfung der charakteristischen Funktion des Werts von A₁ mit der Relation betrachten.

Die Darstellung der Relation durch die charakteristische Funktion ermöglicht die Verallgemeinerung der Relation zu einer unscharfen Relation und damit die Definition einer unscharfen Kategorisierung. Während bei der scharfen Relation nur 0 und 1 als Beschreibungen der Zugehörigkeit zur Teilmenge der Paare zulässig sind, sind bei der unscharfen Relation Zugehörigkeiten aus dem Intervall [0,1] erlaubt, z.B.:
m_T= (

1 0,3 0,1

0 1 0,3

0 0 1

)

Eine unscharfe IF-THEN-Regel kann nun mit Hilfe einer unscharfen Relation folgendermaßen geschrieben werden: IF (A₁=X) THEN A₂=Y mit unscharfen Mengen X und Y . Die Zugehörigkeitsfunktion von Y ist dabei folgendermaßen definiert:

m_Y (y) =

sup

xR₁

{min (m_X(x) ,m_T(x,y)) } yR₂

Dabei werden x und y wie die Indices der Matrixelemente gelesen.

Diese von Zadeh vorgeschlagene Definition lehnt sich an das Produkt zwischen dem Vektor und der Matrix an. Die Multiplikation wird dabei durch das Minimum ersetzt und die Addition durch die Supremumsbildung. Das Ergebnis dieser unscharfen Kategorisierung ist eine unscharfe Menge, also eine Zugehörigkeitsfunktion.

Navigation	[ Zurück ] [ Inhalt ] [ Stichwörter ] [ Feedback ] [ Home ]
Position im Angebot	Information Retrieval -> Wissensgewinnung mit Data-Mining-Methoden -> Cluster und unscharfe Mengen

Dieser Abschnitt und seine Unterabschnitte

Inhalt

Stichwörter in der Reihenfolge ihres Auftretens

Stichwörter alphabetisch sortiert

2.4.2	Unscharfe Mengen
Def. 17	Unscharfe Menge
Def. 18	Träger, Kern, Schnitte und Höhe
Abb. 66	Unscharfe Mengen zur Beschreibung von Lebensaltern
Satz 3	Festlegung durch Schnitte
Abb. 67	Rekonstruktion des Werts der Zugehörigkeitsfunktion aus den Alpha-Schnitten
Def. 19	Vereinigung, Durchschnitt und Komplement
Abb. 68	Vereinigung und Durchschnitt von unscharfen Mengen

unscharfe Menge, Cluster-Verfahren, Fuzzy Set, Grad der Mitgliedschaft, Zugehörigkeitsfunktion, membership function, unscharfe Menge, Grundbereich, Grad der Zugehörigkeit, scharfe Menge, charakteristische Funktion, Vektorraummodell, leere unscharfe Menge, Träger, support, Alpha-Schnitt, Schnitt, Kern, Höhe, Durchschnitt, Vereinigung, Durchschnitt, unscharfes Schließen, unscharfe Relation, vorherzusagendes Attribut, vorhersagendes Attribut

Alpha-Schnitt, charakteristische Funktion, Cluster-Verfahren, Durchschnitt, Durchschnitt, Fuzzy Set, Grad der Zugehörigkeit, Grad der Mitgliedschaft, Grundbereich, Höhe, Kern, leere unscharfe Menge, membership function, scharfe Menge, Schnitt, support, Träger, unscharfe Menge, unscharfe Menge, unscharfe Relation, unscharfes Schließen, Vektorraummodell, Vereinigung, vorhersagendes Attribut, vorherzusagendes Attribut, Zugehörigkeitsfunktion

Diese Seiten sind urheberrechtlich geschützt. Die Verantwortung für die Inhalte und die Rechte der Online-Version liegen beim Autor Reginald Ferber, Münster (Westf). Die Rechte der gedruckten Version beim dpunkt.verlag, Heidelberg. Die Weiterverwendung von Texten oder Abbildungen - auch auszugsweise - ist ohne die schriftliche Zustimmung des Autors Reginald Ferber bzw. des dpunkt.verlags nicht gestattet.

Es wird darauf hingewiesen, dass die verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken-, oder patentrechtlichem Schutz unterliegen. Alle Angaben und Programme wurden mit großer Sorgfalt kontrolliert. Trotzdem kann keinerlei Haftung für Schäden irgendwelcher Art übernommen werden, die sich im Zusammenhang mit der Nutzung dieser Seiten ergeben.

Diese HTML-Datei wurde am 27-10-2003 erzeugt.