Als Stammformreduktion bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden. So sollen bei einer Suche nach test auch Ergebnisse zu finden sein, die zum Beispiel die Begriffe tested, tests oder testing enthalten.
Zur Stammformreduktion gibt es unterschiedliche Algorithmen für verschiedene Sprachen. Die Entwicklung eines Algorithmus zur Stammformreduktion ist eine experimentelle Wissenschaft, da dieser nicht mathematisch verifiziert werden kann, sondern an realen Texten getestet werden muss.
Man verfolgt mit der Stammformreduktion zwei Ziele:
- Durch das Zusammenführen verschiedener Wortformen zu einem Wort tritt dieses tendenziell häufiger auf. Es sollten deshalb mehr Dokumente bei einem Suchbegriff gefunden werden.
- Durch die Zusammenführung verschiedener Wortformen zu Einem, werden Listen mit Verweisstrukturen auf die zu indizierenden Dokumente kleiner, da weniger Wörter verwaltet werden müssen.
Stammformreduktion ist immer sprachenabhängig, da je nach Sprache unterschiedliche grammatikalische Regeln für Wortkomposition, Flexion und das Hinzufügen von Affixen (Präfix, Suffix und Infix) gelten, die unterschiedliche Algorithmen erfordern.
Hallo Jens,
“die zu indizierenden Dokumente”
müsste korrekt
“die zu indexierenden Dokumente”
heißen.
Hallo Konsumierer,
das stimmt nicht ganz. Indizieren ist ja ein Synonym für indexieren. Bei Suchmaschinen wird für den Vorgang der Aufnahme von Dokumenten in den Suchindex, häufig der Begriff indizieren verwendet.
Beispiel:
Flahertys Idee, Webseiten zu indizieren, machte Altavista zu einer der beliebtesten Suchmaschinen Mitte der Neunziger. (Quelle: spiegel.de vom 29.03.2006 http://www.spiegel.de/netzwelt/tech/0,1518,408173,00.html)