Juli 31 2008

Stammformreduktion

2  kommentare

Als Stammformreduktion bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden. So sollen bei einer Suche nach test auch Ergebnisse zu finden sein, die zum Beispiel die Begriffe tested, tests oder testing enthalten.

Zur Stammformreduktion gibt es unterschiedliche Algorithmen für verschiedene Sprachen. Die Entwicklung eines Algorithmus zur Stammformreduktion ist eine experimentelle Wissenschaft, da dieser nicht mathematisch verifiziert werden kann, sondern an realen Texten getestet werden muss.

Man verfolgt mit der Stammformreduktion zwei Ziele:

  1. Durch das Zusammenführen verschiedener Wortformen zu einem Wort tritt dieses tendenziell häufiger auf. Es sollten deshalb mehr Dokumente bei einem Suchbegriff gefunden werden.
  2. Durch die Zusammenführung verschiedener Wortformen zu Einem, werden Listen mit Verweisstrukturen auf die zu indizierenden Dokumente kleiner, da weniger Wörter verwaltet werden müssen.

Stammformreduktion ist immer sprachenabhängig, da je nach Sprache unterschiedliche grammatikalische Regeln für Wortkomposition, Flexion und das Hinzufügen von Affixen (Präfix, Suffix und Infix) gelten, die unterschiedliche Algorithmen erfordern.

Über Jens Jäger.

Meine Mission ist es, den Unternehmens-Impact, meiner Kunden durch agile Softwareprojekte zu steigern:

  • Digitale Transformation ankurbeln.
  • Routineaufgaben automatisieren.
  • Freiraum für Innovation schaffen.

Das könnte dich auch interessieren

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert. Infos zum Datenschutz.


Dein Kommentar *

  1. Hallo Konsumierer,

    das stimmt nicht ganz. Indizieren ist ja ein Synonym für indexieren. Bei Suchmaschinen wird für den Vorgang der Aufnahme von Dokumenten in den Suchindex, häufig der Begriff indizieren verwendet.

    Beispiel:
    Flahertys Idee, Webseiten zu indizieren, machte Altavista zu einer der beliebtesten Suchmaschinen Mitte der Neunziger. (Quelle: spiegel.de vom 29.03.2006 http://www.spiegel.de/netzwelt/tech/0,1518,408173,00.html)

{"email":"E-Mail Adresse ungültig","url":"Website address invalid","required":"Das Feld wird benötigt"}

Du möchtest mit mir zusammenarbeiten? 

Werde ein Teil unseres Teams: