website partnerlinks
webseite informationen
website submission
Website-Submission
Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten,
die in einem Computer oder einem Computernetzwerk wie z. B. dem
World Wide Web gespeichert sind. Nach Eingabe eines Suchbegriffs
liefert eine Suchmaschine eine Liste von Verweisen auf
möglicherweise relevante Dokumente, meistens dargestellt mit Titel
und einem kurzen Auszug des jeweiligen Dokuments. Dabei können
verschiedene Suchverfahren Anwendung finden.
Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer
Suchmaschine sind:
Erstellung und Pflege eines Indexes (Datenstruktur mit Informationen
über Dokumente),
Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen)
sowie
Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.
In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch
Webcrawler, auf einem einzelnen Computer durch regelmäßiges Einlesen
aller Dateien in vom Benutzer spezifizierten Verzeichnissen im
lokalen Dateisystem.
website submission arten
Suchmaschinen lassen sich nach einer Reihe von Merkmalen
kategorisieren. Die drei nachfolgenden Merkmale sind orthogonal
zueinander. Man kann sich beim Entwurf einer Suchmaschine also für
eine Möglichkeit aus jeder der drei Merkmalsgruppen entscheiden,
unabhängig von den anderen Merkmalen. Die gängigste und
meistgenutzte Kombination ist eine indexbasierte (Realisierung)
Websuchmaschine (Datenquelle) auf HTML-Textdokumenten (Art der
Daten), wie sie unter anderem von den drei großen
Suchmaschinenanbietern Google, Yahoo! Search und MSN Search
bereitgestellt wird.
Art der Daten [Bearbeiten]Verschiedene Suchmaschinen können
unterschiedliche Arten von Daten durchsuchen. Zunächst lassen sich
diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere
unterteilen. Ergebnisseiten werden in Abhängigkeit von dieser
Gattung gestaltet. Bei einer Suche nach Textdokumenten wird
üblicherweise ein Textfragment angezeigt, welches die Suchbegriffe
enthält. Bildsuchmaschinen zeigen eine Miniaturansicht der passenden
Bilder an.
Eine weitere feinere Aufgliederung geht auf datenspezifische
Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung
teilen. Bleibt man beim Beispiel Text, so kann bei Usenet-Beiträgen
nach bestimmten Autoren gesucht werden, bei Web-Seiten im
HTML-Format nach dem Dokumententitel.
Je nach Datengattung ist als weitere Funktion eine Einschränkung auf
eine Untermenge aller Daten einer Gattung möglich. Dieses wird im
Allgemeinen über zusätzliche Suchparameter realisiert, die einen
Teil der erfassten Daten ausschließt. Alternativ kann sich eine
Suchmaschine darauf beschränken, von Anfang an nur passende
Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine für
Weblogs (statt für das komplette Web) oder Suchmaschinen, die nur
Dokumente von Universitäten verarbeiten, oder ausschließlich
Dokumente aus einem bestimmten Land, in einer bestimmten Sprache
oder einem bestimmten Dateiformat.
Datenquelle [Bearbeiten]Ein weiteres Merkmal zur Kategorisierung ist
die Quelle, aus der die von der Suchmaschine erfassten Daten
stammen. Meistens beschreibt bereits der Name der Suchmaschinenart
die Quelle.
Websuchmaschinen erfassen Dokumente aus dem World Wide Web,
Usenetsuchmaschinen Beiträge aus dem weltweit verteilten
Diskussionsmedium Usenet.
Intranetsuchmaschinen beschränken sich auf die Rechner des Intranets
einer Firma.
Als Desktop-Suchmaschinen werden neuerdings Programme bezeichnet,
welche den lokalen Datenbestand eines einzelnen Computers
durchsuchbar machen.[1]
Wird die Datenbeschaffung manuell mittels Anmeldung oder durch
Lektoren vorgenommen, spricht man von einem Katalog oder
Verzeichnis. In solchen Verzeichnissen wie dem Open Directory
Project sind die Dokumente hierarchisch in einem Inhaltsverzeichnis
nach Themen organisiert.
Realisierung [Bearbeiten]Dieser Abschnitt beschreibt Unterschiede in
der Realisierung des Betriebs der Suchmaschine.
Die heutzutage wichtigste Gruppe sind indexbasierte Suchmaschinen.
Diese lesen passende Dokumente ein und legen einen Index an. Dabei
handelt es sich um eine Datenstruktur, die bei einer späteren
Suchanfrage verwendet wird. Nachteil ist die aufwendige Pflege und
Speicherung des Indexes, Vorteil ist die Beschleunigung des
Suchvorgangs.
Metasuchmaschinen schicken Suchanfragen parallel an mehrere
indexbasierte Suchmaschinen und kombinieren die Einzelergebnisse.
Als Vorteil ergibt sich die größere Datenmenge sowie die einfachere
Implementierung, da kein Index vorgehalten werden muss. Nachteil ist
die relativ lange Dauer der Anfragebearbeitung. Außerdem ist das
Ranking durch reine Mehrheitsfindung von fragwürdigem Wert. Die
Qualität der Ergebnisse wird unter Umständen auf die Qualität der
schlechtesten unterliegenden Suchmaschine reduziert.
Metasuchmaschinen sind vor allem bei selten vorkommenden
Suchbegriffen sinnvoll.
Weiterhin existieren Hybridformen. Diese besitzen einen eigenen, oft
relativ kleinen Index, befragen aber auch andere Suchmaschinen und
kombinieren schließlich die Einzelergebnisse. Sogenannte
Echtzeitsuchmaschinen starten etwa den Indexierungsvorgang erst nach
einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die
Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten
Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht.
Ein relativ neuer Ansatz sind verteilte Suchmaschinen. Dabei wird
eine Suchanfrage an eine Vielzahl von einzelnen Computern
weitergeleitet, die jeweils eine eigene Suchmaschine betreiben, und
die Ergebnisse zusammengeführt. Vorteil ist die hohe
Ausfallsicherheit aufgrund der Dezentralisierung und – je nach
Sichtweise – die fehlende Möglichkeit, zentral zu zensieren.
Schwierig zu lösen ist allerdings das Ranking, also die Sortierung
der grundsätzlich passenden Dokumente nach ihrer Relevanz für die
Anfrage.
website submission sortierung
Die Darstellung der Suchergebnisse geschieht sortiert nach
Relevanz (Suchmaschinenranking), wofür jede Suchmaschine ihre
eigenen, meistens geheim gehaltenen Kriterien heranzieht. Dazu
gehören:
Die grundlegende Bedeutung eines Dokuments (bei Google der
PageRank-Wert).
Häufigkeit und Stellung der Suchbegriffe im jeweiligen gefundenen
Dokument.
Einstufung und Anzahl der zitierten Dokumente.
Häufigkeit von Verweisen anderer Dokumente auf das im Suchergebnis
enthaltene Dokument sowie in Verweisen enthaltener Text.
Einstufung der Qualität der verweisenden Dokumente (ein Link von
einem „guten“ Dokument ist mehr wert als der Verweis von einem
mittelmäßigen Dokument).
Manche Suchmaschinen sortieren Suchergebnisse nicht nur nach
Relevanz für die Suchanfrage, sondern lassen gegen Bezahlung auch
Einflussnahme auf ihre Ausgabe zu. In den letzten Jahren hat sich
allerdings bei den großen Anbietern eine Trennung zwischen
Suchergebnissen und als „bezahlte Treffer“ markierte eingeblendeter
Werbung durchgesetzt welche auf die Suchanfrage zugeschnitten ist.