FH München, FB 07/Informatik, SS 99, Vorlesung Datenkommunikation


Vortrag zum Thema: Suchmaschinen im Internet

Dieser Text dient nur für den internen Gebrauch in der Vorlesung "Datenkommunikation" an der FH München, FB 07/Informatik !


Inhaltsverzeichnis

1. Einleitung

2. Die Suche

3. Zusammenfassung

4. Fragen und Antworten


1. Einleitung

Nicht nur der Presserummel um das Internet und seine Möglichkeiten sind ein eindeutiger Hinweis dafür, daß es zunehmend an Bedeutung gewinnt. Auch die Arbeitsplätze verändern sich zusehends; in jeder größeren Firma ist zumindest ein Zugang zum firmeneigenen Intranet vorhanden. Benötigte Informationen holen sich die Interessenten mehr und mehr aus den Netzwerken. Da das Internet im Gegensatz zu Intranets allerdings eher chaotisch "aufgebaut" ist, kommt man nicht umhin, sogenannte Suchmaschinen zu benutzen. Hier soll keine Zusammenfassung über die vorhandenen Suchmaschinen gegeben werden. Vielmehr hat dieser Text das Ziel, am Beispiel von AltaVista die Suchmöglichkeiten darzustellen. Die Wahl ist mehr oder weniger zufällig auf AltaVista gefallen. DIe liegt einerseits an den bevorzugten Suchmaschinen des Autors, andererseits an den wenigen Möglichkeiten von bspw. Yahoo oder Metacrawler. Insgesamt wurden für diesen Text jedoch nur einige der Möglichkeiten von AltaVista herausgefiltert. Wer sich noch genauer informieren will, sollte die Hilfe von AltaVista zu Rate ziehen.

Um die Mitbewerber von AltaVista nicht zu benachteiligen, sind hier einige der bekannteren Suchmaschinen genannt:

International Deutsch Bemerkung
www.altavista.com www.altavista.de
www.excite.com www.excite.de
www.fireball.de Keine internationale Version vorhanden
www.galaxy.com Keine deutsche Version vorhanden
www.google.com www.google.de
www.hotbot.com Keine deutsche Version vorhanden
www.infoseek.com www.infoseek.de
www.looksmart.com Keine deutsche Version vorhanden
www.lycos.com www.lycos.de Auch die internationale Version ist deutsch
magellan.excite.com Keine deutsche Version vorhanden
www.metacrawler.com www.metacrawler.de Unterschiedliche Betreiber von deutscher und internationaler Version
www.northernlight.com Keine deutsche Version vorhanden
www.pointguide.com Keine deutsche Version vorhanden
www.thunderstone.com Keine deutsche Version vorhanden
webcrawler.com Keine deutsche Version vorhanden
www.yahoo.com www.yahoo.de

2. Die Suche

Die Suchmaschine AltaVista bietet zwei verschiedene Masken an, in welchen der Benutzer eine Suchabfrage formulieren kann. Die Eingabemaske, die üblicherweise erscheint (http://www.altavista.de), gehört zur "einfachen Suche". Grundsätzlich ist es hier ausreichend, in ein einzeiliges Eingabefeld ein paar Stichworte einzutragen und anschließend die Suche zu starten. Um die Abfrage genauer zu formulieren, stehen bei der "einfachen Suche" einige Schlüsselwörter und -zeichen zur Verfügung. Die zweite Eingabemaske ermöglicht eine "Profisuche" und stellt zusätzlich zu den Möglichkeiten der "einfachen Suche" noch boolesche Ausdrücke bereit. Weiterhin kann hier die Gewichtung der Suchbegriffe und das Erstellungsdatum der gesuchten Webseiten vom Benutzer angegeben werden. Die folgenden Erläuterungen der Suchmöglichkeiten sind jeweils in zwei Abschnitte geteilt: Zunächst wird die "Theorie" einer Suchoption wiedergegeben, d.h. wie diese Option laut AltaVista-Hilfeseiten wirken sollte. Unter Bemerkung werden anschließend einige "Praxistests" der angesprochenen Option durchgeführt.

2.1. Allgemeines

Auch für die einfachste Suche, die nur einige Schlüsselwörter verwendet, sollten einige wenige Grundsätze bekannt sein.

Einfache Suche in AltaVista

2.1.1. Einschränkung der Sprache

In der Eingabemaske ist eine Drop-Down-Box enthalten, mit deren Hilfe eine Sprache angegeben werden kann. Die Hilfe von AltaVista erläutert hierzu:

Bemerkung:
Wird durch die Angabe der Sprache die Sprache der gefundenen Webseiten eingeschränkt oder werden alle gefundenen Seiten in die angegebene Sprache übersetzt ? Versuche ergaben, daß AltaVista ersteres versucht, also die Sprache der gefundenen Webseiten einzuschränken. Dies funktioniert aber nur bedingt, bei einer Suche in "Englisch" werden auch deutsche Seiten gefunden. Letzendlich ist dieses Verhalten von AltaVista kein Beinbruch: Meist gibt die Sprache, in der die Suchbegriffe geschrieben sind, indirekt die Sprache der gefundenen Seiten an.

2.1.2. Angabe von Sätzen/Phrasen

Die Suchbegriffe werden durch Leerzeichen getrennt, die Wörter eines Satzes/einer Phrase ebenfalls. Damit mehrere Suchbegriffe von einem gesuchten Satz unterschieden werden können, muß ein Satz in "" eingeschlossen sein.

Bemerkung:
Wer früher stirbt sucht nach Seiten, die mindestens eines der angegebenen Wörter beinhaltet, beim Versuch ergaben sich 907963 Treffer. "Wer früher stirbt" hingegen wurde nur 35* gefunden. Laut Online-Hilfe erkennt AltaVista einige Phrasen selbstständig, die dann nicht in "" gesetzt werden müssen. Dies trifft beispielsweise bei der Suche nach Sein oder nichtsein zu. Eine Suchabfrage liefert hier mit und ohne "" die gleiche Anzahl von Treffern.

2.1.3. Groß- und Kleinschreibung der Suchbegriffe

Die Angabe, ob eine Suche case(in)sensitiv durchgeführt wird oder nicht, kann nur indirekt vorgenommen werden: Wird mindestens ein Zeichen des Suchbegriffs groß geschrieben, erfolgt die Suche case-sensitive, ansonsten wird die Groß-/Kleinschreibung vernachlässigt.

Bemerkung:
Bei der Suche nach Paris wurden beispielsweise 160790 Webseiten gefunden. Bei paris müßten es der Anleitung zufolge mehr sein. Eine Suche nach paris bestätigt dies; es wurden 171266 Webseiten aufgespürt. Wird der Suchbegriff in " gestellt, ändert sich das case-Verhalten der Suchmaschine übrigens nicht. Bei einer Suche nach "paris" wurden ebenfalls 171266 Seiten gefunden.

2.1.4. Relevanz/Gewichtung der gefundenen Seiten

Gibt der Suchende mehrere Begriffe an (Beispiel: Fußball Bundesliga), gewichtet AltaVista die gefundenen Webseiten, um die "interessanten" Seiten am Anfang der Ergebnisliste zu zeigen. Eine Seite wiegt umso schwerer, je mehr der gesuchten Begriffe in der Webseite vorkommen und je häufiger ein Begriff innerhalb der Seite erscheint. Bei einer Suche nach Fußball Bundesliga sollten demnach die Seiten zuerst aufgelistet werden, in denen das Wort Fußball und Bundesliga vorkommt und das zusätzlich dazu noch möglichst häufig.

2.2. Die "einfache Suche"

Die "einfache Suche" kann durch die Verwendung von Schlüsselwörtern und -zeichen noch stark verbessert werden. Erfahrungen zufolge können hierdurch normalerweise bessere Ergebnisse erzielt werden als mit der "Profisuche".

2.2.1. Notwendige Suchbegriffe

Ein "notwendiger Suchbegriff" muß in einer Webseite unbedingt vorkommen, damit diese in die Ergebnisliste aufgenommen wird. Ein solcher Begriff wird mit einem vorangestellten + gekennzeichnet.

Bemerkung:
Bei einer Suche nach Bayern +Bier enthalten die gefundenen Webseiten auf jeden Fall das Wort Bier. Aufgrund der Gewichtung der gefundenen Seiten sollten zusätzlich dazu noch diejenigen Seiten weiter vorne in der Ergebnisliste erscheinen, die auch noch das Wort Bayern enthalten. Es ist übrigens überflüssig, bei nur einem Suchbegriff ein + voranzustellen. In diesem Fall ist der einzige Begriff auch gleichzeitig ein "notwendiger Suchbegriff".

2.2.2. Suchbegriffe ausschließen

Das Gegenteil eines "notwendigen Suchbegriffs" stellt das Ausschließen eines Begriffs dar. Ein solches Wort darf in den gefundenen Webseiten nicht vorkommen; es wird mit einem vorangestellen - gekennzeichnet.

Bemerkung:
Bei einer Suche nach +Bier -Preussen werden die Webseiten aufgelistet, die das Wort Bier enthalten, nicht jedoch das Wort Preussen. Eine Suche nach +Bier -Preussen ergab 42785 Treffer, eine Suche nach Bier genau 43100 Webseiten. Die Differenz von 315 erhält man durch eine Suche nach +Bier +Preussen.

2.2.3. Jokerzeichen

Das einzige vorhandene Jokerzeichen ist das *, welches jedoch nur rechts von einem Begriff stehen darf. Die gefundenen Webseiten müssen dann mindestens ein Wort enthalten, dessen Anfangszeichen mit dem angegebenen Begriff übereinstimmen.

Bemerkung:
Eine Suche nach Traum* liefert die URLs der Webseiten, die einen der folgenden Begriffe enthalten: Traumwelt, Trauma, ... Es geht leider nicht aus der Hilfe hervor, ob bei der Suche nach Traum* auch das Wort Traum eingeschlossen ist. Es wurde versucht, dies nachzuprüfen: Eine Suche nach Traum* fand 86320 Webseiten, eine Suche nach +Traum* -Traum nur 43703 Seiten. Dies heißt jedoch nicht unbedingt, daß Traum in Traum* enthalten ist. Vielmehr sind auf jeden Fall die Webseiten weggefallen, die das Wort Traum enthalten. Somit ist nicht ausgeschlossen, daß sich in den weggefallenen Seiten ein weiteres Wort wie bspw. Traumwelt befand. Auch ein Nachweis über die Suche nach +Traum* +Traum (40158 Treffer) scheitert an demselben Problem. Eine zuverlässige Aussage, ob Traum in Traum* enthalten ist, kann somit nicht getroffen werden.

2.2.4. Suche im Titel einer Webseite

Das Schlüsselwort title: erlaubt es, die Suche nach einem Begriff auf die Titelzeile einer Webseite zu beschränken.

Schreibweise: title:Title       Title ist ein Wort, das im Dokumententitel vorkommen muß.

Bemerkung:
Es ist anzunehmen, daß mit title: die Suche auf den Text zwischen den <TITLE> und </TITLE>-Tag einer Webseite eingeschränkt wird. Sollen mehrere Worte in einem Titel gesucht werden, muß die Option title: entsprechend oft angegeben werden. Dies gilt auch für alle folgenden Optionen dieser Art. Der Begriff nach title: wird also - wie nicht anders zu erwarten - durch ein Leerzeichen abgeschlossen. Es liegt nahe, daß diese Systematik auch für alle anderen die Suche einschränkenden Schlüsselworte gilt. Im Übrigen muß Title nicht sofort nach dem : folgen, es sind Versuchen zufolge auch Leerzeichen dazwischen zulässig.

2.2.5. Suche von Texten in der gesamten Webseite

Mit Hilfe von text: wird der angegebene Text in der gesamten Webseite gesucht.

Schreibweise: text:Text       Text ist der zu suchende Text.

Bemerkung:
Ein Unterschied zur "normalen" Suche nach Begriffen mag vorhanden sein, war mit Versuchen jedoch nicht herauszufinden. Die Idee, daß bei text: eine Webseite als "plain ascii" interpretiert wird und somit bspw. auch die Suche nach HTML-Tags möglich ist, hat sich in mehreren Versuchen nicht bestätigt.

2.2.6. Suche nach Bildern mit bestimmten Namen

Mit image: wird in Webseiten nach Bildern gesucht, die einen bestimmten Namen besitzen.

Schreibweise: image:Imagename       Imagename ist der Name des Bildes.

Bemerkung:
Eine Suche mit image:elvis ergab 188 Treffer, die Suche nach image:elvis.jpg ebenso wie image:"elvis.jpg" 60 Treffer. Aufgrund eines Beispiels in den Hilfeseiten von AltaVista kann angenommen werden, daß eine Angabe des Bildnamens ohne Suffix zulässig ist.

2.2.7. Suche nach Linktexten

Mit Hilfe des Schlüsselwortes anchor: kann der zu durchsuchende Bereich für einen Begriff auf den Beschreibungstext von Links eingeschränkt werden.

Schreibweise: anchor:Text       Text ist der gesuchte Text

Bemerkung:
Höchstwahrscheinlich wird bei anchor: der Bereich zwischen <A HREF=...> und </A> durchsucht.

2.2.8. Suche von Texten in der URL von Querverweisen

Das Schlüsselwort link: schränkt die Suche auf den Text innerhalb von Querverweisen ein.

Schreibweise: link:URLtext         URLtext ist der Text, der in der URL eines Querverweises vorkommt.

Bemerkung:
Die Suche mit link:fh-muenchen.de ermittelt alle Webseiten, die einen Link besitzen, der in der URL eines Querverweises den Text fh-muenchen.de beinhaltet. In Versuchen stellte sich heraus, daß hier die Zeichen . / : und @ als Trennerzeichen gelten. Es ist anzunehmen, daß bei dieser Option der Bereich zwischen <A HREF=" und dem abschließenden "> durchsucht wird.

2.2.9. Einschränkung der Suche auf bestimmte Domänen

Mit dem Schlüsselwort domain: kann die Domäne der gefundenen Webseiten vorgegeben werden.

Schreibweise: domain:Domainname       Domainname ist der Name der gewünschten Domäne

Bemerkung:
Die Suche nach domain:org lieferte ebenso wie die Suche nach domain:.org 91845 Seiten. Es ist demnach unerheblich, ob der vorangestellte . angegeben wird. Eine Suche mit domain:.distel.org blieb erfolglos, obwohl sicher eine Webseite mit dieser URL registriert ist (=> Suchoption host: verwenden). Mit domain: ist demnach wirklich nur die Einschränkung der Suche auf Domänen möglich. Mit domain:de läßt sich die Anzahl der "deutschen" Webseiten herausfinden, es sind 8606892. Die Schweizer (domain:ch) bringen es "nur" auf 3243737 bei AltaVista registrierte Webseiten.

2.2.10. Einschränkung der Suche auf bestimmte Hosts

Das Schlüsselwort host: erlaubt es, die Suche auf Hosts bestimmter Namen einzuschränken.

Schreibweise: host:Hostname       Hostname ist der Name des Hosts

Bemerkung:
Mit dieser Suchoption ist es leicht, die Anzahl der bei der Suchmaschine registrierten Webseiten einer Firma, Hochschule usw. zu ermitteln. Eine Suche nach host:fh-muenchen.de brachte 3223 Treffer.

2.2.11. Einschränkung der Suche auf bestimmte URLs

Über das Schlüsselwort url: ist es möglich, die Suche auf bestimmte URLs einzuschränken.

Schreibweise: url:Text       Text ist ein Wort, das in der URL der Webseite vorkommen muß.

Bemerkung:
Versuchen zufolge wird bei der Suche in URLs der / als Trennzeichen angesehen. Wie nicht anders zu erwarten, schließt url: eine Suche innerhalb des Hostnamens (host:) mit ein.

2.2.12. Suche nach Java-Applets

Das vorangestellte Schlüsselwort applet: erlaubt es, nach Webseiten zu suchen, die ein Java-Applet des angegebenen Namens benutzen.

Schreibweise: applet:Class       Class ist der Name des Java-Applets

Bemerkung:
Vermutlich bezieht sich applet: auf den Parameter CODE= zwischen <APPLET> und </APPLET>. Es war nicht herauszufinden, ob sich class auf den gesamten String von CODE= bezieht oder auch Teilangaben zulässig sind.

Beispiel:

Ist eine Teilangabe zulässig, würde bspw. bei der Suche nach applet:demo auch obiges Applet gefunden werden.

2.3. "Profisuche"

Die "Profisuche" stellt weitere Schlüsselworte für eine genauere Angabe der Suchkriterien zur Verfügung. Zusätzlich dazu ist es möglich, die Rangfolge von Suchbegriffen für eine Gewichtung der gefundenen Webseiten selbst vorzugeben.

Maske der Profisuche von AltaVista

2.3.1. Zusätzliche Operatoren

Die in der "Profisuche" zusätzlich zur Verfügung stehenden Operatoren heißen AND (&), OR (|), NOT (!) und NEAR (~). Die ersten drei davon funktionieren wie die gleichnamigen booleschen Operatoren. Anstelle der Schlüsselwörter darf auch das jeweilige Symbol angegeben werden.

2.3.1.1. Boolesches AND

Steht ein AND oder & zwischen zwei Begriffen, müssen beide in der gesuchten Webseite vorkommen, damit diese als Treffer angezeigt wird.

Beispiel: Hopfen AND Malz, Hopfen & Malz

Bemerkung:
Eine Suche nach Hopfen & Malz bzw. Hopfen AND Malz ergibt 1125 gefundene Webseiten. Wird innerhalb der "Profisuche" nach +Hopfen +Malz gesucht, sind jedoch nur 299 Treffer zu verzeichnen. Dieselbe Abfrage in der Maske für die "einfache Suche" ergibt wiederum 1125 gefundene Seiten. Dieser Versuch bestätigt einen Nebensatz in den Hilfeseiten von AltaVista: + und - stehen in der Eingabemaske für die Profisuche nicht zu Verfügung, stattdessen sind AND, OR,... zu verwenden. Undurchsichtig bleibt weiterhin, was AltaVista bei der Suche nach +Hopfen +Malz aufzuspüren versucht; hier soll scheinbar unter allen Umständen eine Fehlermeldung vermieden werden.

2.3.1.2. Boolesches OR

Steht ein OR oder | zwischen zwei Begriffen, muß mindestens einer der beiden Begriffe in der Webseite enthalten sein, damit diese als Treffer gilt.

Beispiel: Telefon OR Telephon, Telefon | Telephon

2.3.1.3. Boolesches NOT

Der Operator NOT (!) darf nur zusammen mit einem AND (&) verwendet werden. NOT schließt Webseiten aus, die den angegebenen Begriff beinhalten.

Beispiel: Sport AND NOT Fußball,Sport & !Fußball

Bemerkung:
Im Gegensatz zur Anleitung kann NOT natürlich auch ohne ein vorangegangenes AND verwendet werden - zumindest wird keinerlei Fehler angezeigt. Was dann letztendlich gefunden wird, läßt sich bei mehreren Millionen Treffern allerdings nicht genau nachprüfen.

2.3.1.4. Der Operator NEAR

Dieser Operator drückt die Nähe von zwei Begriffen innerhalb des Textes einer Webseite aus. Die Begriffe der linken und rechten Seite dürfen höchstens einen Abstand von 10 Worten aufweisen.

Beispiel: Sony NEAR Dreamcast, Sony ~ Dreamcast

2.3.1.5. Klammern ( )

Ausdrücke dürfen - wie gewohnt - geklammert werden.

Beispiel: (Hopfen AND Malz) OR Bier, Hopfen AND (Malz OR Bier)

2.3.2. Gewichtung der gefundenen Dokumente

Unter "Ordnen der Suchbegriffe nach:" kann über die Reihenfolge der angegebenen Begriffe eine Gewichtung derselben festgelegt werden.

Bemerkung:
Es ist praktisch nicht ersichtlich, wie sich eine Veränderung der Reihenfolge der Suchbegriffe auf die Gewichtung der gefundenen Webseiten aufwirkt. Hierzu fehlt einfach eine genaue (mathematische) Beschreibung des Gewichtungsalgorithmus; somit kann auch der "Profisuchende" nur heuristisch vorgehen.

2.3.3. Zeitliche Einschränkungen

Zeitliche Einschränkungen auf das Erstellungsdatum von Webseiten können laut Anleitung in der Schreibweise 01/jan/95 angegeben werden.

Bemerkung:
AltaVista läßt natürlich auch noch andere Schreibweisen zu: Auch 01/01/95 und 1.1.95 usw. erzielen dieselben Treffer wie 01/jan/95.

2.4. Weitere Möglichkeiten

AltaVista bietet noch weitere Möglichkeiten für die Suche an. Es steht beispielsweise noch die Möglichkeit einer graphischen Suche über Java(script) zur Verfügung. Die Anleitung hierzu ist aufgrund eines Fehlers in den Links nur sehr schwer zu finden: "Hilfe -> Häufig gestellte Fragen -> Webmaster Fragen -> Verfeinerte Suche". Für eine mögliche Suche im Usenet werden ebenfalls noch zusätzliche Operatoren zur Verfügung gestellt.

3. Zusammenfassung

Alles in allem waren die durchgeführten Versuche ernüchternd: Die Anleitung ist (verständlicherweise) recht einfach gehalten, wirklich genaue (mathematische) Definitionen, welche Trennerzeichen existieren oder wo innerhalb einer Webseite gesucht wird, waren nicht zu finden. So bleibt die Suche im Internet, was sie schon immer war - ein mehr oder weniger großes Glücksspiel.

4. Fragen und Antworten

Zunächst die Fragen zum Text:

1. Nennen Sie die URLs von acht verschiedenen Internet-Suchmaschinen.

2. "Einfache Suche" bei Altavista: Geben Sie den String an, der eine Suche mit allen folgenden Kriterien durchführt:

Formulieren Sie die Suchabfrage so, daß Sie sich möglichst wenig auf den Gewichtungsalgorithmus von AltaVista verlassen müssen.

3. "Profisuche" bei AltaVista: Geben Sie den String an, der Webseiten sucht, die alle der folgenden Kriterien erfüllen:

Hier die Antworten:

Zu 1.: Die Liste mit den Suchmaschinen steht am Ende der Einleitung.

Zu 2.: +Linux -"Windows NT" +domain:.org +title:download

Zu 3.: (Hopfen NEAR Malz) AND NOT Schnaps AND (Bayern OR Reinheitsgebot) oder


28. Mai 1999  FH München, FB 07/Informatik  Hartmut Beckmann