FH München, FB 07/Informatik, SS 99, Vorlesung Datenkommunikation
Darstellung einiger Suchmöglichkeiten am Beispiel von AltaVista.
Dieser Text dient nur für den internen Gebrauch in der Vorlesung "Datenkommunikation" an der FH München, FB 07/Informatik !
1. Einleitung
2. Die Suche
2.1. Allgemeines
2.1.1. Einschränkung der Sprache
2.1.2. Angabe von Sätzen/Phrasen
2.2. Die "einfache Suche"
2.2.1. Notwendige Suchbegriffe
2.2.2. Suchbegriffe ausschließen
2.2.3. Jokerzeichen
2.2.4. Suche im Titel einer Webseite
2.2.5. Suche von Texten in der gesamten Webseite
2.2.6. Suche nach Bildern mit bestimmten Namen
2.2.7. Suche nach Linktexten
2.2.8. Suche von Texten in der URL von Querverweisen
2.2.9. Einschränkung der Suche auf bestimmte Domänen
2.2.10. Einschränkung der Suche auf bestimmte Hosts
2.2.11. Einschränkung der Suche auf bestimmte URLs
2.2.12. Suche nach Java-Applets
2.3. "Profisuche"
2.3.1. Zusätzliche Operatoren
2.3.1.1. Boolesches AND
2.3.1.2. Boolesches OR
2.3.1.3. Boolesches NOT
2.3.1.4. Der Operator NEAR
2.3.1.5. Klammern ( )
2.3.2. Gewichtung der gefundenen Dokumente
2.3.3. Zeitliche Einschränkungen
Nicht nur der Presserummel um das Internet und seine Möglichkeiten sind ein eindeutiger Hinweis dafür, daß es zunehmend an Bedeutung gewinnt. Auch die Arbeitsplätze verändern sich zusehends; in jeder größeren Firma ist zumindest ein Zugang zum firmeneigenen Intranet vorhanden. Benötigte Informationen holen sich die Interessenten mehr und mehr aus den Netzwerken. Da das Internet im Gegensatz zu Intranets allerdings eher chaotisch "aufgebaut" ist, kommt man nicht umhin, sogenannte Suchmaschinen zu benutzen. Hier soll keine Zusammenfassung über die vorhandenen Suchmaschinen gegeben werden. Vielmehr hat dieser Text das Ziel, am Beispiel von AltaVista die Suchmöglichkeiten darzustellen. Die Wahl ist mehr oder weniger zufällig auf AltaVista gefallen. DIe liegt einerseits an den bevorzugten Suchmaschinen des Autors, andererseits an den wenigen Möglichkeiten von bspw. Yahoo oder Metacrawler. Insgesamt wurden für diesen Text jedoch nur einige der Möglichkeiten von AltaVista herausgefiltert. Wer sich noch genauer informieren will, sollte die Hilfe von AltaVista zu Rate ziehen.
Um die Mitbewerber von AltaVista nicht zu benachteiligen, sind hier einige der bekannteren Suchmaschinen genannt:
International | Deutsch | Bemerkung |
---|---|---|
www.altavista.com | www.altavista.de | |
www.excite.com | www.excite.de | |
www.fireball.de | Keine internationale Version vorhanden | |
www.galaxy.com | Keine deutsche Version vorhanden | |
www.google.com | www.google.de | |
www.hotbot.com | Keine deutsche Version vorhanden | |
www.infoseek.com | www.infoseek.de | |
www.looksmart.com | Keine deutsche Version vorhanden | |
www.lycos.com | www.lycos.de | Auch die internationale Version ist deutsch |
magellan.excite.com | Keine deutsche Version vorhanden | |
www.metacrawler.com | www.metacrawler.de | Unterschiedliche Betreiber von deutscher und internationaler Version |
www.northernlight.com | Keine deutsche Version vorhanden | |
www.pointguide.com | Keine deutsche Version vorhanden | |
www.thunderstone.com | Keine deutsche Version vorhanden | |
webcrawler.com | Keine deutsche Version vorhanden | |
www.yahoo.com | www.yahoo.de |
Die Suchmaschine AltaVista bietet zwei verschiedene Masken an, in welchen der Benutzer eine Suchabfrage formulieren kann. Die Eingabemaske, die üblicherweise erscheint (http://www.altavista.de), gehört zur "einfachen Suche". Grundsätzlich ist es hier ausreichend, in ein einzeiliges Eingabefeld ein paar Stichworte einzutragen und anschließend die Suche zu starten. Um die Abfrage genauer zu formulieren, stehen bei der "einfachen Suche" einige Schlüsselwörter und -zeichen zur Verfügung. Die zweite Eingabemaske ermöglicht eine "Profisuche" und stellt zusätzlich zu den Möglichkeiten der "einfachen Suche" noch boolesche Ausdrücke bereit. Weiterhin kann hier die Gewichtung der Suchbegriffe und das Erstellungsdatum der gesuchten Webseiten vom Benutzer angegeben werden. Die folgenden Erläuterungen der Suchmöglichkeiten sind jeweils in zwei Abschnitte geteilt: Zunächst wird die "Theorie" einer Suchoption wiedergegeben, d.h. wie diese Option laut AltaVista-Hilfeseiten wirken sollte. Unter Bemerkung werden anschließend einige "Praxistests" der angesprochenen Option durchgeführt.
Auch für die einfachste Suche, die nur einige Schlüsselwörter verwendet, sollten einige wenige Grundsätze bekannt sein.
In der Eingabemaske ist eine Drop-Down-Box enthalten, mit deren Hilfe eine Sprache angegeben werden kann. Die Hilfe von AltaVista erläutert hierzu:
Sie können Ihre Suche auf eine Sprache Ihrer Wahl beschränken: Wählen Sie im Pull Down Menü einfach die Sprache aus, in der Sie Ihre gesuchten Informationen lesen möchten. Bei altavista.de ist Deutsch bereits voreingestellt und bei altavista.com ¬Any Language'.
Beispiel : Sie wählen "Italienisch" als Sprache aus, gehen auf die Suche nach "Rom" und finden alle italienischen Webseiten, in denen "Roma" vorkommt.
Bemerkung:
Wird durch die Angabe der Sprache die Sprache der gefundenen Webseiten
eingeschränkt oder werden alle gefundenen Seiten in die angegebene
Sprache übersetzt ? Versuche ergaben, daß AltaVista ersteres
versucht, also die Sprache der gefundenen Webseiten einzuschränken.
Dies funktioniert aber nur bedingt, bei einer Suche in "Englisch"
werden auch deutsche Seiten gefunden. Letzendlich ist dieses Verhalten
von AltaVista kein Beinbruch: Meist gibt die Sprache, in der die Suchbegriffe
geschrieben sind, indirekt die Sprache der gefundenen Seiten an.
Die Suchbegriffe werden durch Leerzeichen getrennt, die Wörter eines Satzes/einer Phrase ebenfalls. Damit mehrere Suchbegriffe von einem gesuchten Satz unterschieden werden können, muß ein Satz in "" eingeschlossen sein.
Bemerkung:
Wer früher stirbt sucht nach Seiten, die mindestens eines
der angegebenen Wörter beinhaltet, beim Versuch ergaben sich 907963
Treffer. "Wer früher stirbt" hingegen wurde nur
35* gefunden. Laut Online-Hilfe erkennt AltaVista einige Phrasen selbstständig,
die dann nicht in "" gesetzt werden müssen. Dies
trifft beispielsweise bei der Suche nach Sein oder nichtsein zu.
Eine Suchabfrage liefert hier mit und ohne "" die gleiche
Anzahl von Treffern.
Die Angabe, ob eine Suche case(in)sensitiv durchgeführt wird oder nicht, kann nur indirekt vorgenommen werden: Wird mindestens ein Zeichen des Suchbegriffs groß geschrieben, erfolgt die Suche case-sensitive, ansonsten wird die Groß-/Kleinschreibung vernachlässigt.
Bemerkung:
Bei der Suche nach Paris wurden beispielsweise 160790 Webseiten
gefunden. Bei paris müßten es der Anleitung zufolge
mehr sein. Eine Suche nach paris bestätigt dies; es wurden
171266 Webseiten aufgespürt. Wird der Suchbegriff in "
gestellt, ändert sich das case-Verhalten der Suchmaschine übrigens
nicht. Bei einer Suche nach "paris" wurden ebenfalls
171266 Seiten gefunden.
Gibt der Suchende mehrere Begriffe an (Beispiel: Fußball Bundesliga), gewichtet AltaVista die gefundenen Webseiten, um die "interessanten" Seiten am Anfang der Ergebnisliste zu zeigen. Eine Seite wiegt umso schwerer, je mehr der gesuchten Begriffe in der Webseite vorkommen und je häufiger ein Begriff innerhalb der Seite erscheint. Bei einer Suche nach Fußball Bundesliga sollten demnach die Seiten zuerst aufgelistet werden, in denen das Wort Fußball und Bundesliga vorkommt und das zusätzlich dazu noch möglichst häufig.
Die "einfache Suche" kann durch die Verwendung von Schlüsselwörtern und -zeichen noch stark verbessert werden. Erfahrungen zufolge können hierdurch normalerweise bessere Ergebnisse erzielt werden als mit der "Profisuche".
Ein "notwendiger Suchbegriff" muß in einer Webseite unbedingt vorkommen, damit diese in die Ergebnisliste aufgenommen wird. Ein solcher Begriff wird mit einem vorangestellten + gekennzeichnet.
Bemerkung:
Bei einer Suche nach Bayern +Bier enthalten die gefundenen
Webseiten auf jeden Fall das Wort Bier. Aufgrund der Gewichtung
der gefundenen Seiten sollten zusätzlich dazu noch diejenigen Seiten
weiter vorne in der Ergebnisliste erscheinen, die auch noch das Wort Bayern
enthalten. Es ist übrigens überflüssig, bei nur einem Suchbegriff
ein + voranzustellen. In diesem Fall ist der einzige Begriff auch
gleichzeitig ein "notwendiger Suchbegriff".
Das Gegenteil eines "notwendigen Suchbegriffs" stellt das Ausschließen eines Begriffs dar. Ein solches Wort darf in den gefundenen Webseiten nicht vorkommen; es wird mit einem vorangestellen - gekennzeichnet.
Bemerkung:
Bei einer Suche nach +Bier -Preussen werden die Webseiten
aufgelistet, die das Wort Bier enthalten, nicht jedoch das Wort
Preussen. Eine Suche nach +Bier -Preussen ergab 42785
Treffer, eine Suche nach Bier genau 43100 Webseiten. Die Differenz
von 315 erhält man durch eine Suche nach +Bier +Preussen.
Das einzige vorhandene Jokerzeichen ist das *, welches jedoch nur rechts von einem Begriff stehen darf. Die gefundenen Webseiten müssen dann mindestens ein Wort enthalten, dessen Anfangszeichen mit dem angegebenen Begriff übereinstimmen.
Bemerkung:
Eine Suche nach Traum* liefert die URLs der Webseiten, die
einen der folgenden Begriffe enthalten: Traumwelt, Trauma,
... Es geht leider nicht aus der Hilfe hervor, ob bei der Suche nach Traum*
auch das Wort Traum eingeschlossen ist. Es wurde versucht, dies
nachzuprüfen: Eine Suche nach Traum* fand 86320 Webseiten,
eine Suche nach +Traum* -Traum nur 43703 Seiten. Dies heißt
jedoch nicht unbedingt, daß Traum in Traum* enthalten
ist. Vielmehr sind auf jeden Fall die Webseiten weggefallen, die das Wort
Traum enthalten. Somit ist nicht ausgeschlossen, daß sich
in den weggefallenen Seiten ein weiteres Wort wie bspw. Traumwelt
befand. Auch ein Nachweis über die Suche nach +Traum* +Traum
(40158 Treffer) scheitert an demselben Problem. Eine zuverlässige
Aussage, ob Traum in Traum* enthalten ist, kann somit
nicht getroffen werden.
Das Schlüsselwort title: erlaubt es, die Suche nach einem Begriff auf die Titelzeile einer Webseite zu beschränken.
Schreibweise: title:Title Title ist ein Wort, das im Dokumententitel vorkommen muß.
Bemerkung:
Es ist anzunehmen, daß mit title: die Suche auf den
Text zwischen den <TITLE> und </TITLE>-Tag einer Webseite eingeschränkt
wird. Sollen mehrere Worte in einem Titel gesucht werden, muß die
Option title: entsprechend oft angegeben werden. Dies gilt auch
für alle folgenden Optionen dieser Art. Der Begriff nach title:
wird also - wie nicht anders zu erwarten - durch ein Leerzeichen abgeschlossen.
Es liegt nahe, daß diese Systematik auch für alle anderen die
Suche einschränkenden Schlüsselworte gilt. Im Übrigen muß
Title nicht sofort nach dem : folgen, es sind Versuchen
zufolge auch Leerzeichen dazwischen zulässig.
Mit Hilfe von text: wird der angegebene Text in der gesamten Webseite gesucht.
Schreibweise: text:Text Text ist der zu suchende Text.
Bemerkung:
Ein Unterschied zur "normalen" Suche nach Begriffen mag vorhanden
sein, war mit Versuchen jedoch nicht herauszufinden. Die Idee, daß
bei text: eine Webseite als "plain ascii" interpretiert
wird und somit bspw. auch die Suche nach HTML-Tags möglich ist, hat
sich in mehreren Versuchen nicht bestätigt.
Mit image: wird in Webseiten nach Bildern gesucht, die einen bestimmten Namen besitzen.
Schreibweise: image:Imagename Imagename ist der Name des Bildes.
Bemerkung:
Eine Suche mit image:elvis ergab 188 Treffer, die Suche nach
image:elvis.jpg ebenso wie image:"elvis.jpg"
60 Treffer. Aufgrund eines Beispiels in den Hilfeseiten von AltaVista kann
angenommen werden, daß eine Angabe des Bildnamens ohne Suffix zulässig
ist.
Mit Hilfe des Schlüsselwortes anchor: kann der zu durchsuchende Bereich für einen Begriff auf den Beschreibungstext von Links eingeschränkt werden.
Schreibweise: anchor:Text Text ist der gesuchte Text
Bemerkung:
Höchstwahrscheinlich wird bei anchor: der Bereich zwischen
<A HREF=...> und </A> durchsucht.
Das Schlüsselwort link: schränkt die Suche auf den Text innerhalb von Querverweisen ein.
Schreibweise: link:URLtext URLtext ist der Text, der in der URL eines Querverweises vorkommt.
Bemerkung:
Die Suche mit link:fh-muenchen.de ermittelt alle Webseiten,
die einen Link besitzen, der in der URL eines Querverweises den Text fh-muenchen.de
beinhaltet. In Versuchen stellte sich heraus, daß hier die Zeichen
. / : und @ als Trennerzeichen gelten.
Es ist anzunehmen, daß bei dieser Option der Bereich zwischen <A HREF="
und dem abschließenden "> durchsucht wird.
Mit dem Schlüsselwort domain: kann die Domäne der gefundenen Webseiten vorgegeben werden.
Schreibweise: domain:Domainname Domainname ist der Name der gewünschten Domäne
Bemerkung:
Die Suche nach domain:org lieferte ebenso wie die Suche nach
domain:.org 91845 Seiten. Es ist demnach unerheblich, ob der vorangestellte
. angegeben wird. Eine Suche mit domain:.distel.org blieb
erfolglos, obwohl sicher eine Webseite mit dieser URL registriert ist (=>
Suchoption host: verwenden). Mit domain: ist demnach
wirklich nur die Einschränkung der Suche auf Domänen möglich.
Mit domain:de läßt sich die Anzahl der "deutschen"
Webseiten herausfinden, es sind 8606892. Die Schweizer (domain:ch)
bringen es "nur" auf 3243737 bei AltaVista registrierte Webseiten.
Das Schlüsselwort host: erlaubt es, die Suche auf Hosts bestimmter Namen einzuschränken.
Schreibweise: host:Hostname Hostname ist der Name des Hosts
Bemerkung:
Mit dieser Suchoption ist es leicht, die Anzahl der bei der Suchmaschine
registrierten Webseiten einer Firma, Hochschule usw. zu ermitteln. Eine
Suche nach host:fh-muenchen.de brachte 3223 Treffer.
Über das Schlüsselwort url: ist es möglich, die Suche auf bestimmte URLs einzuschränken.
Schreibweise: url:Text Text ist ein Wort, das in der URL der Webseite vorkommen muß.
Bemerkung:
Versuchen zufolge wird bei der Suche in URLs der / als Trennzeichen
angesehen. Wie nicht anders zu erwarten, schließt url: eine
Suche innerhalb des Hostnamens (host:) mit ein.
Das vorangestellte Schlüsselwort applet: erlaubt es, nach Webseiten zu suchen, die ein Java-Applet des angegebenen Namens benutzen.
Schreibweise: applet:Class Class ist der Name des Java-Applets
Bemerkung:
Vermutlich bezieht sich applet: auf den Parameter CODE=
zwischen <APPLET> und </APPLET>. Es war nicht
herauszufinden, ob sich class auf den gesamten String von CODE=
bezieht oder auch Teilangaben zulässig sind.
Beispiel:
<APPLET> ... CODE="Adabasd.demo.Fotos" ... </APPLET>
Ist eine Teilangabe zulässig, würde bspw. bei der Suche nach applet:demo auch obiges Applet gefunden werden.
Die "Profisuche" stellt weitere Schlüsselworte für eine genauere Angabe der Suchkriterien zur Verfügung. Zusätzlich dazu ist es möglich, die Rangfolge von Suchbegriffen für eine Gewichtung der gefundenen Webseiten selbst vorzugeben.
Die in der "Profisuche" zusätzlich zur Verfügung stehenden Operatoren heißen AND (&), OR (|), NOT (!) und NEAR (~). Die ersten drei davon funktionieren wie die gleichnamigen booleschen Operatoren. Anstelle der Schlüsselwörter darf auch das jeweilige Symbol angegeben werden.
Steht ein AND oder & zwischen zwei Begriffen, müssen beide in der gesuchten Webseite vorkommen, damit diese als Treffer angezeigt wird.
Beispiel: Hopfen AND Malz, Hopfen & Malz
Bemerkung:
Eine Suche nach Hopfen & Malz bzw. Hopfen AND Malz
ergibt 1125 gefundene Webseiten. Wird innerhalb der "Profisuche"
nach +Hopfen +Malz gesucht, sind jedoch nur 299 Treffer zu verzeichnen.
Dieselbe Abfrage in der Maske für die "einfache Suche" ergibt
wiederum 1125 gefundene Seiten. Dieser Versuch bestätigt einen Nebensatz
in den Hilfeseiten von AltaVista: + und - stehen in der
Eingabemaske für die Profisuche nicht zu Verfügung, stattdessen
sind AND, OR,... zu verwenden. Undurchsichtig bleibt
weiterhin, was AltaVista bei der Suche nach +Hopfen +Malz aufzuspüren
versucht; hier soll scheinbar unter allen Umständen eine Fehlermeldung
vermieden werden.
Steht ein OR oder | zwischen zwei Begriffen, muß mindestens einer der beiden Begriffe in der Webseite enthalten sein, damit diese als Treffer gilt.
Beispiel: Telefon OR Telephon, Telefon | Telephon
Der Operator NOT (!) darf nur zusammen mit einem AND (&) verwendet werden. NOT schließt Webseiten aus, die den angegebenen Begriff beinhalten.
Beispiel: Sport AND NOT Fußball,Sport & !Fußball
Bemerkung:
Im Gegensatz zur Anleitung kann NOT natürlich auch ohne
ein vorangegangenes AND verwendet werden - zumindest wird keinerlei
Fehler angezeigt. Was dann letztendlich gefunden wird, läßt
sich bei mehreren Millionen Treffern allerdings nicht genau nachprüfen.
Dieser Operator drückt die Nähe von zwei Begriffen innerhalb des Textes einer Webseite aus. Die Begriffe der linken und rechten Seite dürfen höchstens einen Abstand von 10 Worten aufweisen.
Beispiel: Sony NEAR Dreamcast, Sony ~ Dreamcast
Ausdrücke dürfen - wie gewohnt - geklammert werden.
Beispiel: (Hopfen AND Malz) OR Bier, Hopfen AND (Malz OR Bier)
Unter "Ordnen der Suchbegriffe nach:" kann über die Reihenfolge der angegebenen Begriffe eine Gewichtung derselben festgelegt werden.
Bemerkung:
Es ist praktisch nicht ersichtlich, wie sich eine Veränderung
der Reihenfolge der Suchbegriffe auf die Gewichtung der gefundenen Webseiten
aufwirkt. Hierzu fehlt einfach eine genaue (mathematische) Beschreibung
des Gewichtungsalgorithmus; somit kann auch der "Profisuchende"
nur heuristisch vorgehen.
Zeitliche Einschränkungen auf das Erstellungsdatum von Webseiten können laut Anleitung in der Schreibweise 01/jan/95 angegeben werden.
Bemerkung:
AltaVista läßt natürlich auch noch andere Schreibweisen
zu: Auch 01/01/95 und 1.1.95 usw. erzielen dieselben
Treffer wie 01/jan/95.
AltaVista bietet noch weitere Möglichkeiten für die Suche an. Es steht beispielsweise noch die Möglichkeit einer graphischen Suche über Java(script) zur Verfügung. Die Anleitung hierzu ist aufgrund eines Fehlers in den Links nur sehr schwer zu finden: "Hilfe -> Häufig gestellte Fragen -> Webmaster Fragen -> Verfeinerte Suche". Für eine mögliche Suche im Usenet werden ebenfalls noch zusätzliche Operatoren zur Verfügung gestellt.
Alles in allem waren die durchgeführten Versuche ernüchternd: Die Anleitung ist (verständlicherweise) recht einfach gehalten, wirklich genaue (mathematische) Definitionen, welche Trennerzeichen existieren oder wo innerhalb einer Webseite gesucht wird, waren nicht zu finden. So bleibt die Suche im Internet, was sie schon immer war - ein mehr oder weniger großes Glücksspiel.
1. Nennen Sie die URLs von acht verschiedenen Internet-Suchmaschinen.
2. "Einfache Suche" bei Altavista: Geben Sie den String an, der eine Suche mit allen folgenden Kriterien durchführt:
Formulieren Sie die Suchabfrage so, daß Sie sich möglichst wenig auf den Gewichtungsalgorithmus von AltaVista verlassen müssen.
3. "Profisuche" bei AltaVista: Geben Sie den String an, der Webseiten sucht, die alle der folgenden Kriterien erfüllen:
Zu 1.: Die Liste mit den Suchmaschinen steht am Ende der Einleitung.
Zu 2.: +Linux -"Windows NT" +domain:.org +title:download
Bei "domain:.org" kann der . auch weggelassen werden; die Reihenfolge der Suchbegriffe ist unwichtig. Mit Hilfe der zusätzlichen + vor "domain" und "title" wird der Gewichtungsalgorithmus von AltaVista umgangen, da es keine "wahlfreien" Suchbegriffe mehr gibt.
Zu 3.: (Hopfen NEAR Malz) AND NOT Schnaps AND (Bayern OR Reinheitsgebot) oder
(Hopfen ~ Malz) & !Schnaps & (Bayern | Reinheitsgebot)
Die Schlüsselwörter (AND, OR, NOT, NEAR) und deren Kürzel dürfen auch gemischt verwendet werden. Hier ist ebenfalls die Reihenfolge der Suchbegriffe unwichtig, solange die Bedeutung des booleschen Ausdrucks unverändert bleibt.