WoW!ter

 

Hoe diep zoeken we

Page history last edited by WoWter 5 months ago

Wat is het diepe web?

Niet alle textuele informatie is direct vindbaar. In 2001 waren er twee publicaties Bergman (2001) en Sherman & Price (2001) die dit probleem voor het eerst goed in kaart brachten. Volgens deze wat oudere schattingen is het diepe Web vijfhonderd honderd maal groter dan het indexeerbare Web. Hoewel anno 2006 het percentage wel teruggelopen zal zijn ten opzichte van 2001, is belangrijke informatie nog steeds niet vindbaar omdat het onderdeel is van dit diepe web.

Schattingen naar de omvang van twee databases laten dit ook zien:

SiteGoogleYahooMSN
Worldcat433.0003.500.000964
Pubmed9.260.000863.00098.272

De oorzaken voor het bestaan van het diepe web zou je als volgt kunnen clusteren:

  • De informatie zit in databases
  • Zoekmachine limiteringen
  • Pagina's scoren laag in de resultaten

Informatie zit in databases

Spiders van zoekmachines kunnen niet overweg met zoekformulieren van databases. Spiders begrijpen niets van deze formulieren. Ze kunnen zeker geen autersnaam, chemisch stofje trefwoorden of een jaartal invullen. Het zoekformulier zelf wordt nog wel geïndexeerd maar daarna stopt het.

Zoekmachine paradox
Tegenwoordig worden de meeste websites beheerd met een database systeem. De spiders van zoekmachines hebben hier over het algemeen meer moeite mee. De spiders van de zoekmachines volgen en indexeren het best statische URL's. Dynamische URL's met meer dan één ? worden meestal niet gevolgd, pagina's met één ? worden minder goed geindexeerd.

Een voorbeeld van een dynamische URL is: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=9742976
Ook het aantal parameters dat volgt na een ?, heeft invloed op het de mate van indexering van door zoekmachines.

Zoekmachine limiteringen

  • Sites zijn te ingewikkeld of te groot
  • Files zijn te groot (limieten verschuiven wel, maar zijn er nog steeds).
  • Informatie zit in niet geindexeerde file types (ZIP, TAR etc..)
  • Informatie zit in grafische, multimediale bestanden of Flash.
  • De robots.txt staat indexeren niet toe
  • Informatie wisselt te snel (beurskoersen, nieuws of blogs)
  • Sites zitten op intranetten, of hebben passwords nodig

Pagina's scoren laag in de resultaten

De meeste mensen kijken niet verder dan de eerst 10 tot 20 resultaten, wanneer de gewenste informatie daar niet wordt gevonden, wordt er vaak verder geprutst. Stel daarom de voorkeuren voor je favoriete zoekmachines in. Dit is eigenlijk niet direct de problematiek van het diepe web, maar heeft er wel mee te maken. Verschillen tussen zoekmachines kunnen goed weer gegeven worden met een van de deze tools

Oplossingen

Om informatie van het Diepe Web op te sporen is het vinden van databases veruit het belangrijkst. Om databases op het Web te vinden zijn er eigenlijk een drietal methodes.

  • Reguliere zoekmachines gebruiken om de databases te vinden die toegang geven tot de informatie op het diepe web.
  • Speciale directories.
  • Databases zoeken op plaatsen waar ze te verwachten zijn
  • Speciale zoekmachines.

Zoek met de gangbare zoekmachines naar databases

Wanneer je eenmaal deschikte databases opgespoord hebt is het vervolgens belangrijk om goed in die databases te kunnen zoeken.

Speciale directories

Direct Search http://www.freepint.com/gary/direct.htm
Hoewel Direct Search sinds 2002 niet meer is bijgewerkt, bevat deze site nog steeds een relevante opsomming en beschrijving van databases. Deze site werd gestart en onderhouden door Gary Price. Actuele ontwikkelingen wat betreft het Web en nieuwe databases worden geblogd op ResoureShelf en DocuTicker.

Yahoo! Webdirectories http://dir.yahoo.com/
De meeste categorieen van Yahoo, hebben onder de W de categorie webdirectories. Maar soms ook direct databases, of bibliographies.

A collection of special search engines http://www.leidenuniv.nl/ub/biv/specials.htm
Verouderde (laatst gewijzigd in 2000) maar nog steeds een indrukwekkende verzameling van wetenschappelijke zoekmachines en directories, met een nadruk of alpha wetenschappen en de humaniora. Verzameld door Marten Hofstede.

Databases zoeken op plaatsen waar ze te verwachten zijn

gespecialiseerde zoekmachines

Complete Planet http://www.completeplanet.com
Omvat circa 70,000 databases, en webdirectories.

WorldWideScience http://worldwidescience.org/wws/
Zoekt in wetenschappelijke bronnen van 38 landen met technologie van DeepWeb

IncyWincy http://www.incywincy.com/default

Turbo10 http://turbo10.com/
Een metazoekmachines die in ongeveer 800 zoekmachines tegelijk kan zoeken die deels collecties van het invisible web afzoeken.

Gosh me http://www.goshme.com/ (Nog in Beta, registreren verplicht)

Meer info

Anonymous (2004) Invisible Web: What it is, Why it exists, How to find it, and Its inherent ambiguity. Retrieved 2005-05-23, from http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html
Bergman, K. T. (2001). The deep web: surfacing hidden value. The Journal of Electronic Publishing 7(1). http://www.press.umich.edu/jep/07-01/bergman.html
Devine, J. and F. Egger-Sider. (2005). Beyond Google: The invisible Web. Retrieved 2005-05-23, from http://www.lagcc.cuny.edu/LIBRARY/invisibleweb/.
Hofstede, M. (2005) Het diepe web. IP Weblog. Retrieved 2006-10-31, from http://www.informatieprofessional.nl/weblog/2005/12/het-onzichtbare-web.html
Sherman, C. and G. Price (2001). The invisible web: Discovering information sources search engines can't see. Medford NJ, USA, Information today.



Home
WG 20080520

Comments (0)

You don't have permission to comment on this page.