Formation
  • Webscraping ?
    • Historique et définition
    • Intérêt pour la recherche
    • Ethique et droit
  • Bases techniques
    • HTML & CSS
    • Navigateur & DOM
    • XML/JSON
    • Javascript
  • Cas pratiques
    • Préambule & cas d’usage
    • Données Structurées
    • API Officielles
    • API cachées
    • Cas complexes
    • Cas particuliers
  • Reproductibilité & automatisation
    • Docker
    • Reproductibilité
    • Automatisation/CRON
  • Pages exemple
    • Page statique
    • Page dynamique
  • A propos

Historique et définition

  • Webscraping ?
    • Historique et définition
    • Intérêt pour la recherche
    • Ethique et droit
  • Bases techniques
    • HTML & CSS
    • Navigateur & DOM
    • XML/JSON
    • Javascript
  • Cas pratiques
    • Préambule & cas d’usage
    • Données Structurées
    • API Officielles
    • API cachées
    • Cas complexes
    • Cas particuliers
  • Reproductibilité & automatisation
    • Docker
    • Reproductibilité
    • Automatisation/CRON
  • Pages exemple
    • Page statique
    • Page dynamique

Sur cette page

  • Du WebCrawling au WebScraping

Historique et définition

L’objectif du Webscraping est au départ relativement simple, il s’agit de récolter, ou d’extraire, de l’information à partir des sites disponibles sur le “World Wide Web”.

L’activité peut être faite manuellement, via un navigateur, mais compte tenu de la volumétrie d’information généré par les activités humaines sur internet c’est plutôt son automatisation qui nous intéresse.

Or dès le départ, avec l’invention du World Wide Web et son protocole le HTTP, les humains vont naturellement vouloir mesurer et indexer l’information disponible. Ce qui va supposer rapidement une automatisation. Plusieurs projets vont émerger en ce sens dès 1993/1994.

Du WebCrawling au WebScraping

A peine quelques années après l’invention du World Wide Web (1991), c’est en juin 1993 que Matthew Grey développe le scrit perl the Wanderer. Il est considéré comme le premier webcrawler_ ou *spider**, c’est à dire un “agent” ou “robot” autonome capable de parcourir le web pour collecter et identifier les nouvelles URLs. Un index avec les URL est proposé sous le nom de Wandex. Le robot sera actif entre 1993 et 1995, et les chiffres rapportées par l’auteur sur cette période illustrent bien l’explosion du nombre de sites en quelques années.

Un autre moteur de recherche est inventé par Jonathon Fletcher en décembre 1993. Nommée JumpStation elle est là toute première plateforme à possèder tous les éléments connus d’un moteur de recherche : web crawling, index, formulaire de recherche.

En 1994, en parallèle d’autres initiatives (WWWWorm (McBryan 1994)), Brian Pinkerton construit l’outil WebCrawler à l’université de Washington. L’idée est là encore d’automatiser le parcours du web, mais cette fois-ci en moissonant une partie du contenu texte des pages visitées. L’objectif est de produire un index plus qualitatif, basé sur une analyse de texte, pour mieux répondre aux requêtes des utilisateurs. La thèse de B. Pinkerton, réalisée a posteori en 2000, revient plus en détail sur la nécessité d’un tel outil, ne serait-ce que pour naviguer au sein d’un graphe Web qui a explosé entre 1993 et 2000 [B. Pinkerton, Lazowska, et Zahorjan (2000); pp. 3].

Comme l’écrit B. Pinkerton (Briann Pinkerton 1994) en 1994, l’une des premières leçons à retenir des 6 premiers mois d’expérimentation du WebCrawler, est que si l’on veut pouvoir Finding What People Want, il est nécessaire d’indexer les documents au delà du titre en stockant dans une base de données les mots représentatifs du contenu. L’article évoque également la question, toujours d’actualité mais de façon plus complexe, des nuisances que peuvent avoir la prolifération de robots sur l’infrastructure. A cette date de 1994 il est avant tout question du partage des ressources, car les robots s’ils sont mal conçus peuvent consommer, voire saturer, une bande passante déjà mise à mal par l’explosion du traffic.

Afin de limiter cette nuisance, et dans le but d’aider les robots à mieux référencer les contenus utiles, Martin Koster propose dès 1994 la mise en place d’un standard encore en place aujourd’hui : la présence d’un fichier REP (Robots Exclusion Protocol) dans le répertoire de chaque site web, dont le nom est robots.txt. De façon assez amusante, et surement aussi pour des questions de compétitions liées à l’émergence d’un marché pour les moteurs de recherche, ce “standard” n’a pas encore été validé sous forme de RFC par les instances officielles (voir google).

Pourquoi parler du WebCrawling alors que c’est le WebScraping qui nous intéresse aujourd’hui ?

En réalité, si l’on regarde les termes dans leur profondeur historique (pas si vieille), on comprend très rapidement que ces deux pratiques partagent des méthodologies et des outils similaires, parcourir le web pour trouver et extraire de l’information.

Seul l’objectif final diffère. Dans le cas du WebCrawling il s’agit de parcourir et d’indexer au mieux le graphe web pour trouver l’information efficacement. Pour le WebScraping, l’action est en général plus ciblée et les objectifs plus variés.

Hugues
  • J’ai ajouté “historique” au titre, car ça colle plus avec le texte proposé.
  • Pour moi, le scraping c’est pas comme les antibiotiques, c’est forcément automatique !
  • Quid du terme harvesting ?
  • Peut être ajouter les deux principaux usages (au sens thématique) du scraping aujourd’hui (en dehors de la recherche) : Agrégation de contenu, surveillance/veille
  • Exemple de définition trouvé sur le web que je trouve plutôt clair :

Le scraping définit de façon générale une technique permettant d’extraire du contenu (des informations) d’un ou de plusieurs sites web de manière totalement automatique. Ce sont des scripts, des programmes informatiques, qui sont chargés d’extraire ces informations.

Léa
  • Peut-être ajouter une partie glossaire ? soit ici soit dans un onglet qui permettrait de définir les termes que l’on souhaite.
  • Il y a peut-être certains termes qui mériterait d’être plus explicité si on vise un public très débutant pour ne pas les effrayer. Par ex : index, graphe web, bande passante, RFC.
  • J’ai un peu de mal à voir dans le texte de manière évidente lorsque l’on parle de WebScraping et de WebCrawling. Peut-être que la question “Pourquoi parler du WebCrawling alors que c’est le WebScraping qui nous intéresse aujourd’hui ?” pourrait arriver plutôt (et peut-être être une sous-partie assumée). Si j’ai bien compris à la fin, l’histoire est plus celle du WebCrawling uniquement ?

Les références

McBryan, O. A. 1994. « GENVL and WWWW: Tools for taming the Web ». Computer Networks and ISDN Systems 27 (2): 308. https://doi.org/https://doi.org/10.1016/S0169-7552(94)90149-X.
Pinkerton, B., Ed Lazowska, et J. Zahorjan. 2000. « Webcrawler: finding what people want ». Thèse de doctorat. http://www.thinkpink.com/bp/Thesis/Thesis.pdf.
Pinkerton, Briann. 1994. « Finding What People Want: Experiences with the WebCrawler ». In SDG/IT94. https://web.archive.org/web/20010904075500/http://archive.ncsa.uiuc.edu/SDG/IT94/Proceedings/Searching/pinkerton/WebCrawler.html.
Intérêt pour la recherche
UMR Géographie-Cités · UMR IDEES · UMR PRODIG - licensebuttons by-nc 2022