Formation
  • Webscraping ?
    • Historique et définition
    • Intérêt pour la recherche
    • Ethique et droit
  • Bases techniques
    • HTML & CSS
    • Navigateur & DOM
    • XML/JSON
    • Javascript
  • Cas pratiques
    • Préambule & cas d’usage
    • Données Structurées
    • API Officielles
    • API cachées
    • Cas complexes
    • Cas particuliers
  • Reproductibilité & automatisation
    • Docker
    • Reproductibilité
    • Automatisation/CRON
  • Pages exemple
    • Page statique
    • Page dynamique
  • A propos

Ethique et droit

  • Webscraping ?
    • Historique et définition
    • Intérêt pour la recherche
    • Ethique et droit
  • Bases techniques
    • HTML & CSS
    • Navigateur & DOM
    • XML/JSON
    • Javascript
  • Cas pratiques
    • Préambule & cas d’usage
    • Données Structurées
    • API Officielles
    • API cachées
    • Cas complexes
    • Cas particuliers
  • Reproductibilité & automatisation
    • Docker
    • Reproductibilité
    • Automatisation/CRON
  • Pages exemple
    • Page statique
    • Page dynamique

Sur cette page

  • Les principaux usages

Ethique et droit

Il convient de noter que le web scraping doit être effectuée de manière éthique et respectueuse des droits d’auteur. Il est essentiel de se conformer aux réglementations en vigueur, de respecter les politiques de chaque source d’information et de prendre en compte les limites et les précautions liées à l’utilisation des données extraites. Heureusement, un flou juridique offre une certaine liberté à la recherche scientifique…

Les principaux usages

Différentes typologies peuvent être avancée pour tenter de délimiter au sein des pratiques de Webscraping les usages, et les verroux qui peuvent parfois en découler.

Une première grande séparation tient à la nature des données qui vont être récoltés :

  • Données personnelles
  • Données autres

Si il s’agit d’une collecte de données personnelles, de couverture extrêmement large, il faut savoir que cette pratique est strictement encadré depuis la loi sur la République du Numérique de 2016. Une loi étendue et renforcée par l’entrée en vigueur en mai 2018 d’un réglement général de protection des données (RGPD) à l’échelle Européenne. Ces textes réglementaires sont là pour encadrer la collecte, la détention, le traitement de données personnelles numérique à la fois pour les acteurs privés mais aussi public, avec des différences notables (cf. partie Questions éthiques).

Si il s’agit de données autres, le cadre législatif est beaucoup moins clairs, et il faut plutôt s’appuyer sur un grand nombre de jurisprudences, parfois très différentes selon les pays. Pour des raisons un peu différentes des données personnelles, l’éthique sera mobilisé pour évaluer le bien fondé de la collecte au regard de l’environnement car le Web et Internet intégrent une multiplicité d’acteurs très loin d’être neutres et/ou apolitiques.

Nous verrons que sur le plan juridique, cette question de “qui pratique la collecte ?” à des conséquences et donne droit, a contrario des acteurs privés, à un ensemble de dérogations importantes pour les acteurs publics, dont les chercheur.e.s font parti.e.s. Nous en parlerons plus longuement dans la partie éthique.

Une autre séparation tient donc à l’objectif, la finalité, le “pourquoi faire ?” qui justifie la collecte. Au sein des acteurs privés et publics les motivations sont très différentes.

Si on se concentre sur l’entreprise de recherche publique qui nous concerne, les chercheurs peuvent de façon légitime vouloir constituer un corpus de donnée qu’ils jugent indisponible pour des raisons : - financières (bases de données au prix trop élevés, collecte trop couteuse), - légales (indisponibilité volontaire ou involontaires des données ), - techniques (collecte manuelle trop complexe à l’échelle d’un projet), - et/ou tout simplement parceque un tel corpus n’existe pas.

… WIP …

Hugues

Ci-dessus, un paragraphe initialement rédigé par Seb dans la partie “définition” que j’ai déplacé dans cette partie. Cela me semble plus cohérent.

J’ai ajouté une petite intro.

-> Sebastien, Alex, Robin -> CNRS / Lionel Maurel

Intérêt pour la recherche
HTML & CSS
UMR Géographie-Cités · UMR IDEES · UMR PRODIG - licensebuttons by-nc 2022