Intérêt pour la recherche scientifique
Le Web scraping, ou l’extraction automatique de données issues du web, est devenu une pratique de recherche répandue dans le domaine scientifique. Elle présente de nombreux avantages pour les chercheuses et les chercheurs, ouvrant de nouvelles perspectives et opportunités d’exploration, d’analyse et de surveillance.
L’accès à une avalanche de données
L’apparition du web social et participatif (web2.0, dans les années 2000) qui a fait exploser l’interactivé et les échanges entres les internautes, puis du web sémantique (web 3.0 à partir de 2020) qui tente d’organiser, de trier et de lier toutes les informations pour le besoin du consommateur, ont transformé internet en source inépuisable de données numériques de toute nature. Son alimentation collective, continue, exponentielle et de plus en plus organisée, se traduit par un accès à une quantité considérable sources de données : bases de données collaboratives, archives numériques, site institutionnels, média sociaux, forum de discussion, etc. Les perspectives d’exploration et d’analyse sont immenses. Internet n’a pas seulement facilité l’accès aux données conventionnelles. Il participe à la constitution de nouvelles sources, maitrisées ou non, qui permettent l’enrichissement de corpus, la comparaison et le suivi longitudinale de phénomène.
Une collecte à grande échelle et/ou en temps réel
Facilitée par les API (Application Programming Interface) qui offrent des interfaces structurées permettant d’interagir avec des sites web et des services en ligne, la collecte automatisée de données permet de collecter de manière efficace un très grand volume d’informations ciblées et pertinentes. Le caractère reproductible d’un scraping réalisé avec un langage de programmation (R et Python) permet la collecte en temps réel. La constitution de base de données massives et enrichies de manière continue ouvre des perspectives d’analyses statistiques robustes et de suivi longitudinal.
Un vecteur d’interdisciplinarité
La constitution d’une base de données massive, de nature hétérogène et multidimensionnelle (données textuelles, géographiques, temporelles, réseau/graphe, images, son…) est sans nul doute un vecteur d’interdisciplinarité. L’aspect quantitatif d’une base de données volumineuse ne s’oppose pas à un contenu qualitatif et hétérogène. Avec le scraping, Internet devient une source abondante de données (structurées ou non) qui permet la constitution de corpus unique offrant des perspectives d’exploration et d’analyse pluridisciplinaire.
Un contenu innovant et massif pour les SHS
Au-delà de l’aspect spatiale et temporelle que peuvent contenir les données du web, le contenu textuel à disposition des chercheuses et aux chercheurs est extrêmement volumineux. La récupération automatique de documents, d’articles de presse, d’avis d’utilisateurs, de commentaires, d’annonces, d’échanges, ect., offre des possibilités d’analyses multiples en matière de traitement automatique du langage. L’étude des tendances, des opinions, des thèmes récurrents, des échanges et les discours en ligne est un moyen d’enrichir de nombreux travaux de recherche en SHS. La surveillance et l’analyse des interactions sur les réseaux sociaux (Facebook, Twitter, Instagram, LinkedIn, Le bon coin etc.,) permet d’étudier les dynamiques sociales, les relations entre les utilisateurs, les tendances émergentes, les flux d’informations, les comportements en ligne, etc. Cette approche offre des perspectives précieuses pour la recherche en sciences sociales, en communication et dans plein d’autres domaines.
Veille informationnelle et suivi des tendances
L’une des forces du Web scraping réside dans sa capacité à collecter des informations en temps réel à partir de diverses sources en ligne. Ainsi, à l’image du secteur Marketing ou de la Finance, le scraping est un outil redoutable pour effectuer une veille informationnelle et suivre les tendances. En surveillant les sites d’actualités, les blogs spécialisés, les forums de discussion, les bases de données scientifiques, les sites gouvernementaux, etc., les chercheuses et les chercheurs peuvent rester à jour sur les dernières publications, les développements technologiques, les politiques publiques, les événements internationaux, etc, et ainsi renforcer leur expertise et élargir leur champ de connaissances.
Limites d’utilisation
Malgré les avantages de l’automatisation d’une collecte, il est essentiel de reconnaître que cette approche n’est pas toujours la plus rentable et efficace. L’écriture d’un script fonctionnel et solide peut s’avérer fastidieuse, car elle peut nécessiter une expertise technique approfondie, une connaissance précise des API et des langages de programmation. Dans certaines situations, lorsque les besoins en données sont limités ou lorsque la collecte manuelle offre une plus grande flexibilité et une meilleure qualité des données collectées, il peut être préférable de recourir à l’historique « copier-coller ».
J’ai renommé la partie “Intérêt pour la recherche scientifique” plutôt que “objectifs”. Plus cohérent avec le texte et les principaux usages (surveillance/veille - agrégation de contenu) devraient logiquement être abordés dans la partie “Historique et définition”)
- Les deux premiers paragraphes se concluent un peu par la même chose.
- J’ai l’impression que parfois il y a quelques répétitions et qu’il serait peut-être possible de simplifier le message.
- Je ne sais pas si les limites d’utilisations devraient être ici puisque ce qui est évoqué est plus une limite technique qu’une question d’intérêt. Cela pourrait peut-être mériter d’être dans la partie “Histoire et définition” en mode warning.
