Rechercher
  • DataGenius

Le Web Scraping : la data à portée de main ?



Près de 90% des données ont été générées les 3 dernières années et cela dans des format de plus en plus complexes et variés. Ce bond dans la génération de contenus est une formidable opportunité pour accéder à de nouvelles sources d’informations disponibles notamment sur le Web afin d’améliorer la compétitivité des entreprises. Cette extraction, appelée le Web Scraping, est le fait de robots qui vont analyser, récupérer et transformer l’information de pages Web sous une forme exploitable (Excel, tables de bases de données, etc).

L’engouement du Web Scraping est telle que la pratique génère aujourd’hui près de la moitié du trafic du web et permet aux entreprises de récupérer des données en temps réel. Les applications sont presque illimitées et permettent d’effectuer par exemple de :

  • La veille concurrentielle : l’extraction de prix, mots clés ou articles permettent de garder un oeil sur l’évolution de ses concurrents et sur celui des attentes du marché pour s’adapter aux nouvelles tendances ;

  • Le recrutement : la digitalisation des CVs et des expériences est une opportunité pour obtenir plus de d’informations sur l’identité de ses futures collaborateurs et d’effectuer des pré-sélections sur le Web de potentiels candidats ;

  • La prospection : les entreprises et réseaux d’entreprises publient de plus en plus d’informations et communiquent des contacts qui peuvent être récupérés pour du démarchage et la génération de leads pour la prospection en fonction de votre domaine d’activité

Avec la massification des données et l’arrivée du Big Data, de nombreuses entreprises se sont tournées vers cette activité de Web Scraping qui a été grandement facilitée par le développement d’outils open-source tels que Scrapy (python) ou encore Cheerio (NodeJs).

Néanmoins, le Web Scraping soulève quelques points important à garder à l’esprit. Le web scraping en tant que tel présente des limites car il se confronte à un problème de qualité et d’accessibilité des données (data de seconde main facilement duplicable par des concurrents) pour laquelle la facturation d’un service d’API de données de première main sera souvent plus pertinent pour un client. Le second point est l’aspect légal : la pratique du Web Scraping est encore peu encadrée et quelques points doivent être étudiés :

  • Outre le fait que le site ciblé soit protégé ou non contre le web scraping (via des solutions techniques adaptées et/ou en vertu de la loi sur la propriété intellectuelle des bases de données), il faut se poser la question de la finalité pour éviter des situations telles que de la concurrence déloyale ou de la violation de propriété intellectuelle.

  • Ensuite le Web Scraping doit se conformer à des limitations d’extractions pour éviter le ralentissement ou plantage des serveurs de l’hébergeur du site. Une bonne pratique consiste par exemple à programmer des robots avec des fréquences de requêtes de l’ordre de celles d’utilisateurs “humains”.

Le Web Scraping est donc une source non négligeable de données mais qui doit être utilisée avec prudence et toujours dans le respect de la loi. DataGenius accompagne les entreprises dans cette démarche leur permettant ainsi d'accéder au mieux à ces sources de données et d'acquérir un nouveau levier de performance. Vous souhaitez valoriser des données issues du Web ? Contactez-nous !

--

Taha Zemmouri

CEO & Data Consultant @DataGenius

#webscraping #scrapy #cheerio #webcrawling

920 vues

A propos - Mentions légales

40 rue de Bruxelles - 69100 Villeurbanne (Lyon) -

  • Black Facebook Icon
  • Black Twitter Icon
  • Black LinkedIn Icon
  • Black Google+ Icon

DataGenius vous accompagne dans vos projets de Data Science et Intelligence Artificielle en utilisant les technologies de Machine Learning et Big Data

DataGenius édite la solution AI-Compare