Un webmaster, un spécialiste du marketing, un spécialiste du référencement, un spécialiste de la tarification a régulièrement besoin d'extraire des données des pages d'un site Web sous une forme pratique pour un traitement ultérieur. Dans cet article, nous allons comprendre quelle technologie est utilisée pour collecter des données, de quel type de processus il s'agit et pourquoi elle porte plusieurs noms.
Le plus souvent, la collecte de données à partir de pages de ressources Web est appelée parsing ou scraping.
Voyons quels sont ces processus et y a-t-il une différence entre eux.
Initialement, une application qui effectuait deux opérations : télécharger les informations nécessaires à partir du site et analyser le contenu du site s'appelait parsing.
"Parsing" est une analyse grammaticale d'un mot ou d'un texte. C'est un dérivé du latin "pars orationis" - une partie du discours.
L'analyse est une méthode dans laquelle les informations sont analysées et décomposées en composants. Les données reçues sont ensuite converties dans un format approprié pour un traitement ultérieur, au cours duquel un format de données est converti en un autre, plus lisible.
Disons que les données sont récupérées en HTML brut, et que l'analyseur les prend et les convertit dans un format qui peut être facilement analysé et compris.
L'analyse utilise une boîte à outils qui extrait les valeurs souhaitées de n'importe quel format de données. Les données extraites sont stockées dans un fichier séparé sur l'ordinateur/dans le cloud ou directement dans la base de données. C'est un processus qui démarre automatiquement.
Une analyse plus approfondie des informations collectées est effectuée par un logiciel spécial.
Que signifie analyser ?
Un analyseur est une solution logicielle, tandis que l'analyse est un processus. Un processus typique de grattage de site comprend les étapes séquentielles suivantes :
‣ Identification des URL cibles.
‣ Si le site Web exploré pour la collecte de données utilise des outils anti-analyse, l'analyseur sélectionne un serveur proxy approprié pour obtenir une nouvelle adresse IP via laquelle il envoie sa demande. Si nécessaire, le service de résolution de captcha est activé.
‣ Envoi de requêtes GET/POST à ces URL.
‣ Recherchez et localisez les données requises dans le code HTML.
‣ Transformez ces données dans le format souhaité.
‣ Transfert des informations collectées vers le stockage de données sélectionné.
‣ Exportez les données dans le format requis pour un travail ultérieur avec elles.
Au fil du temps, le processus de téléchargement des informations nécessaires à partir du site et d'analyse du contenu du site a commencé à être divisé en deux opérations indépendantes. Le terme crawler a été inventé. Le robot est engagé dans le contournement du site et la collecte de données, et l'analyseur est engagé dans l'analyse du contenu.
Plus tard, le terme grattage a été inventé. Le web scraping combine les fonctions d'un crawler et d'un web scraper.
Voici la définition de Wikipedia du web scraping :
Le scraping Web est une technologie permettant d'obtenir des données Web en les extrayant de pages de ressources Web. Le scraping Web peut être effectué manuellement par un utilisateur d'ordinateur, mais le terme fait généralement référence à des processus automatisés mis en œuvre avec du code qui envoie des requêtes GET au site cible.
Le scraping Web est utilisé pour transformer syntaxiquement les pages Web en des formes plus utilisables. Les pages Web sont créées à l'aide de langages de balisage textuels (HTML et XHTML) et contiennent de nombreuses données utiles dans le code. Cependant, la plupart des ressources Web sont destinées aux utilisateurs finaux et non à une utilisation automatisée, de sorte qu'une technologie a été développée pour "nettoyer" le contenu Web.
Le chargement et la visualisation d'une page sont des composants critiques de la technologie, ils font partie intégrante de l'échantillonnage des données.