Table des matières:
Définition - Que signifie le scraping de contenu?
Le grattage de contenu est un moyen illégal de voler le contenu original d'un site Web légitime et de publier le contenu volé sur un autre site à l'insu ou sans l'autorisation du propriétaire du contenu. Les grattoirs de contenu tentent souvent de faire passer le contenu volé pour le leur, et ne fournissent pas d'attribution aux propriétaires du contenu.
Le raclage de contenu peut être effectué par copier-coller manuel, ou peut utiliser des techniques plus sophistiquées, telles que l'utilisation de logiciels spéciaux, de programmation HTTP ou d'analyseurs HTML ou DOM.
Une grande partie du contenu qui est la proie du grattage est du matériel protégé par le droit d'auteur; le republier sans l'autorisation du titulaire du droit d'auteur est une infraction punissable. Cependant, les sites de grattage sont hébergés partout dans le monde, et les gratteurs qui sont invités à supprimer le contenu protégé par des droits d'auteur peuvent simplement changer de domaine ou disparaître.
Techopedia explique le scraping de contenu
Les grattoirs de contenu peuvent générer du trafic vers leurs sites Web en grattant le contenu de haute qualité et dense en mots-clés d'autres sites. Les blogueurs sont particulièrement sensibles à cela, probablement parce que les blogueurs individuels sont peu susceptibles de lancer une attaque légale contre les gratteurs. Les grattoirs sont encouragés à poursuivre cette pratique car les moteurs de recherche n'ont pas encore trouvé de moyen efficace de filtrer le contenu unique du contenu gratté, ce qui permet aux grattoirs de continuer à en bénéficier.
Les administrateurs de sites Web peuvent se protéger contre le grattage grâce à des mesures simples, telles que l'ajout de liens vers leur propre site dans le contenu. Cela leur permettra au moins d'obtenir du trafic à partir de contenu gratté. Les méthodes plus sophistiquées de lutte contre le grattage par les robots comprennent:
- Applications commerciales anti-bot
- Attraper des bots avec un pot de miel et bloquer leurs adresses IP
- Bloquer les bots avec du code JavaScript