6864 shaares
Utiliser des solutions plus faciles en premier:
- une API documentée
- une API utilisée par le service web en question
- Flux RSS, websockets
- Les flux RSS ont tendance à être très utiles pour tout ce qui ressemble de près ou de loin à un blog.
- Parser le HTML
J'avais toujours utilisé le 1 ou le 4 :u
Vous venez de trouver une API sur un site internet et souhaitez l’utiliser dans du code, tout a l’air similaire mais quand vous exécutez votre requête vous obtenez une erreur.
Dans 90 % du temps, c'est un problème de User-Agent.
Pour éviter de surcharger un site:
Google Cache est un outil de Google qui garde une version en cache d’un site web, pour l’utiliser il suffit de remplacer
par le lien que vous souhaitez scraper, vous n’ interagissez pas directement avec le site, mais bien avec Google cache.
https://webcache.googleusercontent.com/search?ie=UTF-8&q=cache: