Est-il acceptable d'extraire des données des résultats de Google? [fermé]

j'aimerais récupérer les résultats de Google en utilisant curl pour détecter le contenu dupliqué potentiel. Est-il un haut risque d'être banni par Google?

54
demandé sur ML_ 2014-03-26 14:07:24

3 réponses

Google finira par bloquer votre IP lorsque vous dépassez un certain nombre de requêtes.

47
répondu Severin 2014-03-26 10:21:32

Google interdit l'accès automatisé dans leurs TOS, donc si vous acceptez leurs conditions, vous les enfreindrez.

cela dit, je ne connais pas de procès à partir de Google à l'encontre d'un grattoir. Même Microsoft a gratté Google, ils ont alimenté leur moteur de recherche Bing avec elle. Ils ont pris en 2011 la main dans le sac :)

il y a deux options pour gratter les résultats Google:

1) Utilisation leur API

  • Vous pouvez émettre environ 40 demandes par heure, Vous êtes limité à ce que ils vous donnent, ce n'est pas vraiment utile si vous voulez suivre le classement positions ou ce qu'un utilisateur réel. C'est quelque chose que vous n'êtes pas autorisé à rassembler.

  • si vous voulez un montant plus élevé de requêtes API, vous devez payer.

  • 60 demandes par heure coût 2000 USD par année, plus de requêtes nécessitent une affaire faite.

2) gratter le résultat normal pages

  • Voici la partie délicate. Il est possible de gratter les pages de résultat normal. Google ne le permet pas.
  • si vous grattez à un taux supérieur à 8 (mis à jour à partir de 15) demandes de mots clés par heure vous risquez de détection, supérieur à 10 /h (mis à jour à partir de 20) vous obtiendra BLOQUÉ de mon expérience.
  • en utilisant plusieurs IPs vous pouvez augmenter le taux, donc avec 100 adresses IP vous pouvez gratter jusqu'à 1000 requêtes par heure. (24k par jour) (mise à jour)
  • il y a un grattoir de moteur de recherche open source écrit en PHP à http://scraping.compunect.com Il permet de racler fiable Google, analyse les résultats correctement et gère les adresses IP, les retards, etc. Donc si vous pouvez utiliser PHP, c'est un bon début, sinon le code sera encore utile pour apprendre comment il est fait.

3) alternativement utiliser un service de raclage (mise à jour)

  • récemment, un de mes clients a eu un énorme besoin de raclage moteur de recherche, mais il n'était pas "en cours", il est plus comme un rafraîchissement énorme par mois.

    Dans ce cas, je ne pouvais pas trouver une solution c'est "économique".

    J'ai utilisé le service à http://scraping.services à la place. Ils fournissent également du code source ouvert et jusqu'à présent il fonctionne bien (plusieurs milliers de pages de résultats par heure pendant les rafraîchissements)
  • L'inconvénient, c'est qu'un tel service signifie que votre solution est "lié" à un fournisseur professionnel, l'avantage est que c'était beaucoup moins cher que les autres options, j'ai évalué (et plus rapide dans notre cas)
  • Une option pour réduire la dépendance à l'égard d'une entreprise est de faire des deux approches en même temps. Utiliser le service de raclage comme source principale de données et revenir à une solution fondée sur des substituts comme décrit au point 2) au besoin.
91
répondu John 2017-01-12 00:35:36

Google prospère sur le raclage des sites Web du monde...donc si elle était "si illégale", alors même Google ne survivra pas ..bien sûr, D'autres réponses mentionnent des façons d'atténuer les blocages IP par Google. Une autre façon d'éviter le captcha pourrait être de gratter au hasard (à l'essai) ..En outre, j'ai le sentiment que si nous fournissons la nouveauté ou un traitement significatif des données alors il sonne bien au moins à moi...si nous copions simplement un site web.. ou entrave à son activité/marque dans certains façon...alors il est mauvais et doit être évitée..sur le dessus de tout...si vous êtes une start-up alors personne ne vous combattra car il n'y a aucun avantage.. mais si toute votre prémisse est sur le raclage même quand vous êtes financé, alors vous devriez penser à des moyens plus sophistiqués...alternative Api..finalement..De plus, Google continue de publier (ou de déprimer) des champs pour son API, de sorte que ce que vous voulez supprimer maintenant peut être dans la feuille de route des nouvelles versions de L'API Google..

3
répondu raghav 2017-06-17 21:23:21