Raclage HTML en Php [dupliquer]
Cette question a déjà une réponse ici:
J'ai fait du raclage html en PHP en utilisant des expressions régulières. Cela fonctionne, mais le résultat est tatillon et fragile. Quelqu'un a-t-il utilisé des paquets qui fournissent une solution plus robuste? Une solution pilotée par la configuration serait idéale, mais je suis pas pointilleux.
7 réponses
Je recommanderais php simple HTML DOM Parser Après avoir gratté le HTML de la page. Il prend en charge HTML non valide, et fournit un moyen très facile de gérer les éléments HTML.
Si la page que vous grattez est valide X (HT) ML, alors l'un des analyseurs XML intégrés de PHP fera l'affaire.
Je n'ai pas eu beaucoup de succès avec les bibliothèques PHP pour le grattage. Si vous êtes aventureux, vous pouvez essayer simplehtmldom . Je recommande Hpricot pour Ruby ou Beautiful Soup pour Python, qui sont tous deux excellents parseurs pour HTML.
Je recommanderais également ' simple HTML DOM Parser."C'est une bonne option en particulier si vous connaissez les sélecteurs jQuery ou JavaScript, vous vous retrouverez chez vous.
En utilisant PHP pour le grattage HTML, je recommanderais cURL + regexp ou cURL + quelques analyseurs DOM bien que j'utilise personnellement cURL + regexp. Si vous avez un goût profond de regexp, c'est parfois plus précis.
J'ai eu très bien avec les résultats avec le Simple HTML DOM Parser mentionné ci-dessus aussi. Et puis il y a aussi l'Extension tidy pour PHP qui fonctionne très bien aussi.
J'ai dû utiliser curl sur mon hôte 1and1.
Http://www.quickscrape.com/{[4] } est ce que j'ai trouvé en utilisant la classe DOM Simple!