Questions sur html-parsing

30
réponses

Options pour le raclage HTML? [fermé]

je pense que je vais essayer Belle Soupe , un paquet Python pour le code HTML de grattage. Y a-t-il d'autres paq ... ScarletsQuery la plupart d'entre eux "15191660920 Écran" Grattoir
demandé sur 2008-08-06 01:09:11
10
réponses

Quelle est la meilleure pratique pour analyser le contenu à distance avec jQuery?

suite à un appel jQuery ajax pour récupérer un document entier XHTML, Quelle est la meilleure façon de sélectionner de ... , si vous peut me montrer comment sélectionner le titre de la page distante, ce serait parfait! Merci, Pete
demandé sur 2009-06-24 00:10:57
4
réponses

HTML Agility pack - analyse des tableaux

je veux utiliser le pack D'agilité HTML pour analyser des tables à partir de pages web complexes, mais je suis en quel ... er ). je suis aussi heureux si on peut juste jeter un lumière sur l'ordre de l'objet juste pour l'analyse.
demandé sur 2009-03-17 22:00:18
13
réponses

Regex sélectionner tout le texte entre les balises

Quelle est la meilleure façon de sélectionner tout le texte entre 2 balises - ex: le texte entre toutes les balises 'pre' sur la page.
demandé sur 2011-08-24 00:42:40
2
réponses

BeautifulSoup - manière facile d'obtenir des contenus HTML-free

j'utilise ce code pour trouver tous les liens intéressants dans une page: soup.findAll('a', href=re.compile('^n ... it d'utiliser text=True dans la méthode findAll, mais il ignorera mon regex. Pourquoi? Comment je peux résoudre ça?
demandé sur 2009-11-18 02:38:20
3
réponses

parse html dans ng-bind en utilisant angularJS [dupliquer]

cette question a déjà une réponse ici: Avec ng-bind-html-dangereux retirés, comme ... n'est pas ce que je veux. n'importe qui sait ce que je peux faire pour Parser le html dans la transclusion
demandé sur 2013-02-15 09:31:15
4
réponses

Comment supprimer des balises HTML de string dans JavaScript? [dupliquer]

possibilité de dupliquer: Supprimer HTML du texte JavaScript Comment puis-je supprimer le HTML d'une chaîne de caractères en JavaScript?
demandé sur 2011-02-15 12:56:35
1
réponses

Extraire les valeurs de HTML TD et Tr

j'ai quelque source HTML que je reçois d'un site web pour les citations d'option. (voir ci-dessous) Quelle es ... '','','','PE')"><img src="/images/print3.gif"></a></td>--> </tr>
demandé sur 2012-01-08 13:13:21
18
réponses

Utiliser des expressions régulières pour analyser HTML: pourquoi pas?

il semble que chaque question sur stackoverflow où l'asker utilise regex pour saisir des informations de HTML aura inév ... de fondamental que je ne comprends pas à propos de regex qui fait d'eux un mauvais choix pour l'analyse en général?
demandé sur 2009-02-26 17:24:18
4
réponses

Comment saisir le contenu des balises HTML?

Hé donc ce que je veux faire c'est piquer le contenu du premier paragraphe. La chaîne $blog_post contient beaucoup d ... ost,$blog_paragraph)) echo "<p>" . $blog_paragraph["firstparagraph"] . "</p>"; else echo $blog_post;
demandé sur 2008-09-02 05:41:59
11
réponses

Nettoyage du HTML en supprimant les balises de formatage supplémentaires / redondantes

j'ai été en utilisant CKEditor de l'éditeur wysiwyg pour un site web où les utilisateurs sont autorisés à utilis ... pour nettoyer le désordre (aussi salissant que ce code HTML) bbcode original qui sera généré? merci encore
demandé sur 2012-04-20 18:26:58
29
réponses

Comment analyser et traiter HTML / XML en PHP?

Comment peut-on analyser HTML/XML et en extraire de l'information?
demandé sur 2010-08-26 21:17:19
1
réponses

TagSoup vs. Jsoup vs. HTML Parser vs. HotSax vs. [fermé]

L'abondance de HTML analyseurs à choisir (et le bâton avec) est ahurissant: http://java-source.net/open-so ... selon votre expérience, quel analyseur HTML recommanderiez-vous (pour répondre aux exigences ci-dessus) et pourquoi?
demandé sur 2011-03-03 19:45:44
1
réponses

Utiliser HTMLParser en Python 3.2

j'ai utilisé HTML Parser pour supprimer les données des sites Web et supprimer le codage html tout en le faisant. Je s ... la ligne class MLStripper(HTMLParser) , après self et strict=True ; la recherche n'a pas jeté tout éclaircissement.
demandé sur 2012-06-16 09:21:48
21
réponses

Comment extraire img src, title et alt de html en utilisant php?

je voudrais créer une page où toutes les images qui résident sur mon site sont énumérées avec le titre et la représent ... comment analyser cela d'une manière élégante (je pourrais le faire le char dur par char way, mais c'est douloureux).
demandé sur 2008-09-26 12:33:05
4
réponses

Grattage De La Toile Avec Haskell

Quel est l'état actuel des bibliothèques pour gratter des sites web avec Haskell? j'essaie de faire plus de m ... e, traverser des pages ne semble pas aussi agréable que dans d'autres langues. Est-il une meilleure option?
demandé sur 2011-01-29 20:02:48
6
réponses

Texte HTML avec balises pour le texte formaté dans une cellule Excel

y a-t-il un moyen de prendre HTML et de l'importer dans excel pour qu'il soit formaté en texte riche (de préférence en uti ... ld</b> or <i>italic</i></p></html> en: Ceci est un test. Sera-ce texte gras ou italique
demandé sur 2012-04-03 23:06:14
3
réponses

BeautifulSoup findAll() à plusieurs classes?

je voudrais gratter une liste d'articles d'un site web, et préserver l'ordre dans lequel ils sont présentés. Ces articles ... tait dans le code source: items = soup.findAll(True,{'class':'class1'}) items += soup.findAll(True,{'class':'class2'})
demandé sur 2013-09-10 21:53:22
4
réponses

Comment obtenir la valeur de noeud / innerHTML avec XPath?

j'ai un XPath à sélectionner pour une classe que je veux: //div[@class='myclass']. Mais il me renvoie toute la div (avec ... aussi, mais je voudrais revenir seulement le contenu de cette balise sans la balise elle-même. Comment puis-je le faire?
demandé sur 2012-06-05 17:16:41
4
réponses

Comment puis-je utiliser la bibliothèque python HTMLParser pour extraire des données d'une balise div spécifique?

j'essaie d'obtenir une valeur à partir d'une page HTML en utilisant la bibliothèque python HTMLParser. La valeur que je v ... ose() Quelqu'un peut-il m'indiquer la bonne direction? Je veux la fonctionnalité de classe pour obtenir la valeur 20.
demandé sur 2010-07-18 19:06:04