Questions sur html-parsing

29
réponses

Comment analyser et traiter HTML / XML en PHP?

Comment peut-on analyser HTML/XML et en extraire de l'information?
demandé sur 2010-08-26 21:17:19
30
réponses

Options pour le raclage HTML? [fermé]

je pense que je vais essayer Belle Soupe , un paquet Python pour le code HTML de grattage. Y a-t-il d'autres paq ... ScarletsQuery la plupart d'entre eux "15191660920 Écran" Grattoir
demandé sur 2008-08-06 01:09:11
18
réponses

Utiliser des expressions régulières pour analyser HTML: pourquoi pas?

il semble que chaque question sur stackoverflow où l'asker utilise regex pour saisir des informations de HTML aura inév ... de fondamental que je ne comprends pas à propos de regex qui fait d'eux un mauvais choix pour l'analyse en général?
demandé sur 2009-02-26 17:24:18
3
réponses

Quel analyseur HTML est le meilleur? [fermé]

Je code beaucoup de parsers. Jusqu'à présent, j'utilisais HtmlUnit Headless browser pour l'analyse et l'automatisation ... esoin de une façon facile de se déplacer à travers les éléments HTML et de récolter des données à partir de ceux-ci.
demandé sur 2010-01-30 19:52:48
21
réponses

Comment extraire img src, title et alt de html en utilisant php?

je voudrais créer une page où toutes les images qui résident sur mon site sont énumérées avec le titre et la représent ... comment analyser cela d'une manière élégante (je pourrais le faire le char dur par char way, mais c'est douloureux).
demandé sur 2008-09-26 12:33:05
4
réponses

Comment supprimer des balises HTML de string dans JavaScript? [dupliquer]

possibilité de dupliquer: Supprimer HTML du texte JavaScript Comment puis-je supprimer le HTML d'une chaîne de caractères en JavaScript?
demandé sur 2011-02-15 12:56:35
13
réponses

Regex sélectionner tout le texte entre les balises

Quelle est la meilleure façon de sélectionner tout le texte entre 2 balises - ex: le texte entre toutes les balises 'pre' sur la page.
demandé sur 2011-08-24 00:42:40
29
réponses

Pouvez-vous fournir des exemples D'analyse HTML?

comment analysez-vous le HTML avec une variété de langues et comment analysez-vous les bibliothèques? ... ournir un exemple autre que l'extraction de liens, veuillez également inclure: Effet: [ce que l'analyse n']
demandé sur 2009-04-21 19:55:37
4
réponses

Grattage De La Toile Avec Haskell

Quel est l'état actuel des bibliothèques pour gratter des sites web avec Haskell? j'essaie de faire plus de m ... e, traverser des pages ne semble pas aussi agréable que dans d'autres langues. Est-il une meilleure option?
demandé sur 2011-01-29 20:02:48
4
réponses

HTML Agility pack - analyse des tableaux

je veux utiliser le pack D'agilité HTML pour analyser des tables à partir de pages web complexes, mais je suis en quel ... er ). je suis aussi heureux si on peut juste jeter un lumière sur l'ordre de l'objet juste pour l'analyse.
demandé sur 2009-03-17 22:00:18
9
réponses

Grattage Web - Comment identifier le contenu principal sur une page Web

compte tenu D'une page Web d'article de nouvelles (de n'importe quelle source de nouvelles majeures telles que le times o ... ion? Quels sont quelques bons outils ou bibliothèques pour l'exploration de données? (de préférence basé sur python)
demandé sur 2011-01-12 20:46:15
5
réponses

HTML5: W3C vs WHATWG. Quelle est la spécification la plus autoritaire?

je suis à mi-chemin creux d'un analyseur html et trouvé html5 défini explicitement les règles de base pour l'analyse d' ma ... rsion? Ou vont-ils s'en tenir à leur candidat actuel jusqu'à ce qu'il atteigne le statut de recommandation officielle?
demandé sur 2011-07-26 09:38:48
1
réponses

TagSoup vs. Jsoup vs. HTML Parser vs. HotSax vs. [fermé]

L'abondance de HTML analyseurs à choisir (et le bâton avec) est ahurissant: http://java-source.net/open-so ... selon votre expérience, quel analyseur HTML recommanderiez-vous (pour répondre aux exigences ci-dessus) et pourquoi?
demandé sur 2011-03-03 19:45:44
3
réponses

parse html dans ng-bind en utilisant angularJS [dupliquer]

cette question a déjà une réponse ici: Avec ng-bind-html-dangereux retirés, comme ... n'est pas ce que je veux. n'importe qui sait ce que je peux faire pour Parser le html dans la transclusion
demandé sur 2013-02-15 09:31:15
9
réponses

Problème avec HTML Parser dans IE

j'essaie de créer une boîte de dialogue qui n'apparaîtra que si le navigateur sélectionné est IE (n'importe quelle versio ... gateur" et .version il supprime l'erreur, mais j'ai besoin de ces à vérifier =/...toutes les idées seront appréciées =).
demandé sur 2008-11-19 13:31:47
8
réponses

Extraire une information d'une page web par apprentissage automatique

j'aimerais extraire un type précis d'information des pages web en Python. Disons que l'adresse postale. Il a des millier ... elque chose de semblable à cela. Pas de règles spéciales dans le markup HTML, pas de règles spéciales dans l'ordre, etc.
demandé sur 2012-11-12 03:27:23
6
réponses

Texte HTML avec balises pour le texte formaté dans une cellule Excel

y a-t-il un moyen de prendre HTML et de l'importer dans excel pour qu'il soit formaté en texte riche (de préférence en uti ... ld</b> or <i>italic</i></p></html> en: Ceci est un test. Sera-ce texte gras ou italique
demandé sur 2012-04-03 23:06:14
10
réponses

Quelle est la meilleure pratique pour analyser le contenu à distance avec jQuery?

suite à un appel jQuery ajax pour récupérer un document entier XHTML, Quelle est la meilleure façon de sélectionner de ... , si vous peut me montrer comment sélectionner le titre de la page distante, ce serait parfait! Merci, Pete
demandé sur 2009-06-24 00:10:57
3
réponses

BeautifulSoup findAll() à plusieurs classes?

je voudrais gratter une liste d'articles d'un site web, et préserver l'ordre dans lequel ils sont présentés. Ces articles ... tait dans le code source: items = soup.findAll(True,{'class':'class1'}) items += soup.findAll(True,{'class':'class2'})
demandé sur 2013-09-10 21:53:22
1
réponses

Comment obtenir HTML à partir d'un bel objet de soupe

j'ai le texte suivant bs4 objet de cotation: >>> listing <div class="listingHeader"> <h2> .... > ... a = listing.contents >>> type(a) <type 'list'> Donc cela ne fonctionne pas. Comment puis-je faire cela?
demandé sur 2014-09-08 21:13:57
10
réponses

Convertir automatiquement les feuilles de Style en style inline

Ne pas avoir à vous soucier de style lié ou passez style. je veux convertir automatiquement les fichiers comme ceci < ... . Je voudrais aussi envoyez le style de rédacteur de texte riche basé sur le web pour la réponse et le message original.
demandé sur 2010-12-23 21:46:36
11
réponses

Nettoyage du HTML en supprimant les balises de formatage supplémentaires / redondantes

j'ai été en utilisant CKEditor de l'éditeur wysiwyg pour un site web où les utilisateurs sont autorisés à utilis ... pour nettoyer le désordre (aussi salissant que ce code HTML) bbcode original qui sera généré? merci encore
demandé sur 2012-04-20 18:26:58
4
réponses

Comment obtenir la valeur de noeud / innerHTML avec XPath?

j'ai un XPath à sélectionner pour une classe que je veux: //div[@class='myclass']. Mais il me renvoie toute la div (avec ... aussi, mais je voudrais revenir seulement le contenu de cette balise sans la balise elle-même. Comment puis-je le faire?
demandé sur 2012-06-05 17:16:41
2
réponses

HTML Agility Pack bande d'étiquettes NON EN liste blanche

j'essaie de créer une fonction qui supprime les balises html et les attributs qui ne sont pas dans une liste blanche. J'a ... e je fais cela est parce que certains des utilisateurs font cpoy-paste DE MS WORD dans ny WYSYWYG html éditeur. Merci.!
demandé sur 2010-06-24 09:52:00
6
réponses

Parsing HTML en Python [fermé]

Quel est mon meilleur pari pour l'analyse HTML si Je ne peux pas utiliser BeautifulSoup ou lxml? J'ai du code qui utilise ... s'il pouvait stomache un peu de HTML malformé bien que je suis assez sûr que la plupart des entrées seront assez propre.
demandé sur 2009-04-04 22:11:13
4
réponses

Comment puis-je utiliser la bibliothèque python HTMLParser pour extraire des données d'une balise div spécifique?

j'essaie d'obtenir une valeur à partir d'une page HTML en utilisant la bibliothèque python HTMLParser. La valeur que je v ... ose() Quelqu'un peut-il m'indiquer la bonne direction? Je veux la fonctionnalité de classe pour obtenir la valeur 20.
demandé sur 2010-07-18 19:06:04
4
réponses

Comment puis-je ajouter "série actuelle" de contributions de github à mon blog?

j'ai un blog personnel que j'ai construit en utilisant des rails. Je veux ajouter une section à mon site qui affiche ma s ... pour plus de précisions, voici ce que je veux: simplement le nombre de jours est tout ce qui est nécessaire pour moi.
demandé sur 2013-04-12 22:55:27
1
réponses

XPath trouver un noeud qui ne contient pas d'enfant

j'essaie de créer quelque xpath qui trouvera tout a balises qui ne contiennent pas de img tags de façon à ce que quelque ... en sûr, je pouvais faire ce volet de la recherche, mais je suis sûre qu'il doit y avoir un moyen de le faire avec xpath.
demandé sur 2011-03-28 23:48:40
6
réponses

Y a-t-il un validateur HTML intégré dans un navigateur principal?

dans Firefox, il y a une Extension appelée "validateur Html". Il ajoute une petite icône dans le coin inférieur droit de v ... rnières années, tous les autres validateurs que j'ai vu envoient simplement l'url actuelle au site de validateur du w3c.
demandé sur 2011-04-11 02:13:05
5
réponses

Android ImageGetter images texte se chevauchant

j'essaie de charger un bloc de HTML dans un TextView, y compris des images, en utilisant URLImageParser p = new URLImag ... n drawable; } catch (Exception e) { return null; } } } } des idées? Merci une tonne.
demandé sur 2011-10-24 04:28:28