preguntar acerca de beautifulsoup

7
réponses

Analyse HTML en python-lxml ou BeautifulSoup? Lequel d’entre eux est le meilleur pour quels types de fins?

D'après ce que je peux faire, les deux principales bibliothèques D'analyse HTML en Python sont lxml et BeautifulSoup. J'ai choisi BeautifulSoup pour un projet sur lequel je travaille, mais je l'ai choisi sans raison particulière autre que de trouver …
demandé sur 1970-01-01 00:33:29
5
réponses

Python: BeautifulSoup extrait du texte de la balise d’ancrage

Je veux extraire le texte du src suivant de la balise image et du texte de la balise d'ancrage qui se trouve dans les données de la classe div. J'ai réussi à extraire le src img mais j'ai du mal à extraire le texte de la balise d'ancrage. <a cl …
demandé sur 1970-01-01 00:33:32
3
réponses

Utilisation de Python et BeautifulSoup (codes source de page Web enregistrés dans un fichier local)

J'utilise Python 2.7 + BeautifulSoup 4.3.2. J'essaie d'utiliser Python et BeautifulSoup pour récupérer des informations sur une page Web. Parce que la page web est dans le site Web de l'entreprise nécessite une connexion et une redirection, donc je …
demandé sur 1970-01-01 00:33:34
1
réponses

Python beautifulsoup iframe document extrait html

j'essaie d'apprendre un peu de belle soupe, et d'obtenir quelques données html de certaines iFrames - mais je n'ai pas été très réussi jusqu'à présent. donc, analyser l'iFrame en soi ne semble pas être un problème avec BS4, mais je ne semble pas ob …
demandé sur 1970-01-01 00:33:34
3
réponses

Beautifulsoup-nextSibling

j'essaie d'obtenir le contenu "My home address" En utilisant ce qui suit mais j'ai l'AttributeError: address = soup.find(text="Address:") print address.nextSibling <td><b>Address:</b></td> <td>My home address …
demandé sur 1970-01-01 00:33:31
7
réponses

Python BeautifulSoup extrait du texte entre les éléments

j'essaie d'extraire "ceci est mon texte" du HTML suivant: <html> <body> <table> <td class="MYCLASS"> <!-- a comment --> <a hef="xy">Text</a> <p>something</p> THIS IS MY …
demandé sur 1970-01-01 00:33:33
3
réponses

qu’est-ce que je dois utiliser à la place d’urlopen dans urllib3

je voulais écrire un code comme avant... comme ceci: from bs4 import BeautifulSoup import urllib2 url = 'http://www.thefamouspeople.com/singers.php' html = urllib2.urlopen(url) soup = BeautifulSoup(html) Mais j'ai trouvé que je dois installer url …
demandé sur 1970-01-01 00:33:36
3
réponses

BeautifulSoup findAll() à plusieurs classes?

je voudrais gratter une liste d'articles d'un site web, et préserver l'ordre dans lequel ils sont présentés. Ces articles sont organisés dans un tableau, mais ils peuvent être une de deux classes différentes (dans l'ordre aléatoire). Est-il possible …
demandé sur 1970-01-01 00:33:33
5
réponses

BeautifulSoup innerhtml?

disons que j'ai une page avec un div. Je peux facilement obtenir div soup.find(). maintenant que j'ai le résultat, j'aimerais imprimer le tout innerhtmldiv: je veux dire, j'aurais besoin d'une chaîne de caractères avec toutes les balises html et to …
demandé sur 1970-01-01 00:33:31
8
réponses

Screen scraping: Getting around » erreur HTTP 403: requête rejetée par les robots.txt»

Est-il un moyen de contourner la suite? httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt est le seul moyen de contacter le propriétaire du site (barnesandnoble.com je construis un site qui leur apporterait plus de ventes, J …
demandé sur 1970-01-01 00:33:30