preguntar acerca de beautifulsoup
7
réponses
Analyse HTML en python-lxml ou BeautifulSoup? Lequel d’entre eux est le meilleur pour quels types de fins?
D'après ce que je peux faire, les deux principales bibliothèques D'analyse HTML en Python sont lxml et BeautifulSoup. J'ai choisi BeautifulSoup pour un projet sur lequel je travaille, mais je l'ai choisi sans raison particulière autre que de trouver …
demandé sur
1970-01-01 00:33:29
5
réponses
Python: BeautifulSoup extrait du texte de la balise d’ancrage
Je veux extraire le texte du src suivant de la balise image et du texte de la balise d'ancrage qui se trouve dans les données de la classe div.
J'ai réussi à extraire le src img mais j'ai du mal à extraire le texte de la balise d'ancrage.
<a cl …
demandé sur
1970-01-01 00:33:32
3
réponses
Utilisation de Python et BeautifulSoup (codes source de page Web enregistrés dans un fichier local)
J'utilise Python 2.7 + BeautifulSoup 4.3.2.
J'essaie d'utiliser Python et BeautifulSoup pour récupérer des informations sur une page Web. Parce que la page web est dans le site Web de l'entreprise nécessite une connexion et une redirection, donc je …
demandé sur
1970-01-01 00:33:34
1
réponses
Python beautifulsoup iframe document extrait html
j'essaie d'apprendre un peu de belle soupe, et d'obtenir quelques données html de certaines iFrames - mais je n'ai pas été très réussi jusqu'à présent.
donc, analyser l'iFrame en soi ne semble pas être un problème avec BS4, mais je ne semble pas ob …
demandé sur
1970-01-01 00:33:34
3
réponses
Beautifulsoup-nextSibling
j'essaie d'obtenir le contenu "My home address" En utilisant ce qui suit mais j'ai l'AttributeError:
address = soup.find(text="Address:")
print address.nextSibling
<td><b>Address:</b></td>
<td>My home address …
demandé sur
1970-01-01 00:33:31
7
réponses
Python BeautifulSoup extrait du texte entre les éléments
j'essaie d'extraire "ceci est mon texte" du HTML suivant:
<html>
<body>
<table>
<td class="MYCLASS">
<!-- a comment -->
<a hef="xy">Text</a>
<p>something</p>
THIS IS MY …
demandé sur
1970-01-01 00:33:33
3
réponses
qu’est-ce que je dois utiliser à la place d’urlopen dans urllib3
je voulais écrire un code comme avant... comme ceci:
from bs4 import BeautifulSoup
import urllib2
url = 'http://www.thefamouspeople.com/singers.php'
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)
Mais j'ai trouvé que je dois installer url …
demandé sur
1970-01-01 00:33:36
3
réponses
BeautifulSoup findAll() à plusieurs classes?
je voudrais gratter une liste d'articles d'un site web, et préserver l'ordre dans lequel ils sont présentés. Ces articles sont organisés dans un tableau, mais ils peuvent être une de deux classes différentes (dans l'ordre aléatoire).
Est-il possible …
demandé sur
1970-01-01 00:33:33
5
réponses
BeautifulSoup innerhtml?
disons que j'ai une page avec un div. Je peux facilement obtenir div soup.find().
maintenant que j'ai le résultat, j'aimerais imprimer le tout innerhtmldiv: je veux dire, j'aurais besoin d'une chaîne de caractères avec toutes les balises html et to …
demandé sur
1970-01-01 00:33:31
8
réponses
Screen scraping: Getting around » erreur HTTP 403: requête rejetée par les robots.txt»
Est-il un moyen de contourner la suite?
httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
est le seul moyen de contacter le propriétaire du site (barnesandnoble.com je construis un site qui leur apporterait plus de ventes, J …
demandé sur
1970-01-01 00:33:30