preguntar acerca de html-content-extraction

29
réponses

Extraire du texte d’un fichier HTML en utilisant Python

j'aimerais extraire le texte d'un fichier HTML en utilisant Python. Je veux essentiellement la même sortie que j'obtiendrais si je copiais le texte d'un navigateur et le collais dans le bloc-notes. j'aimerais quelque chose de plus robuste …
demandé sur 1970-01-01 00:33:28
21
réponses

Comment extraire img src, title et alt de html en utilisant php?

je voudrais créer une page où toutes les images qui résident sur mon site sont énumérées avec le titre et la représentation alternative. j'ai déjà écrit un petit programme pour trouver et charger tous les fichiers HTML, mais maintenant je su …
demandé sur 1970-01-01 00:33:28
8
réponses

BeautifulSoup Grab Visible Page Web Text

fondamentalement, je veux utiliser BeautifulSoup pour saisir strictement le texte visible sur une page web. Par exemple, cette page web est mon cas d'essai. Et je veux principalement obtenir le corps du texte (article) et peut-être même quel …
demandé sur 1970-01-01 00:33:29
5
réponses

comment extraire des données d’un fichier HTML brut

y a-t-il un moyen d'extraire les données désirées d'un html brut qui a été écrit de façon non sémantique avec IDs et classes ? Je veux dire, supposons qu'il y ait un fichier html sauvegardé d'une page Web(profil) et je veux extraire les données comme …
demandé sur 1970-01-01 00:33:29