Comment vérifier l'orthographe d'un site web?
je sais que les correcteurs orthographiques ne sont pas parfaits, mais ils deviennent plus utiles lorsque la quantité de texte augmente en taille. Comment puis-je épeler un site qui a des milliers de pages?
Edit: en raison de la complexité du traitement côté serveur, la seule façon d'obtenir les pages est par HTTP. Elle ne peut pas non plus être externalisée à un tiers.
Edit: j'ai une liste de toutes les Url sur le site que j'ai besoin de vérifier.
11 réponses
Lynx semble être bon à obtenir juste le texte dont j'ai besoin (le contenu du corps et le texte alt) et en ignorant ce que je n'ai pas besoin (JavaScript intégré et CSS).
lynx -dump http://www.example.com
il répertorie également toutes les URLs (converties dans leur forme absolue) de la page, qui peuvent être filtrées en utilisant grep:
lynx -dump http://www.example.com | grep -v "http"
les URLs peuvent aussi être locales (file://
) si j'ai utilisé wget miroir du site.
j'écrirai un script qui traitera un ensemble D'URLs en utilisant cette méthode, et sortie chaque page vers un fichier texte séparé. Je peux alors utiliser une correction orthographique solution pour vérifier les fichiers (ou un seul gros fichier en combinant tous les petits).
ceci ignorera le texte dans le titre et les éléments meta. Ceux-ci peuvent être spellchecked séparément.
Juste un point de vue jours avant, j'ai découvert Spello site web spell checker. Il utilise mon NHunspell (Open office, Correcteur d'Orthographe .NET) libaray. Vous pouvez lui donner un essai.
si vous pouvez accéder au contenu du site sous forme de fichiers, vous pouvez écrire un petit script shell Unix qui fait le travail. Le script suivant imprimera le nom d'un fichier, le numéro de ligne et les mots Mal orthographiés. La qualité du résultat dépend de celle du dictionnaire de votre système.
#!/bin/sh
# Find HTML files
find -name \*.html -type f |
while read f
do
# Split file into words
sed '
# Remove CSS
/<style/,/<\/style/d
# Remove Javascript
/<script/,/<\/script/d
# Remove HTML tags
s/<[^>]*>//g
# Remove non-word characters
s/[^a-zA-Z]/ /g
# Split words into lines
s/[ ][ ]*/\
/g ' "$f" |
# Remove blank lines
sed '/^$/d' |
# Sort the words
sort -u |
# Print words not in the dictionary
comm -23 - /usr/share/dict/words >/tmp/spell.$$.out
# See if errors were found
if [ -s /tmp/spell.$$.out ]
then
# Print file, number, and matching words
fgrep -Hno -f /tmp/spell.$$.out "$f"
fi
done
# Remove temporary file
rm /tmp/spell.$$.out
je les recommande fortement Inspyder InSite, C'est un logiciel commercial, mais ils ont une version d'essai, il vaut bien l'argent. Je l'ai utilisé pendant des années pour vérifier l'orthographe des sites web clients. Il prend en charge l'automatisation/la planification et peut s'intégrer avec des listes de mots personnalisés CMS. C'est aussi une bonne façon de lier-vérifier et peut générer des rapports.
si c'est un un off, et en raison du nombre de pages à vérifier, il pourrait être intéressant de considérer quelque chose comme spellr.ce qui serait une solution rapide. Vous pouvez entrer dans votre url de site web sur la page d'accueil pour obtenir une idée de la façon dont il signalerait des fautes d'orthographe.
mais je suis sûr qu'il y a des alternatives gratuites.
vous pouvez faire cela avec un script shell combinant wget et aspell. Aviez-vous un environnement de programmation en tête?
j'utiliserais personnellement python avec de la belle soupe pour extraire le texte des tags, et Piper le texte à travers aspell.
utilisez templates (well) avec votre webapp (si vous programmez le site au lieu de simplement écrire du html), et un éditeur html qui inclut la vérification orthographique. Eclipse n', pour une.
Si ce n'est pas possible pour une raison quelconque... ouais, wget pour télécharger les pages finies, et quelque chose comme ceci:
nous utilisons le contrôle orthographique Telerik RAD dans notre ASP.NET applications.
vous pourriez vouloir consulter une bibliothèque comme jspell.
j'ai fait anglais uniquement correcteur orthographique avec Ruby ici: https://github.com/Vinietskyzilla/fuzzy-wookie
l'Essayer.
la principale lacune est l'absence d'un dictionnaire complet qui inclut toutes les formes de chaque mot (au pluriel, pas seulement au singulier; "a", pas seulement "avoir"). Remplacer votre propre dictionnaire, si vous pouvez trouver ou faire un meilleur, le rendrait vraiment impressionnant.
cela mis à part, je pense que la façon la plus simple de vérification orthographique une page Web simple doit appuyer sur ctrl+a (ou cmd+a) pour sélectionner tout le texte, puis le copier et le coller dans une zone de texte multiligne sur une page web. (Par exemple,<html><head></head><body><textarea></textarea></body></html>
.) Votre navigateur doit souligner tout mot mal orthographié.
@Anthony Roy j'ai fait exactement ce que vous avez fait. Piped la page à travers Aspell via Pyenchant. J'ai dictionnaires anglais (GB, CA, états-unis) pour les utiliser sur mon site https://www.validator.pro/. Contactez-moi et je vais mettre en place un emploi à temps pour vous de vérifier les 1000 pages ou plus