Comment vérifier l'orthographe d'un site web?

je sais que les correcteurs orthographiques ne sont pas parfaits, mais ils deviennent plus utiles lorsque la quantité de texte augmente en taille. Comment puis-je épeler un site qui a des milliers de pages?

Edit: en raison de la complexité du traitement côté serveur, la seule façon d'obtenir les pages est par HTTP. Elle ne peut pas non plus être externalisée à un tiers.

Edit: j'ai une liste de toutes les Url sur le site que j'ai besoin de vérifier.

28
demandé sur Liam 2009-02-25 14:01:04

11 réponses

Lynx semble être bon à obtenir juste le texte dont j'ai besoin (le contenu du corps et le texte alt) et en ignorant ce que je n'ai pas besoin (JavaScript intégré et CSS).

lynx -dump http://www.example.com

il répertorie également toutes les URLs (converties dans leur forme absolue) de la page, qui peuvent être filtrées en utilisant grep:

lynx -dump http://www.example.com | grep -v "http"

les URLs peuvent aussi être locales (file://) si j'ai utilisé wget miroir du site.

j'écrirai un script qui traitera un ensemble D'URLs en utilisant cette méthode, et sortie chaque page vers un fichier texte séparé. Je peux alors utiliser une correction orthographique solution pour vérifier les fichiers (ou un seul gros fichier en combinant tous les petits).

ceci ignorera le texte dans le titre et les éléments meta. Ceux-ci peuvent être spellchecked séparément.

7
répondu Liam 2009-02-25 14:54:55

Juste un point de vue jours avant, j'ai découvert Spello site web spell checker. Il utilise mon NHunspell (Open office, Correcteur d'Orthographe .NET) libaray. Vous pouvez lui donner un essai.

3
répondu Thomas Maierhofer 2009-09-09 18:10:10

si vous pouvez accéder au contenu du site sous forme de fichiers, vous pouvez écrire un petit script shell Unix qui fait le travail. Le script suivant imprimera le nom d'un fichier, le numéro de ligne et les mots Mal orthographiés. La qualité du résultat dépend de celle du dictionnaire de votre système.

#!/bin/sh

# Find HTML files
find  -name \*.html -type f |
while read f
do
        # Split file into words
        sed '
# Remove CSS
/<style/,/<\/style/d
# Remove Javascript
/<script/,/<\/script/d
# Remove HTML tags
s/<[^>]*>//g
# Remove non-word characters
s/[^a-zA-Z]/ /g
# Split words into lines
s/[     ][      ]*/\
/g ' "$f" |
        # Remove blank lines
        sed '/^$/d' |
        # Sort the words
        sort -u |
        # Print words not in the dictionary
        comm -23 - /usr/share/dict/words >/tmp/spell.$$.out
        # See if errors were found
        if [ -s /tmp/spell.$$.out ]
        then
                # Print file, number, and matching words
                fgrep -Hno -f /tmp/spell.$$.out "$f"
        fi
done
# Remove temporary file
rm /tmp/spell.$$.out
2
répondu Diomidis Spinellis 2009-02-26 06:00:32

je les recommande fortement Inspyder InSite, C'est un logiciel commercial, mais ils ont une version d'essai, il vaut bien l'argent. Je l'ai utilisé pendant des années pour vérifier l'orthographe des sites web clients. Il prend en charge l'automatisation/la planification et peut s'intégrer avec des listes de mots personnalisés CMS. C'est aussi une bonne façon de lier-vérifier et peut générer des rapports.

2
répondu Luke P M 2010-09-28 14:04:19

si c'est un un off, et en raison du nombre de pages à vérifier, il pourrait être intéressant de considérer quelque chose comme spellr.ce qui serait une solution rapide. Vous pouvez entrer dans votre url de site web sur la page d'accueil pour obtenir une idée de la façon dont il signalerait des fautes d'orthographe.

http://spellr.us/

mais je suis sûr qu'il y a des alternatives gratuites.

1
répondu kevchadders 2009-02-25 11:40:43

vous pouvez faire cela avec un script shell combinant wget et aspell. Aviez-vous un environnement de programmation en tête?

j'utiliserais personnellement python avec de la belle soupe pour extraire le texte des tags, et Piper le texte à travers aspell.

0
répondu Anthony Roy 2009-02-25 11:31:38

utilisez templates (well) avec votre webapp (si vous programmez le site au lieu de simplement écrire du html), et un éditeur html qui inclut la vérification orthographique. Eclipse n', pour une.

Si ce n'est pas possible pour une raison quelconque... ouais, wget pour télécharger les pages finies, et quelque chose comme ceci:

http://netsw.org/dict/tools/ispell-html-mode.patch

0
répondu Lee B 2009-02-25 11:48:50

nous utilisons le contrôle orthographique Telerik RAD dans notre ASP.NET applications.

Telerik RAD Spell

0
répondu Michael Kniskern 2009-03-10 01:35:09

vous pourriez vouloir consulter une bibliothèque comme jspell.

0
répondu Jas Panesar 2009-03-10 02:07:07

j'ai fait anglais uniquement correcteur orthographique avec Ruby ici: https://github.com/Vinietskyzilla/fuzzy-wookie

l'Essayer.

la principale lacune est l'absence d'un dictionnaire complet qui inclut toutes les formes de chaque mot (au pluriel, pas seulement au singulier; "a", pas seulement "avoir"). Remplacer votre propre dictionnaire, si vous pouvez trouver ou faire un meilleur, le rendrait vraiment impressionnant.


cela mis à part, je pense que la façon la plus simple de vérification orthographique une page Web simple doit appuyer sur ctrl+a (ou cmd+a) pour sélectionner tout le texte, puis le copier et le coller dans une zone de texte multiligne sur une page web. (Par exemple,<html><head></head><body><textarea></textarea></body></html>.) Votre navigateur doit souligner tout mot mal orthographié.

0
répondu David Winiecki 2013-09-09 22:26:19

@Anthony Roy j'ai fait exactement ce que vous avez fait. Piped la page à travers Aspell via Pyenchant. J'ai dictionnaires anglais (GB, CA, états-unis) pour les utiliser sur mon site https://www.validator.pro/. Contactez-moi et je vais mettre en place un emploi à temps pour vous de vérifier les 1000 pages ou plus

0
répondu Scott Grodberg 2014-11-29 02:16:05