Impossible de télécharger les données nltk

import nltk
nltk.download()

il montre [SSL:CERTIFICATE_VERIFY_FAILED] . En cas de requests on peut utiliser verify=False , mais que faire ici.

mise à jour:

cette erreur persiste sur Python 3.6, avec NLTK 3.0, sur Mac OS X 10.7.5:

enter image description here

changer l'index dans le téléchargeur NLTK (suggéré ici ) permet au téléchargeur d'afficher tous les Les fichiers de NLTK, mais quand on essaie de tout télécharger, on obtient une autre erreur SSL (voir en bas de la photo):

enter image description here

6
demandé sur John Vandenberg 2016-08-02 19:09:50

5 réponses

j'ai eu le même problème en essayant de configurer à la fois nltk et SpaCy. Selon les instructions de cette question , j'ai été en mesure de surmonter la question. Essayez d'exécuter /Applications/Python\ 3.6/Install\ Certificates.command , puis réessayez votre NLTK télécharger

7
répondu user3626301 2017-05-23 12:02:56

sur MacOS 10.12.6 ceci a été résolu en entrant ce qui suit dans le terminal de bash

pip install certifi
/Applications/Python\ 3.6/Install\ Certificates.command

la méthode habituelle d'installation NLTK corpora alors travaillé pour moi

import nltk
nltk.download()
2
répondu jnPy 2017-10-17 08:57:35

si vous voulez télécharger manuellement, par exemple vous avez besoin des données tokenizer/punkt , vous pouvez télécharger directement à:

https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt.zip

et placer le dossier extrait de punkt dans C:\nltk_data\tokenizers.

1
répondu Dendi Handian 2017-08-06 06:59:30

(en Ajoutant "certificat de vérifier échoué _ssl.c:749" pour le RÉFÉRENCEMENT de ce problème.)

résolu pour moi sur Mac, 10.12.2 en utilisant la pointe de téléchargement de Paul Barry via Python 2.7 (Je ne peux pas commenter parce que rep < 50)

problèmes supplémentaires rencontrés et résolus: Pour pouvoir télécharger NLTK via python 2.7 (la configuration par défaut de Mac Python 2.7), j'ai aussi dû ajouter le dossier Python au répertoire /.bash_profile ce commentaire montre.

puis, comme j'avais défini cette variable path pour 2.7, j'ai dû la supprimer une fois que les corpus ont été téléchargés pour pouvoir démarrer python3. Donc l'enlever de /.bash_profile avant de lancer python3.

après tout ça, je peux lancer "import nltk" et "from nltk.importer le carnet d' *" sans problèmes.

0
répondu Jonas357 2017-05-23 11:47:26

OK, c'est un peu un piratage, mais voici ce que j'ai dû faire pour pouvoir utiliser les différents fichiers de données NLTK en Python 3.x sur mon ordinateur Mac (macOS 10.12.2).

tout d'abord, notez que l'erreur de certificat ne se produit que lorsque j'essaie de télécharger des données NLTK en utilisant Python 3.x sur mon Mac (ma VM Ubuntu à L'intérieur de VirtualBox n'a pas eu une telle erreur lors de L'utilisation de Python 3.x - ce qui est gênant). Juste pourquoi cela provoque une erreur sur mon Mac est au-delà de moi, surtout que le module NLTK s'installe dans Python 3.x utilisant pip sans aucun problème. C'est la connexion au serveur de téléchargement de NLTK qui semble causer le problème de vérification SSL.

Mon " ah ha!'le moment est venu quand j'ai réalisé que NLTK - une fois installé dans Python 3.x ou Python 2.x-partage la même structure de répertoire parmi toutes les versions de Python installées sur n'importe quel ordinateur. Donc, j'ai utilisé le Python 2.x qui est pré-installé sur macOS pour installer NLTK, puis utilisé nltk.download() dans Python 2.x pour installer le corpus stopwords sans problèmes. Ayant fait cela (en Python 2.x), je suis ensuite retourné dans Python 3.x, et ce code a fonctionné:

import nltk
from nltk.corpus import stopwords
print(stopwords.words('english'))

comme je l'ai dit, c'est un peu un piratage, mais cette technique me permet de faire installer les données NLTK en utilisant Python 2.x, que je peux traiter avec Python 3.x tel que requis.

0
répondu Paul Barry 2017-08-06 04:00:57