apostrophe se transformant en x92

mycorpus.txt

Human where's machine interface for lab abc computer applications   
A where's survey of user opinion of computer system response time

des mots vides.txt

let's
ain't
there's

Le code suivant

corpus = set()
for line in open("pathtomycorpus.txt"):
    corpus.update(set(line.lower().split()))
print corpus

stoplist = set()
for line in open("C:UsersPankajDesktopBTPstopwords_new.txt"):
    stoplist.add(line.lower().strip())
print stoplist

donne la sortie suivante

set(['a', "where's", 'abc', 'for', 'of', 'system', 'lab', 'machine', 'applications', 'computer', 'survey', 'user', 'human', 'time', 'interface', 'opinion', 'response'])
set(['letx92s', 'ainx92t', 'therex92s'])

Pourquoi l'apostrophe se transformer en x92 dans le 2ème set??

9
demandé sur Pankaj Singhal 2013-03-22 10:26:45

1 réponses

point de Code 92(hex) dans window-1252 encoding est le point de code Unicode 2019 (hex) qui est "point de guillemet simple droit". Cela ressemble beaucoup à une apostrophe et est susceptible d'être le personnage que vous avez en stopwords.txt, que j'ai deviné de la façon dont python a interprété, a été encodé dans windows-1252 ou un encodage qui partage ASCII et valeurs codépoints.

'vs'

11
répondu CB Bailey 2013-03-22 06:39:56