Nltk french tokenizer in python not working

Question

Nltk french tokenizer in python not working

Why doesn't the french tokenizer that comes with python work for me? Am I doing something wrong?

I do

import nltk
content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."]
tokenizer = nltk.data.load('tokenizers/punkt/PY3/french.pickle')
for i in content_french:
        print(i)
        print(tokenizer.tokenize(i))

But I get non-tokenized output like

John Richard Bond explique le rôle de l'astronomie.
["John Richard Bond explique le rôle de l'astronomie."]

+4

python tokenize nltk

Atirag Feb 23 '17 at 23:54

source share

1 answer

Yohanes gultom · Accepted Answer · 2017-02-24T00:17:54+0000

tokenizer.tokenize()- offer tokenizer (delimiter). If you want to tokenize words, use word_tokenize():

import nltk
from nltk.tokenize import word_tokenize

content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramment au suivi d'étoiles variables, à la découverte de nouveaux astéroïdes et de nouvelles comètes, etc.", 'Séquence vidéo.', "John Richard Bond explique le rôle de l'astronomie."]
for i in content_french:
        print(i)
        print(word_tokenize(i, language='french'))

Link

Nltk french tokenizer in python not working

More articles: