Identification de la langue d’un texte
Comment est-ce qu’une machine fait-elle pour déterminer sur un bout de texte donné est en anglais ou en français? L’approche la plus commune se base sur les statistiques des n-grammes. (Pour en savoir plus, voir l’article Modèles de langue du cours INF 6460.) Mais que fait-on lorsqu’il y a un mélange de langues anglaise et française? Comment savoir où se termine le français et où débute l’anglais?
Will Fitzgerald de chez Powerset (Microsoft) a publié les transparents d’une présentation sur l’identification de la langue d’un texte. Il fournit de nombreux exemples pratiques. Il nous invite aussi à consulter un article de ses collègues, Unsupervised Language Identification.
Facebook
Friendfeed
LinkedIn
SlideShare
Twitter
Delicious