Lundi, 27 avril 2009

Identification de la langue d’un texte

Filed under: Recherche d'informations — Daniel Lemire @ 2:48

Comment est-ce qu’une machine fait-elle pour déterminer sur un bout de texte donné est en anglais ou en français? L’approche la plus commune se base sur les statistiques des n-grammes. (Pour en savoir plus, voir l’article Modèles de langue du cours INF 6460.) Mais que fait-on lorsqu’il y a un mélange de langues anglaise et française? Comment savoir où se termine le français et où débute l’anglais?

Will Fitzgerald de chez Powerset (Microsoft) a publié les transparents d’une présentation sur l’identification de la langue d’un texte. Il fournit de nombreux exemples pratiques. Il nous invite aussi à consulter un article de ses collègues, Unsupervised Language Identification.

Pas de commentaire »

Pas encore de commentaire.

Flux RSS des commentaires de cet article.

Laisser un commentaire

Attention: Lorsque vous saisissez un long commentaire, il peut arrivez que vous en perdiez le contenu suite à problème avec le réseau ou à un bogue logiciel. Vous devriez toujours faire une copie avant d'envoyer votre commentaire.

Aux amateurs de pourriels: le pourriel est prestement nettoyé sur ce site.

Exemple: un plus deux = 3.

XHTML valide

Powered by WordPress