Lundi, 27 avril 2009

Identification de la langue d’un texte

Filed under: Recherche d'informations — Daniel Lemire @ 2:48

Comment est-ce qu’une machine fait-elle pour déterminer sur un bout de texte donné est en anglais ou en français? L’approche la plus commune se base sur les statistiques des n-grammes. (Pour en savoir plus, voir l’article Modèles de langue du cours INF 6460.) Mais que fait-on lorsqu’il y a un mélange de langues anglaise et française? Comment savoir où se termine le français et où débute l’anglais?

Will Fitzgerald de chez Powerset (Microsoft) a publié les transparents d’une présentation sur l’identification de la langue d’un texte. Il fournit de nombreux exemples pratiques. Il nous invite aussi à consulter un article de ses collègues, Unsupervised Language Identification.

Jeudi, 16 avril 2009

Bénéfices et mythes du RDF

Filed under: XML — Daniel Lemire @ 11:23

Michael Bergman a publié un billet, que je trouve intéressant, intitulé Advantages and Myths of RDF. Il y reprend certains des avantages du RDF:

  • C’est une norme ouverte et bien supportée.
  • Le RDF permet de faire du traitement automatique, sans pour autant dépendre de schémas rigides.

Il y dénonce aussi quelques mythes:

  • Le RDF est équivalent au XML.
  • Le RDF s’écrit en XML.

XHTML valide

Powered by WordPress