Vendredi, 8 octobre 2010

Twitter passe à Lucène

Filed under: Recherche d'informations — Daniel Lemire @ 8:25

Twitter, un des services de réseautage social les plus populaires, passe à Lucène. Le moteur de recherche open source Lucène permet à Twitter de répondre à un milliard de requêtes par jour.

Source: Twitter revamps search engine (ComputerWorld, 7 octobre 2010)

Vendredi, 20 août 2010

Le génome humain en 50 Mo

Filed under: Recherche d'informations — Daniel Lemire @ 9:53

Le génome humain requiert environ 800 millions d’octets de stockage. Cependant, il est possible de le compresser pour qu’il puisse être stocké en seulement 50 millions d’octets, soit 50 Mo.

Source: Kurzweil

Vendredi, 28 mai 2010

Validation des adresses de courriel avec regex

Filed under: Recherche d'informations — Daniel Lemire @ 7:36

Ian Dunn voulait créer une expression régulière permettant de distinguer les adresses de courriel valables. Le résultat n’est pas aussi simple qu’on pourrait l’espérer :

/^([\w\!\#$\%\&\'\*\+\-\/\=\?\^\`{\|\}\~]+\.)*[\w\!\#$\%\&\'\*\+\-\/\=\?\^\`{\|\}\~]+@((((([a-z0-9]{1}[a-z0-9\-]{0,62}[a-z0-9]{1})|[a-z])\.)+[a-z]{2,6})|(\d{1,3}\.){3}\d{1,3}(\:\d{1,5})?)$/i

Vendredi, 27 novembre 2009

Trouver tous les hyperliens avec une expression régulières

Filed under: Recherche d'informations — Daniel Lemire @ 4:29

Imaginez que vous vouliez rapidement trouver tous les hyperliens contenus dans une page web ou du code Java. John Gruber nous propose une expression régulière qui fait bien ce travail :

\b(([\w-]+://?|www[.])[^\s()<>]+(?:\([\w\d]+\)|([^[:punct:]\s]|/)))

Exercice amusant: pouvez-vous expliquer le fonctionnement de cette expression?

Lundi, 11 mai 2009

Comment créer un fil RSS à partir d’un groupe Facebook

Filed under: Recherche d'informations,XML — Daniel Lemire @ 9:44

Les forums de Facebook sont excellents à bien des points de vue. Malheureusement, ils ne permettent pas de recevoir automatiquement un avis chaque fois qu’un ajout est fait sur le forum. Heureusement, il existe une solution. L’application web Facebook Group RSS Feed permet d’obtenir un fil RSS à partir de tout forum facebook. Il suffit de trouve l’identifiant du groupe.  Par exemple, si l’URI du groupe est

http://www.facebook.com/group.php?gid=57220667716&ref=ts

alors, l’identifiant est 57220667716. Il suffit de saisir ce nombre pour obtenir en retour un fil RSS. Ce fil RSS peut être utilisé en conjonction avec un aggrégateur RSS tel que Google Reader pour surveiller sans effort les activités d’un forum.

Lundi, 27 avril 2009

Identification de la langue d’un texte

Filed under: Recherche d'informations — Daniel Lemire @ 2:48

Comment est-ce qu’une machine fait-elle pour déterminer sur un bout de texte donné est en anglais ou en français? L’approche la plus commune se base sur les statistiques des n-grammes. (Pour en savoir plus, voir l’article Modèles de langue du cours INF 6460.) Mais que fait-on lorsqu’il y a un mélange de langues anglaise et française? Comment savoir où se termine le français et où débute l’anglais?

Will Fitzgerald de chez Powerset (Microsoft) a publié les transparents d’une présentation sur l’identification de la langue d’un texte. Il fournit de nombreux exemples pratiques. Il nous invite aussi à consulter un article de ses collègues, Unsupervised Language Identification.

Mardi, 24 février 2009

Clay Shirky et la crise du trop-plein d’informations

Filed under: Recherche d'informations — Daniel Lemire @ 7:13

Clay Shirky est l’auteur bien connu de plusieurs livres portant sur les technologies web. Cet exposé sur le trop-plein d’informations est particulièrement intriguante (en anglais):

Vendredi, 30 janvier 2009

Le moteur de recherche Lucène est maintenant commercialisé

Filed under: Recherche d'informations — Daniel Lemire @ 10:01

Le moteur de recherche open source Lucène utilisé dans les cours INF 6460 et INF 6104 est maintenant commercialisé: il sera maintenant possible d’obtenir du soutien technique pour ce logiciel.

Mardi, 2 décembre 2008

La technologie Google par Michael Nielsen

Filed under: Recherche d'informations — Daniel Lemire @ 5:36

Michael Nielsen vient de publier la première partie d’un cours sur la technologie Google. Michael présente une analyse de PageRank similaire à ce qu’on trouve à la semaine 11 de mes cours INF 6460 et INF 6104.

Mardi, 25 novembre 2008

Évaluation des sites web des partis politiques

Filed under: Recherche d'informations,XML — Daniel Lemire @ 4:37

Le web devrait être universellement accessible. Les personnes handicappées devraient pouvoir naviguer sur tous les sites importants.

Dans cet esprit, les gens d’AccessibilitéWeb ont étudié les sites web des partis politiques québécois. Il se trouve que le Parti Québecois, puis Québec Solidaire, sont les grands gagnants de cette analyse. Par contre, il reste beaucoup de progrès à faire même chez le Parti Québécois.

Page suivante »

XHTML valide

Powered by WordPress