Mercredi, 28 novembre 2007

PageRank: que du marketing?

Enregistré dans : Recherche d'informations — Daniel Lemire @ 7:07 pm

Selon certains chercheurs, il semble que PageRank ne soit pas particulièrement un bon algorithme malgré sa grande popularité et son prestige certain. Voyez plutôt ce qu’en disent Upstill et al.:

Log of indegree was highly correlated with Google-reported PageRank scores, and just as effective when predicting desirable company attributes. Further, we found that PageRank scores for sites within a known spam network were no lower than would be expected on the basis of their indegree. We encounter no compelling evidence to support the use of PageRank over indegree.

Référence: Upstill, T. and Craswell, N. and Hawking, D., Predicting fame and fortune: Pagerank or indegree, ADCS2003, 2003.

Autres références
: Hits on the web: how does it compare? et Beyond PageRank: Machine Learning for Static Ranking.

Mardi, 27 novembre 2007

Ne passez pas par Google: allez directement à Wikipédia!

Enregistré dans : Recherche d'informations — Daniel Lemire @ 4:01 pm

Véronis souligne que dans le tier des cas, Google offre un lien vers Wikipédia comme premier résultat. Son explication est très intéressante:

Comment expliquer cet intérêt soudain pour Wikipedia de la part des deux moteurs ? (…)Le bon vieux temps de l’algorithme PageRank est révolu. (…) L’explosion des blogs et des sites de news a fortement changé la donne.

S’abonner à ce blogue:
- par lecteur,
- par courriel.

Lundi, 26 novembre 2007

Comment résoudre des problèmes difficiles

Enregistré dans : Mathématiques — Daniel Lemire @ 8:14 am

Je constate souvent que des étudiants semblent ne pas connaître de stratégie efficace pour s’attaquer à des problèmes difficiles. Pourtant, c’est la clef du succès en science et technologie.

La recette est pourtant simple: si vous ne savez pas comment résoudre un problème, il faut le transformer. La transformation peut prendre plusieurs formes:

  • On peut tailler une tranche du problème. Si vous ne savez pas résoudre le problème lui-même, peut-être est-ce que vous pouvez résoudre un cas particulier du problème? Si votre problème est abstrait, c’est souvent la meilleure solution.
  • On peut considérer un problème plus général. Il arrive qu’un cas particulier du problème que vous tentiez de résoudre ne vous dise rien, mais qu’une version plus générale du problème vous soit familière.
  • Vous pouvez découper le problème. Il arrive que le problème soit trop complexe ou trop difficile et que même des cas particuliers du problème soient trop difficiles. On peut alors découper le problème en plus petits problèmes et tenter de les résoudre.

L’objectif est toujours le même: vous devriez faire en sorte que vous puissiez toujours faire de petits progrès de telle manière à ce que vous puissiez eventuellement résoudre le problème. Il ne faut jamais rester figé devant un problème. Il faut toujours le transformer, le retourner, faire preuve d’imagination et, surtout, ne pas se laisser intimider.

La persévérance est sans aucun doute ce qui différentie le plus les gens qui sont capables de résoudre des problèmes difficiles des autres.

Vendredi, 16 novembre 2007

AT&T a gagné le prix de 50 000$ de la compétition Netflix

Enregistré dans : Recherche d'informations — Daniel Lemire @ 8:53 am

AT&T est le gagnant du $50,000 Progress Prize offert par la compagnie Netflix dans le cadre de son concours de filtrage collaboratif. L’objectif de la compétition est d’améliorer les algorithmes de filtrage collaboration par au moins 10% avec un prix d’un million de dollars à la clef. L’équipe d’AT&T a publié la description complète de leur solution.

Lundi, 29 octobre 2007

INFO 242 - XML Foundations

Enregistré dans : XML — Daniel Lemire @ 8:55 am

Erik Wilde rend disponible le contenu de son cours sur XML offert à l’Université de Californie à Berkeley. Voici quelques éléments intéressants de son cours:

Mercredi, 10 octobre 2007

La désambiguation des mots avec wikipédia

Enregistré dans : Recherche d'informations — Daniel Lemire @ 12:54 pm

En recherche d’informations, les mots peuvent avoir plusieurs sens. Je me demandais récemment si on ne pouvais pas utiliser wikipédia pour résoudre ce problème. En effet, wikipédia connaît la différence entre Java (l’île) et Java (le langage). Il se trouve que Google a mis au point et breveté cette même technique!

Bunescu, R. and Pasca, M., Using Encyclopedic Knowledge for Named Entity Disambiguation, EACL-06, 2006.

(Source.)

Jeudi, 4 octobre 2007

Conférence par Sergey Brin

Enregistré dans : Recherche d'informations — Daniel Lemire @ 8:37 am

Voici une conférence offerte par Sergey Brin, co-fondateur de Google. Très intéressant.

Mercredi, 26 septembre 2007

Des sociétés à suivre en recherche d’informations

Enregistré dans : Recherche d'informations — Daniel Lemire @ 8:44 am

Une des compagnies les plus en vue présentement dans le domaine de la recherche d’informations est Powerset. Mon cours de recherche d’informations comprend d’ailleurs une entrevue avec un de leurs employés (Will Fitzgerald). L’objectif visé par Powerset est d’ajouter l’analyse de la langue à la recherche d’informations pour permettre de répondre à des requêtes plus fines que les recherches par mots-clefs supportées par Google.

CastTV est une nouvelle société qui se spécialise dans la recherche de contenu vidéo basé sur leur emplacement dans les pages web et sur les méta-données disponibles. Viewdle est une autre société qui tente de résoudre le problème de la recheche de contenu vidéo, en analysant le contenu des vidéos pour en extraire des métadonnées.

FAROO est une société qui propose un moteur de recherche entièrement distribuée. Au lieu d’avoir un seul ensemble de serveurs, tel que Google, un tel système met plutôt à contribution les machines des utilisateurs.

Vendredi, 14 septembre 2007

Nouvelles brèves

Enregistré dans : Recherche d'informations, XML — Daniel Lemire @ 8:04 am

Le cours INF 6450 (Gestion de l’information avec XML) sera prochainement à l’offre publique. Après plus d’un an à la mise à l’essai, tous les étudiants qui ont rempli le questionnaire d’évaluation du cours ont dit qu’ils recommanderaient ce cours à d’autres étudiants en informatique.

Cette année, je vais préparer un cours de deuxième cycle: INF 6104 (recherche d’informations et web). Le cours reprendra l’orientation du cours INF 6460, mais avec des travaux différents.

Lundi, 27 août 2007

In Google we trust

Enregistré dans : Recherche d'informations — Daniel Lemire @ 4:23 pm

Selon Radio-Canada, une étude a montré que les utilisateurs de Google font aveuglément confiance à l’ordre dans lequel les résultats sont présentés.

Source: Allan Bernard.

« Page précédentePage suivante »

XHTML valide

Powered by WordPress