Langage naturel - Francis Pisani

J’ai eu la chance d’assister la semaine dernière au lever de rideau sur Powerset, un moteur de recherche fonctionnant sur la base du langage naturel. C’est aussi une des start-ups dont on parle le plus à San Francisco.

Le plus impressionnant pour un non ingénieur est que la portion de texte mise en valeur dans une réponse contient souvent des mots qui ne figuraient pas dans la question. Par exemple, à la question « what politicians were killed by a disease » Powerset fournit des réponses du genre » Sir Hughes Fraser died from lung cancer ». Autrement dit il est capable de comprendre que Sir Hugues était un politicien et de dresser l’équivalence entre « être tué » et « mourir ».

Les résultats montrés (sur la base, pour le moment de l’indexation de Wikipedia en anglais et du New York Times) semblent convaincants mais une telle démo ne permet pas de se faire la moindre idée concernant la robustesse du processus quand on passe au niveau global avec de multiples langues.

Scott Prevost, responsable des produits à Powerset, m’a bien dit qu’une fois leur système au point pour l’anglais (première version prévue pour le mois de septembre) il leur suffirait du travail d’une seule personne pendant deux ans (pas grand-chose pour une équipe) pour mettre au point la technologie dans une autre langue. Plusieurs communautés sont déjà à l’œuvre.

Mais Powerset a une autre carte dans sa manche: une sorte de communauté open source de développeurs. Steve Newcomb, le Chief Operating Officer, a beaucoup insisté lors de la présentation sur le rôle des 10.000 personnes qui participent à PowerLabs (à côté de 70 employés). Il a présenté son projet comme un « mashup entre Digg, Facebook et Google Apps ».

Mais citer tous les sites à la mode n’est pas une garantie de qualité. Powerset travaille avec un brevet déposé par Xerox Parc qui « permet aux ordinateurs de comprendre le sens du langage des humains » (la question aussi bien que tous les documents du web) en dégageant, notamment, les différents sens possibles de chaque mot, les différentes associations.

Dans la phrase « acquisitions en 2001 » les moteurs de recherche travaillant sur la base d’un index des mots clés rapportent tout ce qui contient les deux termes. Ceux qui utilisent le langage naturel savent qu’il y a une relation entre les deux. L’ambigüité de la proposition tient au fait qu’en s’appuyant sur les liens y conduisant, Google se rapproche sérieusement des résultats les meilleurs, notamment si la question est posée entre guillemets.

Je suis sorti de cette présentation impressionné et légèrement sceptique. Bonne piste mais les obstacles sont considérables.

Powerset, comme Hakia (voir ce billet ) ou d’autres moteurs plus intelligents, doivent pour s’imposer montrer qu’ils sont bien meilleurs tout en étant aussi simples que les plus puissants. Peter Norvig directeur de la recherche chez Google déclarait il y a quelques mois: « L’approche statistique est plus économique, plus rapide, plus robuste, plus facile à internationaliser et plus efficace ».

Enfin, on imagine bien que si Powerset ou une autre de ces start-ups commence à avoir du succès, Google ne devrait pas avoir trop de mal soit à la racheter soit à mettre 500 ingénieurs sur le coup pour la rattraper. Rien ne nous dit qu’ils n’ont pas déjà une équipe nourrie travaillant dans ce sens.

Les Davids sont légions qui rêvent de renverser le grand G. On souhaite qu’ils réussissent, bien sûr, surtout s’ils nous aident vraiment à mieux trouver ce que nous cherchons sur le net, en déplaçant Google et/ou en l’obligeant à s’améliorer.

N’est-ce pas?

Trois bons billets sur la présentation de Powerset:

Dan Farber – Powerset: The natural language search mashup platform

Don Dodge – Powerset – Open Source approach to beat Google

Software Abstractions – Powerset is Not a Google-killer!