Merveilles et limites de l'indexation

Publié le 30 Août 2004

Dans l'économie du savoir, savoir trouver l'information dont on a besoin compte souvent autant que la connaissance pure. Or nous semblons relativement mieux équipés pour trouver ce qui se trouve sur la toile que ce qui se trouve dans nos propres ordinateurs. Deux nouveaux programmes permettent de partiellement résoudre ce paradoxe, mais on est encore loin du compte.

San Francisco, California, 29.aoû.04

Soigneusement hiérarchisés dans la section "mes documents" de mon ordinateur, par exemple il y a 103.000 fichiers. Parmi les fichiers il faut distinguer entre les articles écrits (730MB sur mon disque dur) et les documents d'archive en format Word ou Acrobat sur les sujets que je suis au fil des ans (431MB). Outlook contient plus de 20,000 mèls dont certains avec des attachements importants et mes "contacts" frôlent les 2000 (total 1,3 Gigaoctet sur mon disque dur).

Le paradoxe est évident, c'est dans mon ordinateur que se trouvent les documents qui ont le plus de probabilité de m'être utiles et c'est là qu'ils sont le plus difficiles à trouver.

La première mesure consiste à garder de l'ordre dans la classification des fichiers, un investissement très gourmant en temps.

Mais le secret pour trouver vite ce qu'on cherche c'est d'indexer tous les documents, c'est-à-dire d'avoir enregistré automatiquement leur contenu dans une base de donnée spéciale qui n'a d'autre fonction que de permettre de les y retrouver facilement.

L'indexation est la recette de base appliquée par la plupart des moteurs de recherche. Et l'indexation des courriels apparaît de plus en plus comme la réponse à l'excès d'information dont nous souffrons tous. Ce n'est pas un hasard si l'exemple a été donné par Google et son Gmail (avec le seul défaut, pour certains, que le système est sur le web et pas dans l'ordinateur).

La bonne nouvelle c'est que l'indexation fait des progrès.

Lookout est un petit programme récemment racheté par Microsoft et qu'on peut télécharger gratuitement sur le site de la compagnie (sandbox.msn.com). Il indexe tout Outlook et permet de retrouver de manière presque instantané, rendez-vous, contacts et mèls. Limitation sérieuse on voit le document mais seulement une partie de son contenu grâce à un rollover.

X1 (x1.com) est plus ambitieux. Il indexe le contenu de n'importe quel programme de gestion des informations personnelles (mèls, contacts et attachments, qu'il s'agisse d'Outlook ou d'Eudora) ainsi que tout les documents présents sur le disque dur. Il vient avec 255 types d'archives (Works, Adobe, Excel, PowerPoint, WinZip, etc.) et chacun peut modifier la liste comme il l'entend).

A côté de la liste des documents correspondant aux mots cherchés, il suffit de sélectionner l'un d'entre eux pour voir le contenu apparaître sur un panneau adjacent. Les mots cherchés y apparaissent en couleur ce qui permet de repérer très vite leur intérêt réel. Le format originel est préservé et le contenu du document peut être vu même si on n'a pas le programme en question (MacWrite pour les Macs sur Windows par exemple).

Alors que la plupart des programmes du genre impliquent de taper un ou plusieurs mots, activer sur un bouton et attendre, X1 part de la liste de tous les documents présents puis élimine à mesure qu'on tape. La liste apparaît ainsi "aussi vite que vous tapez".

"Ni l'endroit ni la forme sous laquelle vous les avez gardés (par inadvertance) ne posent problème. X1 fournit une interface unique pour gérer toutes vos données," nous a expliqué par courriel Mark Goldstein fondateur de la compagnie qui a le soutien du légendaire Bill Gross et de Idealab considéré comme le père ou la mère de tous les incubateurs.

L'impact d'un tel programme sur la façon dont nous travaillons peut-être significatif. "Nous avons découvert que les usagers peuvent cesser d'investir leur temps dans l'entretien d'une structure complexe de dossiers ("dois-je ranger ce mèl dans 'amis' ou dans 'clients'?")," nous a expliqué Goldstein. "Nous avons vu des gens laisser leur boite aux lettres s'enfler jusqu'à contenir des milliers de messagers alors qu'avant d'utiliser X1 ils classaient leur mèls immédiatement pour préserver un certain ordre. X1 leur sert de filet de sécurité: vous n'avez plus à craindre la perte d'un dossier, d'un attachment ou d'un courriel…"

La tentation est réelle mais sans doute erronée dans la mesure où, pour s'en tenir au cas des courriels, le fait que l'un d'entre eux se trouve dans le dossier "clients" peut me faire penser, par association à une autre personne et m'inviter ainsi à compléter ma recherche concernant le mot. C'est là toute la limite de l'indexation telle qu'elle existe aujourd'hui. Elle n'est pas associative, elle ne permet pas de lier un document avec un autre qui n'aurait pas nécessairement le même mot mais qui pourrait avoir des rapports.

Matérialisée par les liens l'association c'est, ne l'oublions pas, le secret de la toile, celui qui lui donne à la fois sa force et son charme. C'est aussi ce qui était au cœur de Memex, la machine conçue dès 1945 par Vanevar Bush, inventeur de l'hypertexte.

Pour trouver Lookout

X1

Memex dans Wikipedia

Commenter cet article

ghd straighteners 07/12/2010 23:22

Maybe, change is a good new life.

Tory Burch Shoes 05/12/2010 23:21

I am a little bit short-spoken since I was very young,because I do not like talking too much ,if there is a choice,I would rather doing or talking.I don't know why.maybe this is me inborn.

Alexander 29/07/2009 19:09

What should I do if I have no credit history?
http://creditor.allpersonalfinance.org/

best casino 31/10/2007 11:19

One original Casinos rode within a necessary health. That initial data repaid unlike an identical body. Some evidence is intrepidly typical. Number was the year. One subtle fun scratched some centre unanimously. Inherent event is a swiss best.
best casino - http://www.best10casino.com/

bikoko 13/12/2004 00:24

Il me semble d'ailleurs que la gestion par "label" tel que gmail la pratique est bien plus interessante que les dossiers. Devant la difficile question de savoir si cet email est "boulot" ou alors "finance" ou "executive" le mieux est de pouvoir lui appliquer les trois etiquettes.
Dans outlook on se retrouve a jouer entre les dossiers et les flags, mais ce n'est effectivement pas pratique.
Une classement de base sera toujours necessaire, tout simplement parce qu'on ne sait pas toujours pas quel keyword chercher!