Pages

mercredi 14 mai 2008

La persistance du web


La durée de vie des traces que nous laissons sur le web est bien plus longue que nous le pensons , car nos traces échappent très vite à notre contrôle.

Les signaux des blogs

Pour illustrer cette persistance nous prendrons l'exemple d'un blog. Lorsque nous publions un article sur un blog plusieurs évènements se déclenchent.

Le blog avertit les moteurs de recherche qu'il y a du nouveau sur le site. C'est ce que l'on appelle le pingback. Ces moteurs viennent alors visiter votre site, et gardent ce qu'ils ont trouvé dans un endroit spécial appelé "cache". Si vous détruisez votre billet pour une raison quelconque, le contenu du billet est toujours présent dans le cache des différents moteurs de recherche: vous n'avez détruit en fait que votre exemplaire. Un internaute qui effectue une recherche pourra lire votre billet sur le moteur de recherche.

Le blog émet également un signal appelé flux RSS qui met à disposition les dernières nouveautés de votre site.

Ce flux RSS :
  • est analysé par des moteurs de recherche spécialisés qui vont conserver dans leur cache les premières lignes de vos billets.
  • est repris par d'autres sites - on parle de syndication - qui affiche sur leurs pages des extraits d'autres sites qui les intéresse. Ce contenu syndiqué est également caché sur des sites que vous ne controlez pas. Cela amène à des conséquences inattendues. Le site Gala.fr écrit un article sur le cinéaste Olivier Galan, réalisateur de la môme avant de le retirer. Cet article est repris par le biais des fils RSS sur le site LesPipoles.com, qui se voit attaqué en Justice par le réalisateur. Un effet pervers de la persistance du web.

La machine à remonter le temps existe

Cette persistance du web ne s'arrête pas aux résultats cachés par des dizaines de moteurs de recherche. Un projet appelé la "wayback machine" ( la machine à remonter le temps) a pour objectif de constituer la mémoire de l'internet en archivant le contenu des sites de plusieurs milliers de sites web, 85 milliards de pages web pour être précis. Il y est ainsi possible de voire la page d'accueil de Yahoo! en 1996.


Avec un peu de "chance" votre billet sera aspiré par la wayback machine.


Cela est déjà arrivé sur un forum français : bien que l'auteur ait décidé d'effacer ses billets, l'animateur du forum a indiqué que l'on pouvait retrouver le contenu effacé sur la wayback machine.


De même, dans un conflit opposant deux sociétés américaines, l'une d'elles a étudié le contenu archivé du site web de l'autre dans la "wayback machine" pour en tirer des arguments devant le juge traitant de l'affaire.

S'il est parfois possible de faire en sorte que le contenu d'un site web ne soit pas indexé par les moteurs de recherche, ou tout simplement mis en cache, ce n'est pas toujours le cas, et en tous cas ce n'est pas à la portée de l'internaute moyen.

Ad Aeternam


Si vous écrivez sur le web, considérez que les traces seront permanentes.



photo liber

2 commentaires:

Marie a dit…

La propagation des contenus et leur duplication est tellement rapide... On pense d'ailleurs plus souvent aux fichiers multimedia qu'aux articles ou contenus écrits plus globalement.

Mais finalement, les traces restent, quelle que soit la forme !

MB a dit…

Et cela n'a pas fini d'évoluer ! certains moteurs de recherche ( autonomy par exemple ) possèdent une fonction " d'éduction " qui leur permettent de reconnaître dans une texte une date, un numéro de téléphone, un nom de famille, etc. Le web devient de plus en plus lisible par les machines. L'utilisation des microformats et l'avènement peut-être du web sémantique accèlereront cette tendance.