Oyez ! Oyez ! Le Grand Roi DoubleVé III C décrète par la présente que les termes URL et URI doivent désormais s'appeler IRI.

Gni ?

Aux tout-débuts du Grand Internet, quand il fallait lier un document à un autre (par un hyperlien, mais aussi pour inclure un image, un objet ou tout autre...), nous utilisions des adresses internet qui alors s'appelaient des URL. En fait d'adresse internet, il s'agissait surtout d'adresse web. C'est une norme qui a été fixée en Décembre 1994.

Très vite, il est apparu que non seulement, c'était très pratique, mais qu'en plus, on aimerait bien y lier plein d'autres trucs. Pour cela, il suffisait que dire que les URL, on allait les préfixer d'un http:// de bon aloi, et faute d'un conseil informel de standardisation, qu'on allait laisser les gens de Netscape décider à la place des autres...[NB1]

URL = coordonnées GPS du web

Une URL est donc une adresse réseau indiquant comment arriver à ses fins. Cette adresse se décompose du protocole utilisé (souvent du http, sorti de sa propre machine et de son réseau universitaire, d'où le //), suivi d'un éventuel nom d'utilisateur, de la machine et de l'arborescence. En voici deux exemples : [NB2]

<a href="http://dascritch.net/statique.php/cv">Consultez mon cv</a><br />
<a href="mailto:xaviermd@XXXXXX.com?subject=Bonjour">M'écrire</a>

Elle permettait aussi l'accès aux fichiers par ftp, voire sur le système de fichier. Par exemple :

ftp:anonymous@cracked.example.com:666/r0x0r/w4r3z/JStrauss-P-op.298.mp3

ou encore

file:///root:god@127.0.0.1/dev/mem

On notera l'ambiguïté du champ entre l'utilisateur et le nom de la machine : la valeur sise entre “:” et “@” peut très bien être un numéro de port ou un nom d'utilisateur... Comment décider ? La meilleure réponse : n'utilisez jamais ce champ pour y mettre un mot de passe [NB3] !

I pour Identifiant

En plein été 1998, alors que bronzette allait bientôt pouvoir se commander par vols secs sur internet, le W3C peaufinait ses normes HTML4, mais surtout le XHTML, qui devait réunir dans une grande partouze grammaticale à la fois la beauté d'ingénierie du XML et une belle simplification du HTML, l'aspect se parquant en CSS et le comportement en Javascript à part de la grande cour XHTML, se contenteraient des communs. C'est pour justement associer plus étroitement les fonctions industrielles du XML que furent fondus URL et URN dans la canicule de l'été 1998.

L'URI regroupe l'espace des URL, mais aussi d'autres dénominations standardisés. notamment les notations de libraires comme les ISBN, ISSN, UPC-barcode et autres RFC... Par exemple, dans son cHTML, NTT-DoCoMo propose que les téléphones de sa norme i-Mode puissent faire un appel à un numéro (noté internationalement genre +33) en suivant un hyperlien avec l'URI préfixé du protocole tel:.
Ça peut donner ça :

<a href="tel:+3366XXXXXXX">Téléphone mobile</a>

Gros souci, autant une URL, on peut la retrouver quasiment à coup sûr, les URN, elles donnent une référence de document à aller se chercher à la BU, c'est à dire en quittant son espace chaise/écran, verrouiller sa session, mettre ses chaussures, aller à pied à la biblio, trouver le gros bouquin en question et feuilleter avec les doigts... berk...
Autant vous êtes sûr de trouver une image à une URL, et seulement à cet endroit, autant un numéro d'ISBN vous garanti pas que vous allez trouver l'ouvrage dans la librairie en face.

C'est ainsi, que nous sommes passés d'URL à URI.

I pour l'Internationale

...sauvera le bot-spider ... mais la chanson rime mal.

Mais dans sa dernière recommandation sorti la semaine dernière, le W3C préconise désormais d'utiliser le terme IRI.

« WTF? » hurleront des milliers de script-kiddies apprentis webmestres sur leurs fora préférés... Eh bé, tout simplement qu'on sort de l'usage exclusif du jeu de caractère US-ASCII 7bits, pour pouvoir enfin utiliser des lettres accentuées, du symbole euro, des écritures RTL comme l'Arabe ou le Japonais et plein d'autres.
Je ne veux pas être méchant, mais si vous n'en voyez pas l'utilité, c'est que

  1. Vous êtes trop anglo-saxon,
  2. Vous êtes trop l33t,
  3. Vous n'avez jamais eu à indiquer le nom d'un site internet dans une émission de radio en précisant bien qu'il faille supprimer les accents en tapant l'adresse.

Seul souci : au moment de la mise sous presse ladite recommandation, le W3C est obligé de signaler que le lecteur devra mentalement convertir chaque « URI » cité en « IRI », le temps que la stagiaire relectrice-correctrice le fasse pour vous.

Faut dire que c'est tout frais, ça date de Janvier 2005.
Reste un gag : Retrouver la notation ASCIIfiée pour une lettre particulièrement exotique. Ça rappellera le problème des noms de domaines en punycode homographique...

Blague à part...

La norme GRDDL en elle-même se défini comme recommandation et reconnaît d'elle-même que la multiplicité de micro-formats [NB4] déjà d'usage intensif ne permet que de suggérer a posteriori des réponses... ce qui évitera de encore ré-inventer la roue.

En tous cas, elle permettra de simplifier l'écriture de références bibliographiques croisés, des comparateurs de prix, des... eeeh crottin, ça existe déjà !


Ancres du document signifiant qu'une information complémentaire est accessible dans la même URL :

Pour ceux qui cherchent encore la traduction du titre : « RIP URL URI, IRI INRI W3C »

  1. ↑ Netscape : Jolie erreur, ils y casèrent le protocole javascript: !
  2. ↑ Exemples de code : Sur ce billet, les exemples sont colorés avec la notation suivante : protocole:​utilisateur:motdepasse@​sous​.machine​.domaine:port@​/chemin​/relatif​/document​?parametres​#position , Les éléments non-facultatifs sont surlignés plus clairs.
    Oui, je sais, c'est pas forcément plus lisible, et on se croirait dans un cahier de coloriages. Mais dites-vous bien que je me suis embêté à mettre toutes ces balises pour aider les plus novices d'entre vous...
  3. ↑ Mot de passe : god : Ça me fait penser que ce soir, NT1 diffuse « Hackers » aka « Les pirates du cyberspace ». Le film est nul à se pisser dessus, mais la bande-son est un vrai bonheur.
  4. ↑ multiplicité de micro-formats : À noter que dans les exemples illustrant la multitude de différents formats déjà existants, le format de document bureautique choisi par le W3C est celui d'Open-Office, le MS-OOXML ne semble décidément plus à l'ordre du jour... Il est vrai que cette “norme” n'a pas été conçue dans une optique d'usage mondial, et que le W3C ne se laisse pas corrompre par Microsoft...