Initié depuis une vingtaine d'années, nous sommes dans un mouvement de transition entre le document papier et le numérique. Le passage le plus délicat est de transformer un original papier en document numérique à valeur probante.
Valeur probante signifie qu'en plus des qualités intrinsèques du numérique (lisibilité, accessibilité, portabilité, copiage…), ledit document peut être une preuve juridique susceptible d'avoir autant de valeur que sa contrepartie papier. Bon, évidemment, tous mes copains hackers doivent se pisser dessus de rire en entendant ce… concept car ils savent qu'il est infiniment plus facile de contrefaire ou de corrompre un élément virtuel que son équivalent matériel.

Le Xerox Workcenter 7556, modèle haut de gamme fautif Une entreprise utilise justement des scanners industriels et des copieurs Xerox WorkCentre Line pour numériser l'ensemble de ses documents. Cela va de plans, de devis, de factures, etc…
D. Kriesel, une des personnes qui s'en sert depuis des années a découvert un comportement totalement aberrant : La fonction numérisation échange parfois les chiffres !

[:totoz] ! comme on dit dans les milieux spécialisés

Attention : On ne parle pas d'une fonction interprétative comme l'OCR, non non non non, c'est la fonction scanner, qui est techniquement une photo à plat d'un document papier, qui introduit ces erreurs ! Dans certains cas, notamment de dimension de texte et de résolution de scan, le fichier PDF généré directement par l'appareil contient les images du scans, où des 8 apparaissent en lieue et place de 6.

Démonstration :

L'original La version scannée

Du peu que nous savons actuellement, cela est dû au format d'image qui est enregistré dans le container PDF, compressé par l'algorithme JBIG2. Ce format de compression est lossy, traduisez à pertes, comme le JPEG dont j'ai déjà causé. En plus d'une compression par approximation de macroblocs, il peut aussi juger de la similarité entre différentes parties de document, et faire des “alias” de zones géométriques. C'est l'intérêt de ce format, de parfaitement travailler avec du texte imprimé, et donc répéter le même glyphe en ne le détaillant qu'une fois. C'est là que justement se cause le souci puisque les paramètres choisis par Xerox font que cet algorithme considère les 6 et les 8 comme suffisamment semblables pour estimer que la confusion des deux ne posera pas de problème.

du tout du tout du tout…

Et tant pis si ça va causer des devis incorrects, des métrés pas d'équerre ou des dosages médicamenteux dangereux. Du moins pour l'algo, car évidemment, il restera à établir les responsabilités juridiques en cas de pépin.

L'argument Abagnale

Frank Abagnale est le spécialiste de la contrefaçon d'identité. C'est lui qui fafricait de faux chèques de paie de compagnies aériennes. Son histoire a été librement adapté sur grand écran dans le film « Attrape-moi si tu peux », sa personne incarnée par Léonardo Di Caprio s'il vous plaît. Depuis, il est devenu consultant pour le FBI et les banques. Et il le dit à longueur de conférences (hilarantes, je vous les recommande très chaudement) : Si vous numérisez mon chèque et qu'après vous le détruisez, vous ne pourrez jamais prouver que je vous ai refourgué un faux.

Et là,… Attrape-moi, si tu peux !

À fond la Caisse !

…plus exactement la Caisse des Dépôts et Consignations, dont une filiale opère un datacenter uniquement dédié à la prestation de coffre-fort électronique. Apparemment, l'intention derrière, en plus d'abriter les pièces numériques et à valeur probante des banques et de grandes entreprises clientes, est d'être le garant de toute pièce administrative de l'État : chaque citoyen ou entité morale de citoyenneté Française passera par leur interface pour consulter toutes les pièces administratives qui le concerne.

Pour l'instant, cela n'a pas encore été mis en place, mais ça semble inscrit dans la stratégie de simplification de l'État chapitre téléprocédures, faut juste bien rédiger le cahier des charges pour que vous-savez-qui emporte ce contrat. En tout cas, si c'est pas le cas, ça semble tellement taillé pour qu'ils s'en sont même vantés sur BFM Business la semaine dernière. Arrêtez de pouffer aussi fort au fond, c'est pas si drôle.
En attendant que légalement la situation se débloque pour eux, il sera bon de savoir quelle sera la possibilité de contestation sur ces pièces administratives numérisées si leur scanner fait des siennes.
Et surtout, comment le prouver.

L'os, c'est quand le scanner vous ment

Honnêtement, des erreurs de scans dans la BD, j'en ai rarement vu. En général, chaque page de l'album est revérifié en PAO, et ensuite validé par l'auteur pour le Bon-À-Tirer. Sauf que l'on parle de documents administratifs, qui sont souvent scannés en noir & blanc et compressé par le même engin, dans une résolution moins importante. Et le volume traité se mesure en mètres linéaires.

Chez Simtie, mon employeur actuel (désolé pour la pub), nous avons d'énormes de gros scanners industriels, que des techniciens apportent chez nos clients et utilisent sur site. Même si cette opération se fait en général sur des dossiers qui sont bouclés et terminés, mon employeur utilise des scanners d'une autre marque, mais on ne sait jamais. Nous avons aussi une équipe qui vérifie le contenu des dossiers qui sont numérisés. C'est-à-dire que pour un dossier du type XYZ, on vérifie que les pièces X, Y et Z sont présentes. Honnêtement, quand on traite une centaine de pages de l'heure, il est même pas envisageable de vérifier chiffre à chiffre avec le papier original sous la main. On fait confiance en la machine.
La bonne nouvelle, c'est que le cœur de métier de mon employeur est l'archivage physique. Nous pouvons stocker les papiers de nos clients. Ils sont donc toujours disponibles pour la vérification. Sauf si des clients considèrent ces m³ de papiers comme une source alternative de chauffage en hiver, ce que je conçois tout à fait en cette période de crise.

On a plusieurs facteurs aggravants.

  • Le premier étant que le souci ne se manifeste que sur des solutions professionnelles, des scanners qui pondent directement le fichier en PDF sans passer par la case PC, au prix là aussi parfaitement professionnel.
  • Le deuxième souci de Xerox, c'est que les mises à jour successives de la bibliothèque “fautive” (rappelons qu'elle fait exactement ce qu'on lui demande, c'est l'usage qui convient mal et surtout son paramétrage) n'ont pas corrigé ce comportement aberrant.
  • Et je doute que beaucoup d'entreprises imaginent que les gros document centers doivent être régulièrement mis à jours. Donc même quand le correctif sera publié, je pense qu'on aura un sacré Xerox parc qui continuera à pondre des gigas de scans faussés.

Les papiers s'envolent, les scans restent

On croyait maîtriser la numérisation du papier depuis 30 ans, il va encore falloir redoubler de vigilance sur les briques utilisées dans les logiciels AVANT la partie purement interprétative. Et là, mes amis experts judiciaires vont devoir développer une expertise assez pousée dans le domaine de l'expertise d'image et de l'algorithme de compression. Ou alors, demander le code source et les paramètres des logiciels embarqués dans ces scanners.

En attendant, cher ami lecteur, si ta banque scanne ton contrat et ne la garde qu'en version numérique, ne perds jamais le papier  !