Initié depuis une vingtaine d'années, nous sommes dans un mouvement de transition entre le document papier et le numérique. Le passage le plus délicat est de transformer un original papier en document numérique à valeur probante.
Valeur probante
signifie qu'en plus des qualités intrinsèques du numérique (lisibilité, accessibilité, portabilité, copiage…), ledit document peut être une preuve juridique susceptible d'avoir autant de valeur que sa contrepartie papier. Bon, évidemment, tous mes copains hackers doivent se pisser dessus de rire en entendant ce… concept car ils savent qu'il est infiniment plus facile de contrefaire ou de corrompre un élément virtuel que son équivalent matériel.
Une entreprise utilise justement des scanners industriels et des copieurs Xerox WorkCentre Line pour numériser l'ensemble de ses documents. Cela va de plans, de devis, de factures, etc…
D. Kriesel, une des personnes qui s'en sert depuis des années a découvert un comportement totalement aberrant : La fonction numérisation échange parfois les chiffres !
[:totoz] !
comme on dit dans les milieux spécialisés
Attention : On ne parle pas d'une fonction interprétative comme l'OCR, non non non non, c'est la fonction scanner, qui est techniquement une photo à plat d'un document papier, qui introduit ces erreurs ! Dans certains cas, notamment de dimension de texte et de résolution de scan, le fichier PDF généré directement par l'appareil contient les images du scans, où des 8
apparaissent en lieue et place de 6
.
Démonstration :
L'original | La version scannée |
---|---|
Du peu que nous savons actuellement, cela est dû au format d'image qui est enregistré dans le container PDF, compressé par l'algorithme JBIG2. Ce format de compression est lossy, traduisez à pertes
, comme le JPEG dont j'ai déjà causé. En plus d'une compression par approximation de macroblocs, il peut aussi juger de la similarité entre différentes parties de document, et faire des “alias” de zones géométriques. C'est l'intérêt de ce format, de parfaitement travailler avec du texte imprimé, et donc répéter le même glyphe en ne le détaillant qu'une fois. C'est là que justement se cause le souci puisque les paramètres choisis par Xerox font que cet algorithme considère les 6
et les 8
comme suffisamment semblables pour estimer que la confusion des deux ne posera pas de problème.
du tout du tout du tout…
Et tant pis si ça va causer des devis incorrects, des métrés pas d'équerre ou des dosages médicamenteux dangereux. Du moins pour l'algo, car évidemment, il restera à établir les responsabilités juridiques en cas de pépin.
L'argument Abagnale
Frank Abagnale est le spécialiste de la contrefaçon d'identité. C'est lui qui fafricait de faux chèques de paie de compagnies aériennes. Son histoire a été librement adapté sur grand écran dans le film « Attrape-moi si tu peux », sa personne incarnée par Léonardo Di Caprio s'il vous plaît. Depuis, il est devenu consultant pour le FBI et les banques. Et il le dit à longueur de conférences (hilarantes, je vous les recommande très chaudement) : Si vous numérisez mon chèque et qu'après vous le détruisez, vous ne pourrez jamais prouver que je vous ai refourgué un faux.
Et là,… Attrape-moi, si tu peux !
À fond la Caisse !
…plus exactement la Caisse des Dépôts et Consignations, dont une filiale opère un datacenter uniquement dédié à la prestation de coffre-fort électronique. Apparemment, l'intention derrière, en plus d'abriter les pièces numériques et à valeur probante des banques et de grandes entreprises clientes, est d'être le garant de toute pièce administrative de l'État : chaque citoyen ou entité morale de citoyenneté Française passera par leur interface pour consulter toutes les pièces administratives qui le concerne.
Pour l'instant, cela n'a pas encore été mis en place, mais ça semble inscrit dans la stratégie de simplification de l'État
chapitre téléprocédures
, faut juste bien rédiger le cahier des charges pour que vous-savez-qui emporte ce contrat. En tout cas, si c'est pas le cas, ça semble tellement taillé pour qu'ils s'en sont même vantés sur BFM Business la semaine dernière. Arrêtez de pouffer aussi fort au fond, c'est pas si drôle.
En attendant que légalement la situation se débloque pour eux, il sera bon de savoir quelle sera la possibilité de contestation sur ces pièces administratives numérisées si leur scanner fait des siennes.
Et surtout, comment le prouver.
L'os, c'est quand le scanner vous ment
Honnêtement, des erreurs de scans dans la BD, j'en ai rarement vu. En général, chaque page de l'album est revérifié en PAO, et ensuite validé par l'auteur pour le Bon-À-Tirer. Sauf que l'on parle de documents administratifs, qui sont souvent scannés en noir & blanc et compressé par le même engin, dans une résolution moins importante. Et le volume traité se mesure en mètres linéaires.
Chez Simtie, mon employeur actuel (désolé pour la pub), nous avons d'énormes de gros scanners industriels, que des techniciens apportent chez nos clients et utilisent sur site. Même si cette opération se fait en général sur des dossiers qui sont bouclés et terminés, mon employeur utilise des scanners d'une autre marque, mais on ne sait jamais. Nous avons aussi une équipe qui vérifie le contenu des dossiers qui sont numérisés. C'est-à-dire que pour un dossier du type XYZ, on vérifie que les pièces X, Y et Z sont présentes. Honnêtement, quand on traite une centaine de pages de l'heure, il est même pas envisageable de vérifier chiffre à chiffre avec le papier original sous la main. On fait confiance en la machine.
La bonne nouvelle, c'est que le cœur de métier de mon employeur est l'archivage physique. Nous pouvons stocker les papiers de nos clients. Ils sont donc toujours disponibles pour la vérification. Sauf si des clients considèrent ces m³ de papiers comme une source alternative de chauffage en hiver, ce que je conçois tout à fait en cette période de crise.
On a plusieurs facteurs aggravants.
- Le premier étant que le souci ne se manifeste que sur des solutions professionnelles, des scanners qui pondent directement le fichier en PDF sans passer par la case PC, au prix là aussi parfaitement professionnel.
- Le deuxième souci de Xerox, c'est que les mises à jour successives de la bibliothèque “fautive” (rappelons qu'elle fait exactement ce qu'on lui demande, c'est l'usage qui convient mal et surtout son paramétrage) n'ont pas corrigé ce comportement aberrant.
- Et je doute que beaucoup d'entreprises imaginent que les gros
document centers
doivent être régulièrement mis à jours. Donc même quand le correctif sera publié, je pense qu'on aura un sacréXeroxparc qui continuera à pondre des gigas de scans faussés.
Les papiers s'envolent, les scans restent
On croyait maîtriser la numérisation du papier depuis 30 ans, il va encore falloir redoubler de vigilance sur les briques utilisées dans les logiciels AVANT la partie purement interprétative. Et là, mes amis experts judiciaires vont devoir développer une expertise assez pousée dans le domaine de l'expertise d'image et de l'algorithme de compression. Ou alors, demander le code source et les paramètres des logiciels embarqués dans ces scanners.
En attendant, cher ami lecteur, si ta banque scanne ton contrat et ne la garde qu'en version numérique, ne perds jamais le papier !
5 réactions
1 De BlakkOlifant - 06/08/2013, 20:54
une petite coquille : ...C'est lui qui fa..f..ricait de faux chèques...
2 De Da Scritch - 06/08/2013, 22:17
Non, c'est voulu : c'est un gag récurent de mon blog avec
, , , …3 De Da Scritch - 07/08/2013, 21:33
Dans un communiqué officiel, la firme Ranx Xerox reconnait le problème. La recommandation principale est de mettre le paramètre de qualité d'image au plus haut niveau, au détriment du volume du document. Désormais, l'interface web de ses appareils (si mis à jour) indiquera que la réduction de qualité peut entraîner des soucis de substitutions d'erreurs.
Si le mot de Francis Tse, l'ingénieur en chef de Xerox, reconnait déjà le problème, et le “corrige” en rappelant la responsabilité client, j'aimerais quand même rappeler que le PDF est un containeur de document qui peut accepter d'autres formats de compressions d'images rasters moins lossy dans le sens qu'il ne travaille pas par substitutions comme le Jpeg, le Jpeg monochrome, le Jpeg2000 ou carrément lossless comme le Tiff ou le Png.
Évidemment, la taille du document peut être multiplié par 10, mais au moins le Pdf pourrait être mieux considéré comme sincère.
4 De Patricia Abbas pour Xerox - 12/08/2013, 18:00
Nous avons pris en considération tous les commentaires, tweets et retours au sujet de la substitution de caractère dans des documents numérisés et Xerox continue à travailler sur le développement d'un patch logiciel.
Dans son dernier post http://xrx.sm/nad Rick Dastin, Corporate Vice President and President, Office and Solutions Business Group, fournit de nouvelles informations à ce sujet.
5 De Patricia Abbas pour Xerox - 28/08/2013, 10:08
Nous avons annoncé la disponibilité des premiers patches http://www.xerox.fr/information-sec...
Ils sont téléchargeables ainsi que d'autres documents utiles à l'adresse suivante : http://www.xerox.fr/bureau/scanning...