Une image est un code, un code est une image…

Bonsoir ! Je viens de lire sur l’Atelier que le MIT développe un système qui extrait le code qualifiant les objets figurant sur une photo. En deux mot, le but serait de tagger automatiquement les images sur le web.

Bref je vous laisse lire tout ça avec mon avis à la fin :

Pour un logiciel, identifier une image sur Internet n’est pas une question de résolution ni de reconnaissance des objets et des formes. Tout est question de chiffres. Voilà la thèse défendue par une équipe du MIT, qui développe un système permettant de détecter quelle représentation numérique – c’est-à-dire quelle est la suite de bytes – qui correspond à une image. Ce, afin de réutiliser ensuite ce code pour qualifier automatiquement d’autres images. But de la manoeuvre : tagger automatiquement les millions d’images en circulation sur le Web. Et donc rendre plus performantes les solutions de recherche. “Nous essayons de trouver de très brefs codes pour chaque image”, explique Antonio Torralba, du laboratoire d’Intelligence Artificielle et de Sciences informatiques au MIT. “Si deux photos ont une séquence de nombres similaire, cela veut certainement dire qu’elles sont composées plus ou moins du même objet (voiture, arbre) ou de la même personne”.

Reconnaissance du contexte

Le nom associé à une image peut dès lors être appliqué à l’autre. Les solutions actuelles doivent se contenter des images légendées par leurs propriétaires. D’autres systèmes, comme celui développé par l’université de San Diego, détectent les différents éléments d’une image selon le contexte. La solution du MIT reprend cette notion : il souhaite rendre le logiciel capable de reconnaître un objet ou une scène selon le contexte, même si la qualité de la photographie est mauvaise. Les chercheurs ont ainsi mis au point un système informatique qui réduit le nombre de bits de données des photos à leur disposition. Une fois la manipulation effectuée, le logiciel a néanmoins été capable de reconnaître les objets qui lui étaient présentés quand ceux-ci étaient codés dans 256 et 1024 bits de données. Une représentation qui correspond à une image floue mais qui reste reconnaissable par un oeil humain, parce qu’il en comprend le sens général.

Une fiabilité partielle

En utilisant l’ensemble des codes représentant un objet ou une scène, les scientifiques ont ainsi été capables de reconnaître et légender près de treize millions d’images en circulation sur le web. Le tout, avec un ordinateur de base : le volume total des codes stockés dans la carte mémoire n’excédant pas 600 Mo. Reste que pour le moment, seuls les objets simples ont été codés et peuvent être reconnus par le système, comme des voitures, des fleurs ou des bâtiments. De nombreuses améliorations doivent encore être amenées. Mais selon Antonio Torralba, la perfection en la matière n’existe pas. Le chercheur, qui établit une comparaison avec le langage, rappelle que même une personne maîtrisant parfaitement une langue découvrira toujours de nouveaux mots.

Ce logiciel comprendrait le contexte… Et je dis bien “comprendrait” ! Ca me laisse encore un peu perplexe bien que j’ai déjà vu des logiciels automatisés qui savent reconnaitre les images pornographiques (“plein de couleurs chaires”, “des formes” spécifiques”, etc…). Je me demande le temps d’apprentissage de tels logiciels et leur taux de défaillance… L’utilisation serait immense évidemment..

Au fait.. Côté reconnaissance de forme, je vous laisse tester l’impressionant Retrievr !

via

Ces articles peuvent vous intéresser

Partager

Laisser un commentaire Annuler la réponse