Test grandeur nature : des IA comme ChatGPT surpassent Google Lens pour localiser des images sans métadonnées, mais révèlent aussi leurs limites.
Recevez les nouveaux articles DCOD directement sur Telegram.
🔔 S’abonner au canal DCODLes modèles de langage analysent des images pour les géolocaliser avec une précision croissante. Un test massif révèle des avancées, mais aussi leurs limites.
En 2023, les LLMs étaient encore incapables de localiser correctement des images sans métadonnées. En 2025, les modèles comme ChatGPT o4-mini ou Grok DeeperSearch font preuve d’une compétence impressionnante face à des scènes complexes et non publiées en ligne. Une équipe de chercheurs a mis à l’épreuve 20 modèles IA, issus de cinq grandes entreprises (OpenAI, Google, Anthropic, Mistral et xAI), sur 25 photos inédites prises aux quatre coins du monde.
Des modèles mis au défi sur 25 images uniques
Chaque modèle a reçu les mêmes images d’environnements urbains ou naturels, sans contexte ni données exif, accompagnées de la simple question : « Où cette photo a-t-elle été prise ? ». L’objectif ? Comparer leurs performances à celles de Google Lens. Les scènes variaient entre rues denses, plages isolées et paysages alpins.
ChatGPT o3, o4-mini et o4-mini-high se sont distingués en surpassant Google Lens dans plusieurs cas. Par exemple, face à une route enneigée au Japon, ChatGPT a identifié la région de Nagano/Toyama en s’appuyant sur des indices subtils (kanji, barrières de sécurité). À l’inverse, Gemini a fourni une réponse vague, mentionnant plusieurs continents.
Des scènes sans indice décodées par l’IA
Un champ suisse sans repère apparent a permis à ChatGPT o4-mini-high de proposer une localisation entre Zurich et le Jura, contre une erreur manifeste de Grok qui, influencé par le nom de l’utilisateur, a conclu à une photo prise aux Pays-Bas. Cette capacité à extraire des signaux faibles – reliefs, architecture, typographie – constitue l’atout majeur des LLMs.
Offrez un café pour soutenir cette veille indépendante.
☕ Je soutiens DCODAutre exemple frappant : une ruelle à Singapour, dont le décryptage de boîtes aux lettres a permis à certains modèles d’atteindre une précision exceptionnelle. ChatGPT a cité l’adresse visible sur une étiquette, tandis que Gemini confondait les écritures pour supposer un lieu en Thaïlande.
Des performances en dents de scie selon les modèles
Le test a aussi souligné les disparités entre versions. Claude Opus 4 ou Sonnet 3.7 d’Anthropic ont pêné à proposer des localisations précises, se limitant parfois à un continent. Grok s’est démarqué par un bon score dans certains cas, malgré ses tendances à l’hallucination. Seuls ChatGPT o4-mini-high et Grok DeeperSearch ont montré de réels gains avec leurs modes « recherche approfondie ».
Certaines versions dites « avancées » se sont même révélées plus prudentes, voire moins précises que leurs variantes de base. Claude Sonnet, en mode pensée étendue, a fréquemment refusé de répondre, préférant rester vague plutôt que de risquer une erreur.
Forces et limites des LLMs face à Google Lens
Les LLMs surpassent souvent Google Lens en milieu urbain ou lorsqu’ils disposent de textes à analyser. Leur capacité à combiner architecture, végétation, style de signalisation ou même objets partiels (comme un logo sur un gilet de sauvetage) leur permet des inférences détaillées.
Mais les hallucinations persistent, notamment sur les images éphémères ou modifiées récemment. Plusieurs modèles ont ainsi localisé une plage avec une grande roue temporaire sur un site plus populaire mais erroné. Les biais issus de l’historique utilisateur ou des données de profil sont aussi à surveiller.
Enfin, l’analyse vidéo reste hors de portée pour la plupart des modèles, tout comme la gestion précise des coordonnées GPS. Dans l’état actuel, ces IA ne sont pas infaillibles, mais leur rythme de progression annonce des usages prometteurs pour la recherche en sources ouvertes et les enquêtes OSINT.
Pour en savoir plus
Les LLM maîtrisent-ils enfin la géolocalisation ?
Une rue ambiguë, un champ fraîchement fauché et un véhicule blindé stationné figuraient parmi les photos d’exemple que nous avons choisies pour mettre au défi les grands modèles de langage (LLM) d’OpenAI, Google, Anthropic, Mistral et xAI de les géolocaliser. Retour en…
(Re)découvrez également:
Comment géolocaliser une équipe de programmation de missiles avec une photo
Voici encore un exemple de la puissance de renseignements rendue possible en combinant quelques photos
💡 Ne manquez plus l'essentiel
Recevez les analyses et tendances cybersécurité directement dans votre boîte mail.
Vous appréciez nos analyses ?
Soutenez DCOD en offrant un café ☕