Les LLMs surpassent-ils Google Lens en géolocalisation visuelle ?

Test grandeur nature : des IA comme ChatGPT surpassent Google Lens pour localiser des images sans métadonnées, mais révèlent aussi leurs limites.

Les modèles de langage analysent des images pour les géolocaliser avec une précision croissante. Un test massif révèle des avancées, mais aussi leurs limites.

En 2023, les LLMs étaient encore incapables de localiser correctement des images sans métadonnées. En 2025, les modèles comme ChatGPT o4-mini ou Grok DeeperSearch font preuve d’une compétence impressionnante face à des scènes complexes et non publiées en ligne. Une équipe de chercheurs a mis à l’épreuve 20 modèles IA, issus de cinq grandes entreprises (OpenAI, Google, Anthropic, Mistral et xAI), sur 25 photos inédites prises aux quatre coins du monde.

Des modèles mis au défi sur 25 images uniques

Chaque modèle a reçu les mêmes images d’environnements urbains ou naturels, sans contexte ni données exif, accompagnées de la simple question : « Où cette photo a-t-elle été prise ? ». L’objectif ? Comparer leurs performances à celles de Google Lens. Les scènes variaient entre rues denses, plages isolées et paysages alpins.

L'essentiel Cybersécurité, IA & Tech

Rejoignez la communauté. 3 fois par semaine, recevez l'analyse des tendances par Marc Barbezat. Pas de spam, juste de l'info.

Ou suivez le flux temps réel

ChatGPT o3, o4-mini et o4-mini-high se sont distingués en surpassant Google Lens dans plusieurs cas. Par exemple, face à une route enneigée au Japon, ChatGPT a identifié la région de Nagano/Toyama en s’appuyant sur des indices subtils (kanji, barrières de sécurité). À l’inverse, Gemini a fourni une réponse vague, mentionnant plusieurs continents.

Des scènes sans indice décodées par l’IA

Un champ suisse sans repère apparent a permis à ChatGPT o4-mini-high de proposer une localisation entre Zurich et le Jura, contre une erreur manifeste de Grok qui, influencé par le nom de l’utilisateur, a conclu à une photo prise aux Pays-Bas. Cette capacité à extraire des signaux faibles – reliefs, architecture, typographie – constitue l’atout majeur des LLMs.

Autre exemple frappant : une ruelle à Singapour, dont le décryptage de boîtes aux lettres a permis à certains modèles d’atteindre une précision exceptionnelle. ChatGPT a cité l’adresse visible sur une étiquette, tandis que Gemini confondait les écritures pour supposer un lieu en Thaïlande.

Des performances en dents de scie selon les modèles

Le test a aussi souligné les disparités entre versions. Claude Opus 4 ou Sonnet 3.7 d’Anthropic ont pêné à proposer des localisations précises, se limitant parfois à un continent. Grok s’est démarqué par un bon score dans certains cas, malgré ses tendances à l’hallucination. Seuls ChatGPT o4-mini-high et Grok DeeperSearch ont montré de réels gains avec leurs modes « recherche approfondie ».

Certaines versions dites « avancées » se sont même révélées plus prudentes, voire moins précises que leurs variantes de base. Claude Sonnet, en mode pensée étendue, a fréquemment refusé de répondre, préférant rester vague plutôt que de risquer une erreur.

Forces et limites des LLMs face à Google Lens

Les LLMs surpassent souvent Google Lens en milieu urbain ou lorsqu’ils disposent de textes à analyser. Leur capacité à combiner architecture, végétation, style de signalisation ou même objets partiels (comme un logo sur un gilet de sauvetage) leur permet des inférences détaillées.

Mais les hallucinations persistent, notamment sur les images éphémères ou modifiées récemment. Plusieurs modèles ont ainsi localisé une plage avec une grande roue temporaire sur un site plus populaire mais erroné. Les biais issus de l’historique utilisateur ou des données de profil sont aussi à surveiller.

Enfin, l’analyse vidéo reste hors de portée pour la plupart des modèles, tout comme la gestion précise des coordonnées GPS. Dans l’état actuel, ces IA ne sont pas infaillibles, mais leur rythme de progression annonce des usages prometteurs pour la recherche en sources ouvertes et les enquêtes OSINT.

Pour en savoir plus

Les LLM maîtrisent-ils enfin la géolocalisation ?

Une rue ambiguë, un champ fraîchement fauché et un véhicule blindé stationné figuraient parmi les photos d’exemple que nous avons choisies pour mettre au défi les grands modèles de langage (LLM) d’OpenAI, Google, Anthropic, Mistral et xAI de les géolocaliser. Retour en…

Lire la suite sur bellingcat

Les LLM maîtrisent-ils enfin la géolocalisation ?

(Re)découvrez également:

Comment géolocaliser une équipe de programmation de missiles avec une photo

Voici encore un exemple de la puissance de renseignements rendue possible en combinant quelques photos

Lire la suite sur dcod.ch

Comment géolocaliser une équipe de programmation de missiles avec une photo

Des serveurs, des API et du temps.
DCOD est bénévole, mais l'hébergement a un coût. Participez aux frais techniques.

☕ Je soutiens DCOD

Navigation

Les derniers articles

Deux pirates présumés liés à Salt Typhoon formés chez Cisco

ChatGPT, Grok et Google détournés pour infecter des Mac

Les dernières actus des cybercriminels – 19 déc 2025

Assurance cyber : l’IA agentique change la souscription

Suivez en direct

Les LLMs surpassent-ils Google Lens en géolocalisation visuelle ?

Test grandeur nature : des IA comme ChatGPT surpassent Google Lens pour localiser des images sans métadonnées, mais révèlent aussi leurs limites.