OSINT

Outils et techniques

L’OSINT utilise un large éventail de techniques et d’outils pour collecter et analyser des informations. Dans ce qui suit, nous donnons une liste non exhaustive d’outils et de techniques permettant une bonne entrée en matière dans le domaine de l’OSINT. De nombreuses autres ressources sont disponibles sur le web.

Mis à jour le jeudi 17 octobre 2024

Quelques outils incontournables

Le terme "Google Dork" fait référence à une technique de requête de recherche particulière, utilisant des opérateurs avancés, y compris booléens [1], afin d’optimiser les résultats de Google. Ces requêtes permettent de rechercher des informations spécifiques difficilement accessibles via une recherche Google classique. Initialement, les "Google Dorks" étaient employés par les hackers pour trouver des failles de sécurité ou des informations sensibles laissées exposées publiquement sur le web. Il s’appuient sur une collection d’opérateurs pouvant être combinés entre eux afin de décupler la puissance de la recherche réduisant ainsi la durée d’accès aux informations pertinentes ciblées. Cette technique est souvent utilisée dans le cadre d’audits de sécurité afin de repérer puis corriger des failles de sécurité.

Mise en garde : dans tout ce qui suit, nous donnons des éléments de compréhension des "Google dorks" à des fins purement pédagogiques. N’utilisez pas ces techniques pour des activités illégales.

Les guillemets jouent un rôle crucial dans les requêtes de type "Google Dorks" car ils permettent de rechercher une phrase exacte ou une séquence spécifique de mots. Sans guillemets, Google interprète chaque mot de la requête indépendamment et peut retourner des résultats qui contiennent tout ou partie des mots, mais pas forcément dans l’ordre ou sans respecter la proximité les uns des autres.

Exemple de requête dans Google : "recette de gâteau au chocolat"

Sans les guillemets, Google pourrait retourner des résultats avec des pages contenant les mots "recette", "gâteau", et "chocolat" de manière séparée, ce qui pourrait inclure des résultats non pertinents (comme des recettes d’autres types de gâteaux ou des articles discutant de chocolat de manière générale). Les guillemets garantissent que vous obtiendrez des pages où la phrase complète apparaît dans cet ordre.

  • _ site :
    Cet opérateur permet de limiter les résultats à un site spécifique. Par exemple, site:nom_site.com retournera uniquement les pages indexées par Google de ce site.
  • filetype :
    Avec cet opérateur, vous pouvez chercher des fichiers d’un certain type. Par exemple, filetype:pdf retourne uniquement des fichiers PDF.
  • intitle :
    Cet opérateur recherche des pages où les mots clés spécifiés apparaissent dans le titre. Par exemple, intitle:login vous montrera des pages ayant "login" dans leur titre.
  • inurl :
    Similaire à l’opérateur précédent, inurl : permet de trouver des pages où un mot clé spécifique est dans l’URL. Par exemple, inurl:admin trouvera des pages avec "admin" dans leur adresse.
  • cache :
    Cet opérateur permet de voir une version en cache d’une page web, telle qu’elle a été stockée par Google.
  • allintext :
    Cet opérateur recherche les mots clés spécifiés dans le corps du texte des pages web. Par exemple, allintext:confidentiel montrera des pages contenant le mot "confidentiel".

  • Rechercher des fichiers spécifiques contenant des informations sensibles
filetype:xls OR filetype:csv "mot de passe" AND "utilisateur"

Cette requête cherche des fichiers Excel (filetype:xls) ou des fichiers CSV (filetype:csv) contenant les phrases exactes "mot de passe" et "utilisateur".
OR permet de trouver l’un ou l’autre des types de fichiers, tandis que AND garantit que les deux expressions exactes ("mot de passe" et "utilisateur") apparaissent dans le fichier.

  • Chercher des pages d’administrateurs sur un site spécifique :
site:nom_du_site.fr inurl:admin AND inurl:login

Cette requête recherche uniquement sur nom_du_site_.fr (site:nom_du_site.fr) les pages qui contiennent à la fois "admin" et "login" dans l’URL. Cela permet de localiser les pages administratives ou de connexion, souvent sensibles pour les systèmes de gestion.

  • Exclure certains résultats de recherche :
intitle :"index of" "backup" -mp3 -ogg

Cette requête recherche des pages ayant "index of" dans le titre et contenant le mot "backup", mais exclut les résultats contenant les fichiers mp3 et ogg.
Le - devant mp3 et ogg est un booléen utilisé pour exclure ces termes des résultats. Cela permet de trouver des répertoires de sauvegarde tout en filtrant les fichiers audio qui seraient autrement retournés.

  • Chercher des erreurs de configuration exposées dans des logs :
filetype:log "error" AND "access denied" OR "failed login"

Cette requête recherche des fichiers de type log (filetype:log) contenant les termes "error" et soit "access denied" ou "failed login".
Le OR est utilisé pour obtenir des résultats contenant l’un ou l’autre des termes après l’opérateur, tandis que AND assure que le mot "error" est présent.

  • Rechercher des informations de connexion sensibles dans des documents PDF :
filetype:pdf "configuration" AND "mot de passe" OR "password"

Cette requête recherche des documents PDF (filetype:pdf) contenant les mots "configuration" et soit "mot de passe" ou "password". Cette combinaison permet de trouver des manuels ou des documents de configuration exposant potentiellement des mots de passe.

La "Wayback Machine" est un service proposé par l’Internet Archive, une organisation à but non lucratif basée à San Francisco et dédiée à la préservation du patrimoine numérique. Lancée en 2001, la Wayback Machine permet aux utilisateurs du monde entier de consulter des versions archivées de sites web à différentes dates.

En offrant un accès à des archives web détaillées, ce site permet de mener des analyses approfondies et de récupérer des informations cruciales mêmes si celles-ci ont été supprimées ou modifiées.

Pour utiliser la "Wayback Machine", il suffit de saisir l’URL du site web que vous souhaitez consulter, de sélectionner une plage de dates, et de commencer à naviguer sur une version archivée du site. Vous pouvez également utiliser des méthodes de recherche avancées pour extraire des informations spécifiques, telles que des noms, des numéros de téléphone, des adresses e-mail, et même des métadonnées.

Vous trouverez ci-dessous quelques applications de cet outil.

  • Récupération de contenus supprimés
    Les cybercriminels peuvent tenter de dissimuler leurs traces numériques en supprimant des pages web compromettantes. La "Wayback Machine" permet de retrouver ces pages et de les analyser. Par exemple, si un site web a été modifié ou supprimé, vous pouvez utiliser la "Wayback Machine" pour accéder à une version antérieure et récupérer des informations ciblées par vos soins.
  • Analyse historique de sites web
    En étudiant l’évolution d’un site web, il est possible d’identifier par exemple des changements dans les politiques de sécurité, les structures organisationnelles, ou les affiliations. Cela peut aider à comprendre comment un site a évolué au fil du temps et à identifier des tendances ou des anomalies. Cela peut aussi être utile pour comprendre l’évolution d’une entreprise ou d’une organisation, ses anciens employés, ses anciens produits ou services, etc
  • Documentation et preuves
    Les versions archivées des sites peuvent servir de preuves dans des enquêtes légales ou des audits de sécurité. Par exemple, si vous devez prouver qu’une information était présente sur un site à un moment donné, la Wayback Machine peut fournir cette preuve.

Exemple concret :
Imaginons que vous souhaitiez enquêter, en tant que journaliste d’investigation, sur une entreprise qui a récemment supprimé une page web contenant des informations sur un produit controversé. En utilisant la Wayback Machine, vous pouvez accéder à une version archivée de cette page et récupérer les informations supprimées. Par exemple, vous découvrez que la page supprimée contenait des détails sur les composants du produit qui ont suscité des préoccupations de sécurité sanitaire. Grâce à ces informations, vous pouvez approfondir votre enquête et éventuellement découvrir des pratiques douteuses de l’entreprise.

Le site "SunCalc.org" est un puissant outil en ligne permettant de visualiser la position du soleil et la longueur des ombres à un moment donné et à un endroit précis. Cela peut être extrêmement utile pour la géolocalisation et la chronolocalisation des photos et des vidéos. Cet outil est particulièrement intéressant pour les journalistes d’investigation et les analystes OSINT qui cherchent à vérifier l’authenticité et l’origine des contenus visuels publiés en ligne.

Exemple concret :
Imaginons que vous enquêtiez sur une photo publiée en ligne sans métadonnées de localisation. En analysant les ombres et la position du soleil sur la photo, vous pouvez utiliser SunCalc.org pour déterminer l’heure et la date approximatives de la prise de vue. Par exemple, si vous savez que la photo a été prise à Paris, vous pouvez entrer cette information dans SunCalc.org et ajuster la date et l’heure jusqu’à ce que la position des ombres corresponde à celle de la photo. Cela peut vous aider à confirmer ou à réfuter des informations sur l’origine de la photo.

Le site "Forensically" est un ensemble d’outils gratuits d’analyse d’images numériques. Il permet notamment de mettre en évidence des photos ayant fait l’objet de montages.

Forensically permet également l’extraction de métadonnées, l’analyse de bruit, qui peuvent tous contribuer à vérifier l’authenticité d’une image et à découvrir des manipulations cachées.

Exemples concrets :
Imaginons que vous enquêtiez sur une photo suspectée d’avoir été manipulée. Vous pouvez utiliser Forensically pour effectuer une analyse de niveau d’erreur (ELA) sur l’image. Cette analyse permet de détecter les zones de l’image qui ont été modifiées en comparant les niveaux de compression des différentes parties de l’image. Les zones modifiées apparaîtront souvent plus sombres ou plus claires que les zones non modifiées.
Si vous avez une photo d’un document officiel et que vous soupçonnez que certaines informations ont été altérées, vous pouvez utiliser l’outil de détection de clones de Forensically pour identifier les zones de l’image qui ont été dupliquées ou modifiées. Cela peut révéler des manipulations telles que des ajouts ou des suppressions de textes.

Principales techniques

C’est l’une des techniques les plus couramment utilisées dans l’OSINT. Cependant, pour maximiser l’efficacité de la recherche, il faut souvent tirer parti des fonctionnalités avancées d’un moteur de recherche ou d’un opérateur de recherche particulier.

Suivre les activités, les publications et les interactions sur les plateformes de médias sociaux pour obtenir des renseignements sur des individus, des groupes ou des événements.

Permet d’examiner attentivement les sites Web, les blogs et les forums pour extraire des informations telles que les contacts, les affiliations, les adresses IP et les vulnérabilités potentielles.

Des outils spécialisés permettent d’extraire des métadonnées, des informations de localisation ou d’autres détails cachés dans les images et les vidéos.

Identifier les noms de domaine, les adresses IP et les enregistrements WHOIS [2] pour comprendre la structure et les propriétaires d’une infrastructure en ligne.

Explorer les bases de données publiques, les registres gouvernementaux, les archives en ligne et d’autres sources d’informations accessibles au public.

[1Les opérateurs booléens sont des opérateurs logiques. Les plus courants sont AND (ET), qui spécifie une combinaison de conditions (A et B doivent être vrais) ; OR (OU), qui spécifie une liste de conditions alternatives (A ou B doivent être vrais) ; NOT (PAS), qui nie une condition (A doit être vrai, mais pas B) ; et XOR (OU EXCLUSIF), qui rend les conditions mutuellement exclusives (A ou B peuvent être vrais, mais pas A et B).

[2Whois est un service de recherche fourni par les registres Internet, par exemple les Registres Internet régionaux ou bien les registres de noms de domaine permettant d’obtenir des informations sur une adresse IP ou un nom de domaine.

Dans la même rubrique

Article rédigé par David Latouche, Maëva Robison