Accueil Enquête Banques – Affaire FinCEN Files : de SQL et Python à Neo4j...

Banques – Affaire FinCEN Files : de SQL et Python à Neo4j pour analyser et explorer les données

Modèle de graphe Neo4j.png

Dimanche 20 septembre, le Consortium International de Journalistes d’Investigation (ICIJ) a dévoilé les résultats des FinCEN Files, une enquête menée par plus de 400 journalistes à travers le monde et qui révèle le rôle des banques mondiales dans le blanchiment d’argent et la fraude fiscale à l’échelle industrielle.

En collaboration avecle media américain BuzzFeed News, dépositaire des documents. et 108 autres partenaires médias dans 88 pays, l’ICIJ a passé 16 mois à organiser et analyser les documents collectés, connus sous le nom de fichiers FinCEN, qui comprennent plus de 2 100 rapports d’activité suspecte (suspicious activity reports ou SAR), déposés par des banques et d’autres sociétés financières du monde entier auprès des services de la police financière du Trésor américain, FinCen.

« Les banques traitaient régulièrement des transactions sans connaître la source ou la destination finale de l’argent (…). L’analyse a également révélé des décalages entre le moment d’une transaction suspecte et le dépôt d’un rapport par les banques.« , peut-on lire sur le site de l’ICIJ. Cette enquête a permis de révéler 2 000 milliards de dollars de fonds/transactions douteux, sur la période allant de 1999 à 2017 selon l’ICIJ. À titre de comparaison, à ce jour, les Panama Papers ont révélé 2 milliards de dollars d’évasion fiscale douteuse entre 1970 et 2016.

Les outils techniques mis en œuvre

ICIJ indique avoir partagé les enregistrements avec ses partenaires sur sa plateforme de partage et de recherche sur mesure, Datashare, développée par son équipe technique. Le consortium et ses partenaires ont analysé les données à l’aide d’analyses statistiques et textuelles. ICIJ a également créé un outil de vérification des faits sur mesure pour traiter les données extraites et déployé l’apprentissage automatique pour examiner plus de 60 000 adresses qui faisaient partie des données. 
L’ICIJ a effectué une analyse textuelle en utilisant les langages de programmation SQL et Python pour identifier les phrases dans les récits qui pourraient indiquer la présence d’une société écran ou dont la banque ne connaissait pas le réel propriétaire. Le consortium a aussi construit son propre outil de vérification des faits en utilisant le framework Web Django.
Le projet a également largement utilisé le Global iHub de l’ICIJ et des conférences téléphoniques sécurisées pour coordonner cette entreprise complexe.
Enfin, l’ICIJ a utilisé la base de données de graphes Neo4j et l’outil de visualisation de son partenaire Linkurious, pour visualiser et explorer les 400 feuilles de calcul des FinCEN Files contenant des données sur 100 000 transactions. Avec Neo4j, l’ICIJ a pu construire un graphe de connaissances qui a rassemblé les fichiers hétérogènes et disparates pour identifier les relations entre les données – en l’occurrence les sociétés écrans, les réseaux de blanchiment d’argent, les mandataires – au sein de ce système. 

Juliette Paoli