Crédit Agricole analyse les conversations vocales de ses salles de marché

La banque d’investissement Crédit Agricole CIB déploie une solution d’analyse et de supervision automatisée au quotidien des conversations vocales de 500 traders et vendeurs dans ses salles de marché de Paris et Londres, en français et en anglais.

Solution de retranscription écrite des conversations

Ce déploiement pourra être étendu à terme à d’autres langues et aux salles de marchés américaines et asiatiques de la banque française. Pour cela, Crédit Agricole CIB a décidé de s’équiper d’une solution de retranscription écrite des conversations téléphoniques de ses salles de marché sous la pression de la réglementation MAD II / MAR du 3 juillet 2016, doublée de l’entrée en vigueur début 2018 de la réglementation MIFID II / MIFIR.

La retranscription cherche à optimiser les processus existants qui consistaient à réécouter les conversations vocales des traders et des vendeurs sur la base d’un échantillonnage aléatoire afin d’en vérifier la conformité. Cette activité, lorsqu’elle est menée de façon classique, reste très chronophage. La banque a retenu une solution de retranscription délivrée par la société Bertin IT après avoir effectué plusieurs POC (proof of concept).

Indexation et recherche dans les sources audio et vidéo

La solution convertit les pistes audio en transcriptions texte interrogeables, ce qui permet d’indexer, rechercher et analyser des sources audio et vidéo. La solution utilise une technologie d’intelligence artificielle, des réseaux de neurones profonds (Deep Learning) et vise une modélisation fine de l’espace acoustique et robuste face aux variabilités des intervenants selon leur débit de parole et leur accents et des conditions sonores, afin d’améliorer la transcription.

La solution a dû être adaptée aux données des salles de marché, où les traders utilisent un vocabulaire très spécifique, avec un mélange de français et d’anglais. Il a également fallu prendre en compte la très grande diversité des accents.

Une précision de 80% à 85%

Au final, la perception de transcription est de l’ordre de 80% à 85% pour un coût par utilisateur relativement raisonnable, indique-t-on du côté du projet. Quant aux volumes de conversations supervisées, ils ont été multipliés par 5 ; à terme, ce volume devrait augmenter significativement.