speechbrain header
relaod

Téléchargé 2 millions de fois

Happy Person OVHcloud

Contributions de 140 développeurs

receipt2x

Sorti sous licence Apache, version 2.0

Le contexte

SpeechBrain est une boîte à outils open source conçue pour rendre l'intelligence artificielle conversationnelle accessible à tous. Créé par les chercheurs Dr. Mirco Ravanelli et Dr. Titouan Parcollet, SpeechBrain aide au développement de technologies de traitement de la parole, comme la reconnaissance vocale, la synthèse vocale et la compréhension du langage parlé. Son but est de créer des machines capables, tout comme le ferait le cerveau humain, de comprendre naturellement la parole, le contenu d'une conversation et les émotions transmises, afin de mener des échanges engageants.

Fig. 1
Fig. 1. Le concept derrière SpeechBrain : l'objectif est de créer différentes technologies capables d'imiter les capacités de communication du cerveau.

SpeechBrain est actuellement l'une des boîtes à outils de traitement de la parole open source les plus populaires, offrant une plateforme flexible et complète à une communauté internationale de chercheurs, de développeurs et de sponsors.

Le défi

Pour développer la dernière version de SpeechBrain (SpeechBrain 1.0), l'équipe a intégré des technologies avancées d'apprentissage automatique, comme l'apprentissage auto-supervisé et continu, les modèles de langage à grande échelle, les algorithmes de recherche de faisceau et les réseaux neuronaux interprétables. Ces technologies sont complexes et nécessitent une puissance de calcul très élevée. Le principal défi de la sortie de SpeechBrain 1.0 a donc été de trouver des ressources de calcul appropriées pour suivre le rythme de la technologie de pointe, qui nécessite des modèles et des ensembles de données de plus en plus grands.

Par exemple, l'équipe a mis en place l'apprentissage continu, une méthode qui permet à un réseau neuronal de s'améliorer et de s'adapter en continu, en apprenant de nouvelles informations sans oublier les anciennes. SpeechBrain a également ajouté des outils permettant d'utiliser et d'affiner facilement de grands modèles de langage (LLM) pour créer des chatbots. L’entreprise a également mis en œuvre des algorithmes sophistiqués pour la recherche de faisceaux, une méthode utilisée dans la reconnaissance vocale pour trouver la séquence de mots la plus probable en considérant de multiples possibilités à chaque étape. Tout cela a considérablement amélioré les performances de leurs reconnaissance vocale. Dans cette optique, SpeechBrain a développé des détecteurs de parole pouvant fonctionner en temps réel, en traitant les mots prononcés au fur et à mesure de leur prononciation, les rendant ainsi plus rapides et plus réactifs. Les réseaux neuronaux fonctionnent souvent comme des boîtes noires, ce qui signifie que leur fonctionnement interne peut s’avérer difficilement compréhensible. Pour atténuer ce problème, SpeechBrain a mis en œuvre plusieurs méthodes pour rendre les réseaux neuronaux plus interprétables, augmentant ainsi leur capacité à être compréhensibles et transparents dans leur façon de prendre des décisions. Enfin, l'équipe a implémenté des modèles de diffusion, des techniques avancées permettant de générer de l'audio de haute qualité en le raffinant progressivement.

Pour accomplir ces tâches exigeantes, SpeechBrain avait besoin d'une plateforme cloud évolutive capable de prendre en charge de grands modèles d'IA entraînés à traiter des quantités croissantes de données. Son objectif étant de démocratiser l'IA conversationnelle, SpeechBrain a également souhaité trouver un partenaire en phase avec ses valeurs d'ouverture et de transparence, ainsi qu'avec les principes open source de portabilité, d'interopérabilité et de réversibilité.

La solution

Grâce à son engagement envers la transparence et ses solutions cloud basées sur des technologies open source, OVHcloud s'est révélé être le partenaire idéal pour SpeechBrain. SpeechBrain utilise les instances GPU NVIDIA et la solution AI Training, toutes deux hébergées sur la plateforme Public Cloud d’OVHcloud.

Les GPU (Graphic Processing Units) sont des puces informatiques intégrées dans les serveurs, capables de traiter de vastes ensembles de données et d'effectuer des calculs mathématiques à grande vitesse. C’est pourquoi ils sont utilisés par les développeurs d’IA et les data scientists pour créer et exécuter des modèles d’entraînement en intelligence artificielle. Les GPU NVIDIA sont considérés comme parmi les plus rapides au monde, et SpeechBrain a adopté les GPU NVIDIA Tesla V100, NVIDIA Tensor Core A100, et NVIDIA Tensor Core H100 pour répondre à ses besoins spécifiques en matière d'entraînement de l'IA. Ces GPU sont entièrement virtuels et disponibles en tant qu'instances sur le Public Cloud d'OVHcloud, éliminant ainsi le besoin d'investir dans du matériel physique.

Le GPU Tesla V100 est extrêmement puissant, équivalent à 100 CPU. Il permet d'exécuter des calculs d'IA jusqu'à 30 fois plus rapidement et peut traiter des données 47 fois plus vite qu'un seul processeur, réduisant ainsi le temps nécessaire pour entraîner les modèles d'IA, passant de plusieurs semaines à seulement quelques jours. Ces vitesses élevées ont permis à SpeechBrain d’améliorer l’efficacité de son entraînement et d’accélérer sa mise sur le marché.

Le processeur graphique Tensor Core A100 a fourni des performances supplémentaires, avec des vitesses d'entraînement de l'IA jusqu'à 3 fois plus élevées sur les plus grands modèles. Il permet à plusieurs réseaux de fonctionner sur un seul GPU en même temps et peut également être partitionné en plusieurs instances pour faire face à des demandes dynamiques. L'A100 offre également une capacité de mémoire accrue et une inférence IA 249 fois plus élevée sur les CPU, ce qui en fait l'ordinateur idéal pour exécuter les modèles de reconnaissance vocale à grande échelle de SpeechBrain.

Pour résoudre ses calculs les plus complexes, SpeechBrain a également adopté le processeur graphique Tensor Core H100, qui accélère par 30 fois l'entraînement des grands modèles de langage et comprend un Transformer Engine pour résoudre des modèles de mille milliards de paramètres. Ces capacités ont fourni la puissance et la vitesse nécessaires pour entraîner facilement les modèles complexes de SpeechBrain.

Enfin, pour effectuer ses tâches de formation, l’entreprise a tiré parti de la solution AI Training d'OVHcloud. Hébergé sur le Public Cloud et construit sur la plateforme open source Kubernetes, cet outil permet de lancer une tâche de formation en quelques secondes seulement et est compatible avec les bibliothèques de machine learning open source telles que PyTorch, TensorFlow et Scikit-learn. Les développeurs peuvent également démarrer leurs projets en utilisant des notebooks Jupyter préconfigurés et des images Docker pré-installées. AI Training optimise aussi l'allocation des ressources GPU et permet d'exécuter plusieurs tâches en parallèle, offrant ainsi aux développeurs la possibilité de se concentrer sur l'entraînement de leurs modèles d'IA sans se soucier des tâches d'ingénierie complexes.

Le résultat

Le partenariat avec OVHcloud a fourni à SpeechBrain la vitesse, la performance et les outils nécessaires pour développer ses modèles d'entraînement en intelligence artificielle conversationnelle à grande échelle.

L'utilisation des GPU NVIDIA et de la solution AI Training a permis à SpeechBrain de former ses modèles d'IA plus rapidement, même avec des volumes de données croissants. Hébergées sur le Public Cloud d'OVHcloud, ces solutions offrent une infrastructure fiable et flexible, avec un engagement de niveau de service (Accord de niveau de service (SLA)) de 99,99 %. Et ce, grâce à une architecture répartie sur plusieurs datacenters pour assurer une haute disponibilité. Cela a notamment permis aux GPU de SpeechBrain d’être accessibles quand ils en avaient besoin. Le Public Cloud offre également un suivi transparent des prix et des coûts via l'espace client OVHcloud, ce qui permet à SpeechBrain de contrôler son budget efficacement.

Avec des solutions reposant sur des licences open source et en tant que membre de longue date de l’Open Invention Network (OIN), le choix d’OVHcloud comme partenaire s’est également inscrit dans les valeurs d’ouverture et de transparence de SpeechBrain. Les deux entreprises prévoient de continuer à collaborer pour rendre l'IA conversationnelle plus accessible à un public plus large et soutenir l'innovation en matière d'IA dans le monde entier.

« Notre expérience la plus positive a été liée à la disponibilité des ressources de calcul, en particulier des GPU. Ces derniers étaient accessibles de manière constante, même lorsque nous avions besoin de plusieurs serveurs simultanément. De plus, nous apprécions particulièrement l'introduction des GPU H100, qui ont considérablement accéléré nos progrès. »
Dr Mirco Ravanelli, créateur de SpeechBrain

Ressources
Site web : https://speechbrain.github.io/
Dépôt de code : https://github.com/speechbrain/speechbrain
Quoi de neuf du côté de SpeechBrain : https://colab.research.google.com/drive/1IEPfKRuvJRSjoxu22GZhb3czfVHsAy0s?usp=sharing
SpeechBrain: A General-Purpose Speech Toolkit: https://arxiv.org/abs/2106.04624