Conformer-2 est un outil avancé de reconnaissance vocale qui améliore la précision et la rapidité de la transcription tout en gérant sans effort des conditions audio difficiles.
Conformer-2 s'appuie sur le succès de son prédécesseur, Conformer-1, en incorporant des améliorations significatives qui l'aident à mieux décoder les noms propres, les termes alphanumériques et à performer exceptionnellement bien même dans des environnements bruyants. Cette mise à niveau provient d'un entraînement approfondi sur une vaste collection de données audio en anglais, garantissant qu'il peut comprendre la parole dans une variété de contextes.
L'un des principaux avantages de Conformer-2 est qu'il n'augmente pas le taux d'erreur de mots par rapport à Conformer-1, tout en offrant des métriques améliorées adaptées aux besoins des utilisateurs. Cela signifie que, tout en s'améliorant dans la reconnaissance de la parole, il maintient toujours un niveau élevé de précision. Pour y parvenir, l'équipe de développement de Conformer-2 s'est concentrée sur l'expansion de la quantité de données d'entraînement et l'utilisation de plus de pseudo-étiquettes, contribuant à renforcer la performance du modèle.
De plus, les ajustements apportés au pipeline d'inférence ont considérablement réduit le temps nécessaire à Conformer-2 pour traiter l'audio, le rendant globalement plus rapide que son prédécesseur. C'est une amélioration cruciale car elle permet aux utilisateurs de recevoir des réponses plus rapidement, un avantage majeur dans les applications en temps réel.
Un aspect innovant de Conformer-2 est sa méthode d'entraînement qui utilise l'assemblage de modèles. Au lieu de s'appuyer sur une seule source pour l'étiquetage, ce modèle puise dans plusieurs sources ou "enseignants". Cette approche crée un modèle plus flexible et résilient en réduisant l'impact des lacunes d'un modèle particulier.
Les créateurs de Conformer-2 ont également prêté une attention particulière à l'échelle des données et des paramètres du modèle, rendant le modèle plus grand et augmentant la variété des audios d'entraînement utilisés. Ce faisant, ils ont exploité le potentiel inexploité suggéré par la recherche 'Chinchilla' pour les grands modèles de langage, permettant à Conformer-2 de fonctionner plus efficacement et rapidement, brisant le stéréotype selon lequel les modèles plus grands sont toujours plus lents et plus coûteux.
∞