Conformer-2 es una herramienta avanzada de reconocimiento de voz que mejora la precisión y la velocidad de la transcripción mientras maneja condiciones de audio desafiantes sin problemas.
Conformer-2 se basa en el éxito de su predecesor, Conformer-1, al incorporar mejoras significativas que le ayudan a decodificar mejor los nombres propios, los términos alfanuméricos y a funcionar excepcionalmente bien incluso en entornos ruidosos. Esta actualización proviene de un extenso entrenamiento en una vasta colección de datos de audio en inglés, asegurando que pueda entender el habla en una variedad de contextos.
Uno de los beneficios clave de Conformer-2 es que no aumenta la tasa de error de palabras en comparación con Conformer-1, sin embargo, ofrece métricas mejoradas adaptadas a las necesidades del usuario. Esto significa que, aunque está mejorando en el reconocimiento del habla, sigue manteniendo un alto nivel de precisión. Para lograr esto, el equipo de desarrollo de Conformer-2 se centró en expandir la cantidad de datos de entrenamiento y utilizar más pseudo-etiquetas, ayudando a fortalecer el rendimiento del modelo.
Además, los ajustes realizados en el pipeline de inferencia han reducido significativamente el tiempo que tarda Conformer-2 en procesar audio, haciéndolo más rápido en general que su predecesor. Esta es una mejora crucial ya que permite a los usuarios recibir respuestas más rápido, una gran ventaja en aplicaciones en tiempo real.
Un aspecto innovador de Conformer-2 es su método de entrenamiento que emplea ensamblaje de modelos. En lugar de depender de una única fuente para etiquetar, este modelo extrae de múltiples fuentes o "maestros". Este enfoque crea un modelo más flexible y resistente al disminuir el impacto de las deficiencias de cualquier modelo en particular.
Los creadores de Conformer-2 también prestaron especial atención a escalar tanto los datos como los parámetros del modelo, haciendo el modelo más grande y aumentando la variedad de audio de entrenamiento utilizado. Al hacer esto, aprovecharon el potencial no explotado sugerido por la investigación 'Chinchilla' para modelos de lenguaje grandes, permitiendo que Conformer-2 opere de manera más eficiente y rápida, rompiendo el estereotipo de que los modelos más grandes siempre son más lentos y costosos.
∞