El miércoles, OpenAI lanzó un nuevo modelo de IA de código abierto llamado Whisper que reconoce y traduce audio a un nivel que se acerca a la capacidad de reconocimiento humano. Puede transcribir entrevistas, podcasts, conversaciones y más.
OpenAI entrenó a Whisper en 680 000 horas de datos de audio y transcripciones coincidentes en 98 idiomas recopilados de la web.
Según OpenAI, este enfoque de colección abierta ha llevado a “una mayor solidez de los acentos, el ruido de fondo y el lenguaje técnico”.
También puede detectar el idioma hablado y traducirlo al inglés.
OpenAI describe a Whisper como un transformador codificador-decodificador , un tipo de red neuronal que puede usar el contexto extraído de los datos de entrada para aprender asociaciones que luego se pueden traducir a la salida del modelo.
Al abrir Whisper, OpenAI espera introducir un nuevo modelo básico que otros puedan aprovechar en el futuro para mejorar el procesamiento del habla y las herramientas de accesibilidad. OpenAI tiene un historial significativo en este frente.
En enero de 2021, OpenAI lanzó CLIP, un modelo de visión por computadora de código abierto que podría decirse que inició la era reciente de la tecnología de síntesis de imágenes que avanza rápidamente, como DALL-E 2 y Stable Diffusion.
Con la configuración adecuada, Whisper podría usarse fácilmente para transcribir entrevistas, podcasts y potencialmente, traducir podcasts producidos en idiomas distintos del inglés al inglés en su máquina, de forma gratuita.
Esa es una combinación potente que eventualmente podría alterar la industria de la transcripción. Al igual que con casi todos los nuevos modelos importantes de IA en estos días, Whisper brinda ventajas positivas y el potencial de uso indebido.
En la tarjeta del modelo de Whisper, OpenAI advierte que Whisper podría usarse para automatizar la vigilancia o identificar a hablantes individuales en una conversación, pero la compañía espera que se use principalmente con fines beneficiosos.