El modelo de IA de OpenAI reconoce automáticamente el habla y la traduce al inglés

El miércoles, OpenAI lanzó un nuevo modelo de IA de código abierto llamado Whisper que reconoce y traduce audio a un nivel que se acerca a la capacidad de reconocimiento humano. Puede transcribir entrevistas, podcasts, conversaciones y más.

OpenAI entrenó a Whisper en 680 000 horas de datos de audio y transcripciones coincidentes en 98 idiomas recopilados de la web.

Según OpenAI, este enfoque de colección abierta ha llevado a “una mayor solidez de los acentos, el ruido de fondo y el lenguaje técnico”.

También puede detectar el idioma hablado y traducirlo al inglés.

OpenAI describe a Whisper como un transformador codificador-decodificador , un tipo de red neuronal que puede usar el contexto extraído de los datos de entrada para aprender asociaciones que luego se pueden traducir a la salida del modelo.

Al abrir Whisper, OpenAI espera introducir un nuevo modelo básico que otros puedan aprovechar en el futuro para mejorar el procesamiento del habla y las herramientas de accesibilidad. OpenAI tiene un historial significativo en este frente.

En enero de 2021, OpenAI lanzó CLIP, un modelo de visión por computadora de código abierto que podría decirse que inició la era reciente de la tecnología de síntesis de imágenes que avanza rápidamente, como DALL-E 2 y Stable Diffusion.

Con la configuración adecuada, Whisper podría usarse fácilmente para transcribir entrevistas, podcasts y potencialmente, traducir podcasts producidos en idiomas distintos del inglés al inglés en su máquina, de forma gratuita.

Esa es una combinación potente que eventualmente podría alterar la industria de la transcripción. Al igual que con casi todos los nuevos modelos importantes de IA en estos días, Whisper brinda ventajas positivas y el potencial de uso indebido.

En la tarjeta del modelo de Whisper, OpenAI advierte que Whisper podría usarse para automatizar la vigilancia o identificar a hablantes individuales en una conversación, pero la compañía espera que se use principalmente con fines beneficiosos.

Artículos Relacionados
Microsoft anuncia Bing Chat Enterprise, chatbot de IA con privacidad comercial

Microsoft ha anunciado el chatbot Bing Chat Enterprise, que se basa en una red neuronal generativa. El objetivo es proporcionar un nivel de protección de la información más alto para las empresas que temen que los algoritmos generativos actualmente populares no puedan garantizar la ¡SEGUIR LEYENDO!

Microsoft comprará Nuance (software de reconocimiento de voz) por 19 mil millones de dólares

Microsoft confirma la próxima compra de Nuance Communicationes por +-19,7 mil millones de dólares. El director ejecutivo de Nuance, Mark Benjamin; conservará su puesto y se encargará de informar al director de Azure, Scott Guthrie. "Nuance, proporciona la capa de Inteligencia Artificial en el ¡SEGUIR LEYENDO!

Recrean el mapa del capítulo 1 de Fortnite con el editor Creative 2

Fortnite ha pasado por una gran cantidad de cambios a lo largo de los años, tanto que el mapa actual del juego es casi irreconocible de cómo comenzó. https://youtu.be/-RUXg2X8pcY Ha habido tantas revisiones y nuevas adiciones, la más reciente es Mega City que vino ¡SEGUIR LEYENDO!

Deja un comentario