OpenAI presenta su nueva API de Whisper: su propio sistema de reconocimiento de voz automático

Editor para América Latina y España
Editor para América Latina y España
Gilberto Rojas
Última actualización: 
Por qué confiar en CryptoNews
Cryptonews ha cubierto los temas de la industria de las criptomonedas desde 2017, con el objetivo de proporcionar información útil a nuestros lectores. Nuestros periodistas y analistas tienen una amplia experiencia en análisis de mercado y tecnologías blockchain. Nos esforzamos por mantener altos estándares editoriales, centrándonos en la precisión de los hechos y la presentación de informes equilibrados en todas las áreas, desde criptomonedas y proyectos blockchain hasta eventos de la industria, productos y desarrollos tecnológicos. Nuestra presencia continua en la industria refleja nuestro compromiso de brindar información relevante en el cambiante mundo de los activos digitales. Lea más sobre Cryptonews. Divulgación de anuncios: Creemos en la transparencia total con nuestros lectores. Algunos de nuestros contenidos incluyen enlaces de afiliados y podemos ganar una comisión a través de estas asociaciones.
Aviso legal: las criptomonedas son una clase de activos de alto riesgo. Este artículo se ofrece con fines informativos y no constituye asesoramiento de inversión. Al utilizar este sitio web, acepta nuestros términos y condiciones. Podemos utilizar enlaces de afiliados dentro de nuestro contenido y recibir comisiones.

Desarrolladores y creativos en todo el mundo han encontrado el ‘santo grial’ para hacer más eficientes sus nuevos productos y servicios con OpenAI. Ahora, tanto el chatbot ChatGPT, como el servicio automático de reconocimiento de voz de la misma empresa, Whisper, cuentan con su propia API (interfaz de programación de aplicaciones, por sus siglas en inglés).

Con un precio de 0,006 dólares por minuto, Whisper es un sistema avanzado de reconocimiento automático de voz que, según lo expresado por la dirección de OpenAI, permite una transcripción “robusta” en distintos idiomas, así como la inmediata traducción al inglés. De hecho, es capaz de tomar archivos en formatos tan viarios como M4A, MP3, MP4, MPEG, MPGA y WEBN, por solo mencionar algunos.

Claro que hoy por hoy existe una gran cantidad de compañías que han desarrollado sistemas de reconocimientos de voz mediana o altamente eficientes, Google, Amazon y Meta entre ellas, pero lo que pone en un siguiente nivel a Whisper de OpenAI son las 680.000 horas de datos multilingües y multitarea que ostenta.

OpenAI optimizó Whisper aún más

Según lo dicho por Greg Brockman, presidente de OpenAI, los cientos de miles de horas de distintos idiomas de Whisper hacen que su sistema de reconocimiento de voz sea mucho más eficiente cuando se trata de diferenciar acentos, desviar ruidos de fondo y entender lenguajes técnicos.

“Lanzamos un modelo, pero eso en realidad no fue suficiente para que todo el ecosistema de desarrolladores se construyera a su alrededor (…) La API de Whisper es el mismo modelo grande que puede obtener el código abierto, pero lo hemos optimizado al extremo. Es mucho, mucho más rápido y extremadamente conveniente”, expresó el CEO de esta compañía en entrevista con Techcrunch.

Para Brockman, existen hoy muchas barreras para que las empresas adopten la tecnología que necesitan cuando se trata de transcripciones de voz, cuestión que refuerza una encuesta de Statista generada en 2020, la cual apunta que compañías citan problemas de precisión, reconocimiento del dialecto y costos como las principales razones para no dar el paso que se requiere en la adopción de sistemas como los de Google o Meta.

Desarrolladores de Whisper trabajan en las limitaciones de su sistema

Así y todo, el sistema desarrollado desde OpenAI ha dejado en claro que conoce estos problemas y ha reconocido que entiende sus propias limitaciones, una de las cuales es la predicción de la “siguiente palabra”.

Brockman explicó en la entrevista antes citada que el sistema de Whisper se ‘entrenó’ con datos muy ruidosos, por lo que podría incluir palabras que en realidad no se han dicho en la transcripción de los textos, probablemente porque el algoritmo intenta predecir la “siguiente palabra” del audio sin hacerlo de manera eficaz.

También es sabido que Whisper no funciona igual de ‘perfecto’ en todos los idiomas que maneja. Y es que sufre una tasa superior de error cuando se trata de grabaciones en lenguajes que no tienen mucha información en la base de datos de la aplicación.

Claro que esto está lejos de ser una novedad en el mercado de los sistemas de reconocimiento de voz, tanto es así que un estudio hecho por la Universidad de Stanford en 2020 encontró que sistemas como el de Google, Apple, IBM, Amazon y Microsoft cometen errores de hasta un 19 % más con usuarios blancos que con usuarios negros.

OpenAI ¿La mejor del mercado?

Sabiendo todo lo anterior, el CEO de OpenAI igual considera que las capacidades de transcripción de Whisper están muy por encima del resto de su competencia y su aplicativo está siendo usado para mejorar las herramientas de muchas compañías a nivel mundial.

Un ejemplo de esto es Speak, aplicación de aprendizaje de idiomas impulsada por Inteligencia Artificial, la cual ya estaría utilizando la API de Whisper para potenciar un nuevo “compañero” virtual dentro de la App.

Desde OpenAI se considera que, si pueden meter a Whisper en el mercado de voz a texto de forma masiva, podrían traer una rentabilidad a la compañía de cifras muy interesantes. Según un informe citado por Techcrunch, este apartado del mercado podría tener un valor cercano a los 5.4 mil millones de dólares para 2026, mientras que para 2021 su capitalización era de 2.2 mil millones de dólares.

Nuestra imagen es que realmente queremos ser esta ‘inteligencia universal’ (…) Realmente queremos, de manera muy flexible, poder tomar cualquier tipo de datos que tenga, cualquier tipo de tarea que desee realizar y ser un multiplicador de fuerzas en esa atención”, sentenció Brockman.

¡Otras novedades!

¿Sabías que OpenAI es una empres respaldada por Microsoft? ¿Te imaginas cuánto subirán las acciones de Microsoft una vez las herramientas de OpenAI se vuelvan masivamente usadas? Pues recuerda que a través de eToro puedes invertir en Microsoft, comprar y vender sus acciones en cuestión de segundos y de la manera más fácil posible.

Ahora, diversificarse es la clave, por lo que nuestros analistas han creado un listado con los mejores proyectos blockchain del momento que se actualiza semana a semana para que no te pierdas nada y para que ostentes un portafolio robusto que te ayude a aguantar los golpes del mercado y a ganar todos los días.

Más

Noticias Altcoin
DeepSeek predice el precio de SOL, SOLX y TRUMP: ¿qué esperar a corto plazo?
Alejandro Serna
Alejandro Serna
2025-06-17 14:33:12
Noticias Altcoin
¿Estamos ante un nuevo mercado alcista?, estas son las altcoins a seguir de cerca
Gonzalo Rodríguez
Gonzalo Rodríguez
2025-06-17 13:17:52
Crypto News in numbers
editors
Lista de autores + 66 Más
+2M
Usuarios activos al mes
+250
Guías y reseñas
8
Años en el mercado
70
Autores