Colaboración en la investigación sobre IA y el habla

MLCommons y Hugging Face lanzan un extenso conjunto de datos de voz pública, 'Unsupervised People's Speech', para avanzar en la tecnología del habla y la inclusión lingüística.
Lorem Ipsum
Una multitud de personas forma dos globos de diálogo superpuestos.
Vista aérea de grupos de personas organizados en forma de globos de diálogo en un fondo blanco.

Colaboración en la investigación sobre inteligencia artificial

MLCommons, una organización sin ánimo de lucro enfocada en la seguridad de la inteligencia artificial, se ha asociado con Hugging Face, una plataforma de desarrollo de inteligencia artificial, para lanzar uno de los mayores conjuntos de grabaciones de voz de dominio público del mundo. Este conjunto de datos, denominado \»Unsupervised People’s Speech\» (UPS), contiene más de un millón de horas de audio en al menos 89 idiomas.

Objetivos del proyecto

El objetivo principal de esta iniciativa es apoyar la investigación y el desarrollo en diversas áreas de la tecnología del habla. La idea es respaldar el procesamiento del lenguaje natural en idiomas distintos al inglés, favoreciendo la creación de tecnologías de comunicación más inclusivas a nivel mundial. Esto incluye mejorar modelos de habla para lenguas con pocos recursos, mejorar el reconocimiento del habla en diferentes acentos y dialectos, y desarrollar nuevas aplicaciones en la síntesis de voz.

Riesgos implícitos del conjunto de datos

Sin embargo, el uso de conjuntos de datos como UPS no está exento de riesgos. Uno de los problemas principales es el sesgo potencial en los datos. La mayoría de las grabaciones proceden de Archive.org, donde muchas contribuciones son de hablantes de inglés de Estados Unidos. Esto podría causar que los modelos de inteligencia artificial así entrenados presenten dificultades para transcribir inglés hablado por no nativos o generen voces sintéticas en otros idiomas.

Problemas de derechos de autor y privacidad

También hay preocupaciones sobre el uso no autorizado de las grabaciones. Aunque MLCommons asegura que todas las grabaciones están en dominio público o bajo licencias Creative Commons, es posible que haya errores. Según un análisis del MIT, muchos conjuntos de datos de entrenamiento de inteligencia artificial disponibles públicamente carecen de información de licencia y contienen errores. Esto plantea preguntas sobre los derechos de los creadores y si deberían ser responsables de optar por no participar en estos datasets.

Compromisos futuros

A pesar de las preocupaciones, MLCommons se compromete a actualizar, mantener y mejorar la calidad de UPS. Pero dadas las posibles imperfecciones, se aconseja a los desarrolladores que actúen con precaución al utilizar este conjunto de datos para desarrollar sistemas de inteligencia artificial.

OpenAI desactiva sugerencias similares a anuncios en ChatGPT tras críticas

OpenAI ha desactivado las sugerencias de aplicaciones en ChatGPT Plus tras quejas de suscriptores, que
Imagen sin título

Pat Gelsinger apuesta por xLight con un acuerdo de 150 millones del Gobierno de EE.UU.

La startup de semiconductores xLight, presidida por Pat Gelsinger, ha logrado un acuerdo preliminar de
Imagen sin título

Yoodli triplica su valoración superando los 300 millones de dólares

La startup Yoodli alcanza una valoración de más de 300 millones de dólares tras una
Varun Puri y Esha Joshi, cofundadores de Yoodli.

Aaru, startup de investigación con IA, logra valoración de 1000 millones en ronda Serie A

La startup de investigación con IA Aaru ha levantado una ronda Serie A liderada por
Imagen sin título

El polémico videojuego ‘Horses’ es prohibido en varias plataformas tras su lanzamiento

El videojuego ‘Horses’, del estudio Santa Ragione, fue retirado de Steam y Epic Games Store
Fotograma del videojuego 'Horses'.

Meta adquiere la startup de hardware de IA Limitless

Meta ha adquirido la startup de IA Limitless, que dejará de vender su colgante para
Imagen sin título

SpaceX negocia venta secundaria de acciones con valoración de 800.000 millones

SpaceX negociaría una venta secundaria de acciones que la valoraría en 800.000 millones de dólares,
Imagen sin título

Netflix adquiere Warner Bros. Discovery por 83.000 millones de dólares

Netflix anunció la compra de Warner Bros. por 83.000 millones de dólares, incluyendo el catálogo
Logotipos de Netflix y Warner Bros.

ChatGPT ralentiza su crecimiento mientras Gemini acelera su adopcion

El crecimiento de usuarios activos de ChatGPT se desacelera al 6%, mientras que Gemini aumenta
Grafico comparativo de usuarios activos mensuales de ChatGPT y Gemini.

AWS apuesta por la IA empresarial en re:Invent, pero los clientes podrían no estar preparados

AWS presentó decenas de novedades de IA en su conferencia re:Invent 2025, a pesar de
Imagen sin título

Startups de IA enfrentan dificultades inesperadas para implementar productos útiles

Las startups de IA enfrentan retrasos al intentar transformar modelos avanzados en productos útiles. Un
Julie Bornstein, fundadora y CEO de Daydream.

The New York Times demanda a Perplexity por infracción de derechos de autor

The New York Times demanda a la startup de IA Perplexity por usar su contenido
Logotipo de The New York Times y Perplexity en una pantalla