Empresas de IA recopilan sus propios datos para entrenar modelos

Compañías de IA como Turing Labs y Fyxer abandonan el scraping web por la recolección manual de datos especializados. Contratan expertos para generar conjuntos de alta calidad que se convierten en su principal ventaja competitiva frente a modelos genéricos.
TechCrunch
Imagen sin título
Imagen sin título / Andriy Onufriyenko / Getty Images / TechCrunch

Empresas de IA recolectan sus propios datos para entrenar modelos

La calidad de los datos, no la cantidad, define el rendimiento de la IA. Compañías como Turing Labs y Fyxer están cambiando su estrategia de datos, pasando del scraping web a la recolección manual y especializada para obtener una ventaja competitiva.

Recolección manual para modelos de visión

Turing Labs contrata a artistas, chefs y trabajadores manuales para grabar sus tareas. Los trabajadores usan cámaras GoPro en la cabeza para generar conjuntos de datos diversos que enseñen al modelo a resolver problemas de forma secuencial. La empresa estima que entre el 75% y el 80% de sus datos finales son sintéticos, generados a partir de estos vídeos originales.

El coste humano de los datos

Una trabajadora, Taylor, describió la tarea como físicamente exigente. Cinco horas de filmación sincronizada requerían siete horas de trabajo diario, causando dolores de cabeza y marcas en la piel. Este método de recolección directa es la forma que tiene Turing de asegurar la variedad en la fase de preentrenamiento.

Datos especializados para el correo electrónico

La empresa Fyxer, que desarrolla un asistente para correo electrónico, descubrió que necesitaba conjuntos de datos pequeños y muy cuidados. En sus inicios, los ingenieros eran superados en número cuatro a uno por asistentes ejecutivos expertos, que eran los encargados de entrenar al modelo en los fundamentos de la gestión de correos.

La nueva estrategia de los datos

Las compañías están internalizando la recolección de datos. Donde antes se raspaba la web o se usaban anotadores mal pagados, ahora se paga bien por datos curados meticulosamente. Esta información de alta calidad se ha convertido en la principal ventaja competitiva y en una barrera de entrada para la competencia.

Antecedentes del cambio

El cambio responde a que el poder bruto de la IA ya está establecido. Las empresas ya no compiten solo por el modelo, sino por la calidad de los datos de entrenamiento propietarios. Fyxer considera que este arduo trabajo de recolección es uno de los mejores muros de contención contra sus competidores.

Implicaciones del nuevo enfoque

Este enfoque prioriza la calidad sobre la cantidad, especialmente cuando se usa datos sintéticos. Cualquier fallo en el conjunto de datos original se magnifica en la fase de generación sintética. La recolección interna y especializada se consolida como la estrategia clave para el desarrollo de productos de IA funcionales y diferenciados.

Kayak lanza un modo de IA para búsquedas y reservas de viajes

El buscador de viajes Kayak ha integrado un chatbot con tecnología ChatGPT en su web.
Imagen sin título

Empresas de IA recopilan sus propios datos para entrenar modelos

Compañías de IA como Turing Labs y Fyxer abandonan el scraping web por la recolección
Imagen sin título

Commonwealth Fusion Systems y Google DeepMind colaboran en reactor de fusión con IA

Google DeepMind colabora con Commonwealth Fusion Systems para optimizar el reactor de fusión Sparc mediante
Imagen sin título

Jefe de IA de Meta recomienda el «vibe coding» para adolescentes

El director de IA de Meta, Alexandr Wang, recomienda a adolescentes dedicar 10.000 horas al
Imagen sin título

Doubao de ByteDance supera a DeepSeek como chatbot de IA más popular en China

Doubao supera a DeepSeek como aplicación de IA más usada en China con 157 millones
Ilustración de la aplicación Doubao

Ejecutivo de IA de Apple, Ke Yang, ficha por Meta

Ke Yang, responsable de la búsqueda web con IA en Apple, se une a Meta.
Imagen sin título

Pinterest introduce controles para limitar el «contenido IA» en los feeds

Pinterest implementa controles para que los usuarios limiten la visualización de contenido generado por IA
Interfaz de configuración de Pinterest mostrando los controles de contenido IA

TechCrunch Disrupt 2025 se celebrará en San Francisco del 27 al 29 de octubre

El espacio de exposición para TechCrunch Disrupt 2025 está casi completo. Las startups tienen hasta
Imagen sin título

General Intuition recauda 134 millones de dólares para IA espacial

El laboratorio de IA General Intuition ha obtenido 133,7 millones de dólares en financiación inicial.
Equipo fundador de General Intuition

TechCrunch Disrupt 2025 se celebrará en San Francisco del 27 al 29 de octubre

El evento TechCrunch Disrupt 2025 se celebra en San Francisco del 27 al 29 de
Imagen sin título

Spotify se alía con discográficas para crear productos de IA musical

Spotify pacta con Sony, Universal, Warner y Merlin para desarrollar IA musical que respete derechos
Imagen sin título

Jack & Jill recauda 50 millones para llevar IA conversacional a la búsqueda de empleo

La startup Jack & Jill ha recaudado 50 millones de dólares para su plataforma de
Imagen sin título