Empresas de IA recopilan sus propios datos para entrenar modelos

Compañías de IA como Turing Labs y Fyxer abandonan el scraping web por la recolección manual de datos especializados. Contratan expertos para generar conjuntos de alta calidad que se convierten en su principal ventaja competitiva frente a modelos genéricos.
TechCrunch
Imagen sin título
Imagen sin título / Andriy Onufriyenko / Getty Images / TechCrunch

Empresas de IA recolectan sus propios datos para entrenar modelos

La calidad de los datos, no la cantidad, define el rendimiento de la IA. Compañías como Turing Labs y Fyxer están cambiando su estrategia de datos, pasando del scraping web a la recolección manual y especializada para obtener una ventaja competitiva.

Recolección manual para modelos de visión

Turing Labs contrata a artistas, chefs y trabajadores manuales para grabar sus tareas. Los trabajadores usan cámaras GoPro en la cabeza para generar conjuntos de datos diversos que enseñen al modelo a resolver problemas de forma secuencial. La empresa estima que entre el 75% y el 80% de sus datos finales son sintéticos, generados a partir de estos vídeos originales.

El coste humano de los datos

Una trabajadora, Taylor, describió la tarea como físicamente exigente. Cinco horas de filmación sincronizada requerían siete horas de trabajo diario, causando dolores de cabeza y marcas en la piel. Este método de recolección directa es la forma que tiene Turing de asegurar la variedad en la fase de preentrenamiento.

Datos especializados para el correo electrónico

La empresa Fyxer, que desarrolla un asistente para correo electrónico, descubrió que necesitaba conjuntos de datos pequeños y muy cuidados. En sus inicios, los ingenieros eran superados en número cuatro a uno por asistentes ejecutivos expertos, que eran los encargados de entrenar al modelo en los fundamentos de la gestión de correos.

La nueva estrategia de los datos

Las compañías están internalizando la recolección de datos. Donde antes se raspaba la web o se usaban anotadores mal pagados, ahora se paga bien por datos curados meticulosamente. Esta información de alta calidad se ha convertido en la principal ventaja competitiva y en una barrera de entrada para la competencia.

Antecedentes del cambio

El cambio responde a que el poder bruto de la IA ya está establecido. Las empresas ya no compiten solo por el modelo, sino por la calidad de los datos de entrenamiento propietarios. Fyxer considera que este arduo trabajo de recolección es uno de los mejores muros de contención contra sus competidores.

Implicaciones del nuevo enfoque

Este enfoque prioriza la calidad sobre la cantidad, especialmente cuando se usa datos sintéticos. Cualquier fallo en el conjunto de datos original se magnifica en la fase de generación sintética. La recolección interna y especializada se consolida como la estrategia clave para el desarrollo de productos de IA funcionales y diferenciados.

Estados Unidos invade Venezuela y captura al presidente Nicolás Maduro

Los principales asistentes de IA ofrecieron respuestas contradictorias sobre la noticia de la invasión estadounidense
Partidarios de Nicolás Maduro y Hugo Chávez tras explosiones en Caracas.

Los chatbots eróticos definen la narrativa de la IA en 2025 frente a expectativas incumplidas

Mientras la promesa de productividad laboral con IA se desinfla, el nicho de los chatbots
Imagen sin título

El ‘abandonar los estudios’ se convierte en credencial clave para fundadores de startups

Ser un ‘college dropout’ se ha convertido en una credencial destacada en el ecosistema emprendedor,
Un fundador joven presenta su startup en un evento de demostración.

Inversores predicen que la IA impactará significativamente en el empleo en 2026

Capitalistas de riesgo anticipan que la IA impactará significativamente en la fuerza laboral en 2026,
Imagen sin título

La industria de las citas apuesta por la conexión presencial frente al agotamiento de las aplicaciones

La industria de las citas online combina herramientas de IA con un fuerte impulso hacia
Ilustración sobre el futuro de las citas y la interacción humana.

Jon Callaghan predice el fin del teléfono inteligente en una década

Jon Callaghan, cofundador de True Ventures, afirma que en diez años no usaremos iPhones. La
Anillo Stream de Sandbar.

Las mejores aplicaciones de dictado por IA de 2025 ofrecen precisión y privacidad

Las aplicaciones de dictado por IA en 2025 han mejorado significativamente gracias a modelos de
Imagen sin título

Empresas concentrarán su gasto en IA en 2026, según inversores

El 94% de capitalistas de riesgo prevé un aumento del presupuesto empresarial en IA para
Imagen sin título

Meta adquiere la startup de IA Manus por 2.000 millones de dólares

Meta Platforms ha adquirido la startup singapurense de inteligencia artificial Manus por 2.000 millones de
Logotipo de Meta en una pantalla.

La industria de la IA recibe un ‘vibe check’ en 2025 tras inversiones billonarias

Tras inversiones récord que superaron el billón de dólares, la industria de la inteligencia artificial
Imagen sin título

Plaud Note Pro, el grabador de IA del tamaño de una tarjeta, supera el millón de unidades

Plaud ha enviado más de un millón de unidades de su grabador de IA, el
El Plaud Note Pro junto a una tarjeta de crédito para comparar su grosor.

OpenAI lanza integraciones de aplicaciones en ChatGPT para EE.UU. y Canadá

OpenAI permite conectar cuentas de servicios como Spotify, Uber o Booking.com directamente en ChatGPT. Los
Ilustración de la interfaz de ChatGPT con logotipos de aplicaciones