Empresas de IA recopilan sus propios datos para entrenar modelos

Compañías de IA como Turing Labs y Fyxer abandonan el scraping web por la recolección manual de datos especializados. Contratan expertos para generar conjuntos de alta calidad que se convierten en su principal ventaja competitiva frente a modelos genéricos.
TechCrunch
Imagen sin título
Imagen sin título / Andriy Onufriyenko / Getty Images / TechCrunch

Empresas de IA recolectan sus propios datos para entrenar modelos

La calidad de los datos, no la cantidad, define el rendimiento de la IA. Compañías como Turing Labs y Fyxer están cambiando su estrategia de datos, pasando del scraping web a la recolección manual y especializada para obtener una ventaja competitiva.

Recolección manual para modelos de visión

Turing Labs contrata a artistas, chefs y trabajadores manuales para grabar sus tareas. Los trabajadores usan cámaras GoPro en la cabeza para generar conjuntos de datos diversos que enseñen al modelo a resolver problemas de forma secuencial. La empresa estima que entre el 75% y el 80% de sus datos finales son sintéticos, generados a partir de estos vídeos originales.

El coste humano de los datos

Una trabajadora, Taylor, describió la tarea como físicamente exigente. Cinco horas de filmación sincronizada requerían siete horas de trabajo diario, causando dolores de cabeza y marcas en la piel. Este método de recolección directa es la forma que tiene Turing de asegurar la variedad en la fase de preentrenamiento.

Datos especializados para el correo electrónico

La empresa Fyxer, que desarrolla un asistente para correo electrónico, descubrió que necesitaba conjuntos de datos pequeños y muy cuidados. En sus inicios, los ingenieros eran superados en número cuatro a uno por asistentes ejecutivos expertos, que eran los encargados de entrenar al modelo en los fundamentos de la gestión de correos.

La nueva estrategia de los datos

Las compañías están internalizando la recolección de datos. Donde antes se raspaba la web o se usaban anotadores mal pagados, ahora se paga bien por datos curados meticulosamente. Esta información de alta calidad se ha convertido en la principal ventaja competitiva y en una barrera de entrada para la competencia.

Antecedentes del cambio

El cambio responde a que el poder bruto de la IA ya está establecido. Las empresas ya no compiten solo por el modelo, sino por la calidad de los datos de entrenamiento propietarios. Fyxer considera que este arduo trabajo de recolección es uno de los mejores muros de contención contra sus competidores.

Implicaciones del nuevo enfoque

Este enfoque prioriza la calidad sobre la cantidad, especialmente cuando se usa datos sintéticos. Cualquier fallo en el conjunto de datos original se magnifica en la fase de generación sintética. La recolección interna y especializada se consolida como la estrategia clave para el desarrollo de productos de IA funcionales y diferenciados.

Apple nombra a un exejecutivo de Microsoft como su nuevo jefe de IA tras la salida de Giannandrea

Apple nombra a Amar Subramanya, exejecutivo de Microsoft y veterano de Google, como nuevo jefe
Imagen sin título

Google afirma que su ventaja en IA es conocer al usuario mediante sus datos personales

Un alto ejecutivo de Google afirma que su ventaja en IA reside en conocer al
Imagen sin título

Nvidia presenta nuevos modelos de IA abiertos para investigación en conducción autónoma

Nvidia ha presentado Alpamayo-R1, un modelo de lenguaje visual abierto diseñado específicamente para la conducción
Imagen sin título

AWS re:Invent 2025 arranca en Las Vegas con el foco puesto en la inteligencia artificial

La conferencia principal de AWS comienza mañana, 2 de diciembre, en Las Vegas. Centrada en
Imagen sin título

Trabajadores de la Construcción Ven Salarios Disparados por el Boom de la IA

Los trabajadores de la construcción que se incorporan a proyectos de centros de datos para
Trabajador en una obra de construcción

La demanda eléctrica de los centros de datos se triplicará para 2035, según informe

La demanda eléctrica de los centros de datos se triplicará para 2035, alcanzando 106 gigavatios,
Imagen sin título

NVIDIA presenta nuevos modelos de IA abiertos para conducción autónoma y seguridad en NeurIPS

NVIDIA ha presentado Alpamayo-R1 (AR1), el primer modelo de visión, lenguaje y acción (VLA) de
Imagen sin título

El chatbot Rufus de Amazon impulsa las ventas en el Black Friday de 2025

El chatbot Rufus de Amazon duplicó las sesiones de compra durante el Black Friday. Los
Interfaz del chatbot de IA Rufus en la aplicacion de Amazon.

Nvidia invierte 2.000 millones de dólares en Synopsys para reforzar su dominio en el diseño de chips

Nvidia invertirá 2.000 millones de dólares en Synopsys en una asociación plurianual. El objetivo es
Imagen sin título

OpenAI adquiere participación en Thrive Holdings en un acuerdo circular

OpenAI toma una participación accionarial en Thrive Holdings, una firma de capital privado centrada en
Imagen sin título

Flock emplea trabajadores filipinos para entrenar su IA de vigilancia en EE.UU.

Una filtración revela que Flock contrata a trabajadores en Filipinas, a través de Upwork, para
Ilustración de una cámara de vigilancia y un trabajador remoto.

Black Forest Labs recauda 300 millones de dólares en una ronda Serie B

La empresa alemana de IA Black Forest Labs ha recaudado 300 millones de dólares en
Imagen sin título