Empresas de IA recolectan sus propios datos para entrenar modelos
La calidad de los datos, no la cantidad, define el rendimiento de la IA. Compañías como Turing Labs y Fyxer están cambiando su estrategia de datos, pasando del scraping web a la recolección manual y especializada para obtener una ventaja competitiva.
Recolección manual para modelos de visión
Turing Labs contrata a artistas, chefs y trabajadores manuales para grabar sus tareas. Los trabajadores usan cámaras GoPro en la cabeza para generar conjuntos de datos diversos que enseñen al modelo a resolver problemas de forma secuencial. La empresa estima que entre el 75% y el 80% de sus datos finales son sintéticos, generados a partir de estos vídeos originales.
El coste humano de los datos
Una trabajadora, Taylor, describió la tarea como físicamente exigente. Cinco horas de filmación sincronizada requerían siete horas de trabajo diario, causando dolores de cabeza y marcas en la piel. Este método de recolección directa es la forma que tiene Turing de asegurar la variedad en la fase de preentrenamiento.
Datos especializados para el correo electrónico
La empresa Fyxer, que desarrolla un asistente para correo electrónico, descubrió que necesitaba conjuntos de datos pequeños y muy cuidados. En sus inicios, los ingenieros eran superados en número cuatro a uno por asistentes ejecutivos expertos, que eran los encargados de entrenar al modelo en los fundamentos de la gestión de correos.
La nueva estrategia de los datos
Las compañías están internalizando la recolección de datos. Donde antes se raspaba la web o se usaban anotadores mal pagados, ahora se paga bien por datos curados meticulosamente. Esta información de alta calidad se ha convertido en la principal ventaja competitiva y en una barrera de entrada para la competencia.
Antecedentes del cambio
El cambio responde a que el poder bruto de la IA ya está establecido. Las empresas ya no compiten solo por el modelo, sino por la calidad de los datos de entrenamiento propietarios. Fyxer considera que este arduo trabajo de recolección es uno de los mejores muros de contención contra sus competidores.
Implicaciones del nuevo enfoque
Este enfoque prioriza la calidad sobre la cantidad, especialmente cuando se usa datos sintéticos. Cualquier fallo en el conjunto de datos original se magnifica en la fase de generación sintética. La recolección interna y especializada se consolida como la estrategia clave para el desarrollo de productos de IA funcionales y diferenciados.