Wikimedia lanza base de datos para mejorar acceso de IA a Wikipedia
120 millones de entradas de Wikipedia en nuevo sistema. Wikidata Embedding Project permitirá búsquedas semánticas para modelos de inteligencia artificial.
Nuevo sistema de acceso a datos
Wikimedia Deutschland anunció base de datos con búsqueda semántica vectorial que comprende significado y relaciones entre palabras. El proyecto incluye soporte para Model Context Protocol (MCP), estándar que facilita comunicación entre sistemas de IA y fuentes de datos.
Colaboración y accesibilidad
Desarrollado con Jina.AI y DataStax de IBM. La base es pública en Toolforge y ofrecerá webinar para desarrolladores el 9 de octubre.
Mejora para sistemas RAG
El sistema funciona mejor con generación aumentada por recuperación (RAG), permitiendo a modelos acceder a información externa verificada por editores de Wikipedia. Proporciona contexto semántico crucial, mostrando relaciones conceptuales y traducciones.
Antecedentes de Wikidata
Wikidata ofrecía datos legibles por máquina desde hace años, pero las herramientas anteriores solo permitían búsquedas por palabras clave y consultas SPARQL, un lenguaje de consulta especializado.
Impacto en desarrollo de IA
Surge cuando desarrolladores buscan fuentes de datos de alta calidad para ajustar modelos. Wikipedia proporciona datos más orientados a hechos que conjuntos como Common Crawl. Proyecto se presenta como alternativa abierta frente al control corporativo de la IA.