Datos abiertos e IA generativa: sinergias y casos de uso

Resumen autogenerado por OpenAI

Audios generados (reproducción automática)

Los audios se reproducen de forma automática uno detrás de otro. Haz clic en el icono para descargar el audio o aumentar/disminuir la velocidad de reproducción.
Debido al tamaño del artículo, la generación del audio puede tardar unos segundos y es posible que se generen varios audios para un mismo artículo.

La inteligencia artificial (IA) está revolucionando la manera en que creamos y consumimos contenido. Desde la automatización de tareas repetitivas hasta la personalización de experiencias, la IA ofrece herramientas que están cambiando el panorama del marketing, la comunicación y la creatividad

Estas inteligencias artificiales necesitan ser entrenadas con datos acordes a los objetivos, sobre los que no discurran derechos de autor. Por ello, los datos abiertos se alzan como una herramienta de gran utilidad de cara al futuro de la IA.

Para profundizar sobre esta temática, The Govlab ha publicado el informe "A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI" (¿Una cuarta ola de datos abiertos? Explorando el espectro de escenarios para los datos abiertos y la IA generativa). En él se analiza la relación emergente entre los datos abiertos y la IA generativa, presentado diversos escenarios y recomendaciones. A continuación, se recogen sus claves.

El papel de los datos en la IA generativa

Los datos son la base fundamental de los modelos generativos de inteligencia artificial. Construir y entrenar dichos modelos requiere un gran volumen de datos, cuya escala y variedad está condicionada por los objetivos y los casos de uso del modelo. 

El siguiente gráfico explica cómo los datos funcionan como una pieza clave tanto de entrada de un sistema de IA generativa, como de salida. Los datos se recopilan de diversas fuentes, incluyendo portales de datos abiertos, con el fin de entrenar un modelo de IA de propósito general. Este modelo, posteriormente, será adaptado para realizar funciones específicas y diferentes tipos de análisis, que generan, a su vez, nuevos datos, que pueden utilizarse para seguir entrenando modelos.

Imagen del artículo Datos abiertos e IA generativa: sinergias y casos de uso

Estas imágenes pertenecen a Datos.gob.es

Figura 1. El Rol de los datos abiertos en la IA generativa, adaptado del informe "A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI", de The Govlab, 2024.

5 escenarios donde convergen los datos abiertos y la Inteligencia artificial

Con el fin de ayudar a los proveedores de datos abiertos a "preparar" dichos datos para la IA generativa, The Govlab ha definido cinco escenarios que resumen cinco formas distintas en las que los datos abiertos y la IA generativa pueden cruzarse. Estos escenarios pretenden ser un punto de partida, que se irá ampliando en el futuro, en base a los casos de uso disponibles.

Escenario

Función

Requisitos de calidad

Necesidades de metadatos

Ejemplo

Preentrenamiento (Pretraining)

Entrenamiento de las capas fundacionales de un modelo de IA generativa con grandes cantidades de datos abiertos.

Alto volumen de datos, diversos y representativos del dominio de aplicación y uso no estructurado.

Información clara sobre la fuente de los datos.

Los datos del proyecto Harmonized Landsat Sentinel-2 (HLS) de la NASA se utilizaron para entrenar el modelo fundacional geoespacial watsonx.ai.

Adaptación (Adaptation)

Perfeccionamiento de un modelo preentrenado con datos abiertos específicos para tareas concretas, utilizando técnicas de fine-tuning or RAG.

Datos tabulares y/o no estructurados de alta precisión y relevancia para la tarea objetivo, con una distribución equilibrada.

Metadatado centrado en la anotación y procedencia de los datos para aportar enriquecimiento contextual.

Partiendo del modelo LLaMA 70B, el Gobierno de Francia creó LLaMandement, un modelo de lenguaje grande perfeccionado para el análisis y la redacción de resúmenes de proyectos jurídicos. Para ello usaron datos de SIGNALE, la plataforma legislativa del Gobierno francés.

Inferencia y generación de hechos relevantes (Inference and Insight Generation)

Extracción de información y patrones a partir de datos abiertos mediante un modelo entrenado de IA generativa.

Datos tabulares de alta calidad, completos y coherentes.

Metadatado descriptivo de los métodos de recogida de datos, información de origen y control de versiones.

Wobby es una interfaz generativa que acepta consultas en lenguaje natural y produce respuestas en forma de resúmenes y visualizaciones, utilizando conjuntos de datos de distintas oficinas como Eurostat o el Banco Mundial.

Incremento de datos (Data Augmentation)

Aprovechamiento de los datos abiertos para generar datos sintéticos o proporcionar ontologías para extender la cantidad de datos de entrenamiento.

Datos tabulares y/o no estructurados que sean una representación cercana a la realidad, asegurando el cumplimiento de consideraciones éticas.

Transparencia sobre el proceso de generación y posibles sesgos.

Un equipo de investigadores adaptó el modelo Synthea de EE.UU. para incluir datos demográficos y hospitalarios de Australia.  Utilizando este modelo, el equipo pudo generar aproximadamente 117.000 historiales médicos sintéticos específicos, aplicados a su región.

Exploración abierta (Open-Ended Exploration)

Exploración y descubrimiento de nuevos conocimientos y patrones en datos abiertos mediante modelos generativos.

Datos tabulares y/o no estructurados, diversos y completos.

Información clara sobre fuentes y derechos de autor, comprensión de posibles sesgos y limitaciones, identificación de entidades.

NEPAccess es un piloto para desbloquear el acceso datos relacionados con la Ley Nacional de Política Medioambiental (NEPA) de EE.UU. mediante un modelo generativo de IA. Incluirá funciones para redactar evaluaciones de impacto ambiental, análisis de datos, etc.

Figura 2. Cinco escenarios donde convergen los datos abiertos y la Inteligencia artificial, adaptado del informe "A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI", de The Govlab, 2024.

Puedes leer el detalle de estos escenarios en el informe, donde se explican más ejemplos. Además, The Govlab también ha puesto en marcha un observatorio donde recopila ejemplos de intersecciones entre datos abiertos e inteligencia artificial generativa (los incluidos en el informe junto con otros adicionales). Cualquier usuario puede proponer nuevos casos a través de este formulario. Dichos ejemplos se utilizarán para continuar estudiando este campo y mejorar los escenarios actualmente definidos.

Entre los casos que se pueden ver en la web, encontramos una empresa española: Tendios. Se trata de una compañía de software como servicio que ha desarrollado un chatbot para ayudar en el análisis de licitaciones y concursos públicos con el fin de  facilitar la concurrencia. Esta herramienta está entrenada con documentos públicos de licitaciones gubernamentales.

Recomendaciones para publicadores de datos

Para extraer el máximo potencial de IA generativa, mejorando su eficiencia y eficacia, el informe destaca que los proveedores de datos abiertos deben hacer frente a algunos retos, como la mejora de la gobernanza y la gestión de los datos. En este sentido, recogen cinco recomendaciones:

  1. Mejorar la transparencia y la documentación. A través del uso de estándares, diccionarios de datos, vocabularios, plantillas de metadatos, etc. se ayudará a aplicar prácticas de documentación  sobre el linaje, la calidad, las consideraciones éticas y el impacto de los resultados.
  2. Mantener la calidad y la integridad. Se necesita formación y procesos rutinarios que aseguren la calidad, incluida la validación automatizada o manual, así como herramientas para actualizar los conjuntos de datos rápidamente cuando sea necesario. Además, son necesarios mecanismos para informar y abordar problemas que puedan surgir relacionados con los datos, a fin de impulsar la transparencia y facilitar la creación de una comunidad en torno a los conjuntos de datos abiertos.
  3. Fomentar la interoperabilidad y los estándares. Implica adoptar y promover normas internacionales de datos, con especial foco en los datos sintéticos y los contenidos generados por IA.
  4. Mejorar la accesibilidad y la facilidad de uso. Supone la mejora de los portales de datos abiertos mediante algoritmos de búsqueda inteligentes y herramientas interactivas. También es imprescindible establecer un espacio compartido donde los publicadores de los datos y los usuarios puedan intercambiar opiniones y manifestar necesidades, con el fin de hacer coincidir oferta y demanda.
  5. Abordar las consideraciones éticas. Proteger a los titulares de los datos es de máxima prioridad al hablar de datos abiertos e IA generativa. Se necesitan comités éticos y directrices éticas exhaustivas en torno a la recopilación, el intercambio y el uso de datos abiertos, así como tecnologías avanzadas de preservación de la intimidad.

Estamos ante un campo en continua evolución que necesita de actualización constante por parte de los publicadores de datos. Estos deben proporcionar conjuntos de datos adecuados tanto técnica como éticamente, para que los sistemas de IA generativa puedan alcanzar todo su potencial.

Histórico de cambios
1
Artículo publicado
Detectado: 04/09/2024
533162 {"title":"Datos abiertos e IA generativa: sinergias y casos de uso","published_date":"2024-09-04","institution_slug":"datosgobes","institution_name":"Portal de datos abiertos del Gobierno de España","category":"press_release","category_name":"Notas de prensa","image":"https:\/\/datos.gob.es\/sites\/default\/files\/styles\/blog_image\/public\/blog\/image\/ia_generativa_y_open_data.png?itok=6uJMfGV8","id":"533162"} datosgobes Blog;casos de uso;IA generativa;inteligencia artificial;RAG;tecnología https://govclipping.com/modules/controller/ReferencesController.php Resaltar Quitar resaltado true https://govclipping.com/modules/controller/ArticlesController.php https://govclipping.com/modules/controller/SubsidyController.php https://govclipping.com/modules/controller/UserDatasetActionsController.php https://govclipping.com/search https://govclipping.com/search?keywords= Error "" region subsidy initiative Error Ha habido un error: {error}. Inténtalo de nuevo más tarde. Éxito La operación se ha realizado correctamente. Elemento guardado en la lista El elemento ha sido modificado Elemento eliminado de la lista Guardar para leer más tarde Aceptar Cancelar No se han encontrado artículos adicionales. https://govclipping.com/modules/controller/NewslettersController.php ¡Suscripción realizada! Te has suscrito correctamente a la newsletter de GovClipping. Algo salió mal No ha sido posible suscribirte a la newsletter. Vuelve a introducir tu email o inténtalo de nuevo más tarde. Error No se ha podido enviar la alerta de prueba a tu correo electrónico {email}. Inténtalo de nuevo más tarde. Alerta de prueba enviada Se ha enviado una alerta de prueba únicamente a tu email {email}. Revisa tu carpeta de Spam y añade @govclipping.com a tu lista de contactos. Enviar email de prueba Se enviará un email de prueba únicamente al correo electrónico de esta cuenta. Si no lo recibes, revisa tu carpeta de Spam. Enviar a todos los destinatarios Se enviará el correo electrónico a todos los destinatarios. Si no lo reciben, revisen su carpeta de Spam. Error No se ha podido enviar el correo electrónico a todos o algunos de los destinatarios. Inténtalo de nuevo más tarde. Correo electrónico enviado Se ha enviado el correo electrónico a todos los destinatarios. Revisen su carpeta de Spam y añadan @govclipping.com a su lista de contactos. Este contenido está disponible para usuarios premium Mejora tu cuenta para desbloquear y acceder todo el contenido premium sin restricciones. Consulta todas las ventajas de ser Premium en Planes de suscripción. Mejora tu cuenta https://govclipping.com/pricing Enlace copiado en portapapeles. Tu cuenta no está asociada a un Organización. Únete a uno o actualiza tu suscripción para crear tu propia Organización. https://govclipping.com/es/datosgobes/press_release/2024-09-04/533162-datos-abiertos-e-ia-generativa-sinergias-casos-uso https://govclipping.com/signup https://govclipping.com/modules/controller/UserController.php Sector económico actualizado! El sector económico de tu perfil ha sido actualizado correctamente. Error Por algún motivo no hemos podido tramitar la petición. Vuelve a intentarlo más tarde.