Evaluar para confiar: el rol clave de la validación y los datos abiertos en la IA generativa

Resumen autogenerado por OpenAI

Audios generados (reproducción automática)

Los audios se reproducen de forma automática uno detrás de otro. Haz clic en el icono para descargar el audio o aumentar/disminuir la velocidad de reproducción.
Debido al tamaño del artículo, la generación del audio puede tardar unos segundos y es posible que se generen varios audios para un mismo artículo.

Imagen del artículo Evaluar para confiar: el rol clave de la validación y los datos abiertos en la IA generativa

La inteligencia artificial generativa comienza a estar presente en aplicaciones cotidianas que van desde agentes virtuales (o equipos de agentes virtuales) que nos resuelven dudas cuando llamamos a un centro de atención al cliente hasta asistentes inteligentes que redactan automáticamente resúmenes de reuniones o propuestas de informes en entornos de oficina.

Estas aplicaciones, gobernadas a menudo por modelos fundacionales de lenguaje (LLM), prometen revolucionar sectores enteros sobre la base de conseguir enormes ganancias en productividad. Sin embargo, su adopción conlleva nuevos retos ya que, a diferencia del software tradicional, un modelo de IA generativa no sigue reglas fijas escritas por humanos, sino que sus respuestas se basan en patrones estadísticos aprendidos tras procesar grandes volúmenes de datos. Esto hace que su comportamiento sea menos predecible y más difícil de explicar y que a veces ofrezca resultados inesperados, errores complicados de prever o respuestas que no siempre se alinean con las intenciones originales del creador del sistema.

Por ello, la validación de estas aplicaciones desde múltiples perspectivas como la ética, la seguridad o la consistencia es esencial para garantizar la confianza en los resultados de los sistemas que estamos creando en esta nueva etapa de transformación digital.

¿Qué hay que validar en los sistemas basados en IA generativa?

Validar los sistemas basados en IA generativa significa comprobar rigurosamente que cumplen ciertos criterios de calidad y responsabilidad antes de confiar en ellos para resolver tareas sensibles.

No se trata solo de verificar que "funcionan", sino de asegurarse de que se comportan según lo esperado, evitando sesgos, protegiendo a los usuarios, manteniendo su estabilidad en el tiempo y cumpliendo las normas éticas y legales aplicables. La necesidad de una validación integral suscita un cada vez más amplio consenso entre expertos, investigadores, reguladores e industria: para desplegar IA de forma confiable se requieren estándares, evaluaciones y controles explícitos.

Resumimos cuatro dimensiones clave que deben verificarse en los sistemas basados en IA generativa para alinear sus resultados con las expectativas humanas:

  • Ética y equidad: un modelo debe respetar principios éticos básicos y evitar perjudicar a personas o grupos. Esto implica detectar y mitigar sesgos en sus respuestas para no perpetuar estereotipos ni discriminación. También requiere filtrar contenido tóxico u ofensivo que pudiera dañar a los usuarios. La equidad se evalúa comprobando que el sistema ofrece un trato consistente a distintos colectivos demográficos, sin favorecer ni excluir indebidamente a nadie.
  • Seguridad y robustez: aquí nos referimos tanto a la seguridad del usuario (que el sistema no genere recomendaciones peligrosas ni facilite actividades ilícitas) como a la robustez técnica frente a errores y manipulaciones. Un modelo seguro debe evitar instrucciones que lleven, por ejemplo, a conductas ilegales, rechazando esas solicitudes de manera fiable. Además, la robustez implica que el sistema resista ataques adversarios (como peticiones diseñadas para engañarlo) y que funcione de forma estable bajo distintas condiciones.
  • Consistencia y fiabilidad: los resultados de la IA generativa deben ser consistentes, coherentes y correctos. En aplicaciones como las de diagnóstico médico o asistencia legal, no basta con que la respuesta suene convincente; debe ser cierta y precisa. Por ello se validan aspectos como la coherencia lógica de las respuestas, su relevancia respecto a la pregunta formulada y la exactitud factual de la información. También se comprueba su estabilidad en el tiempo (que ante dos peticiones similares se ofrezcan resultados equivalentes bajo las mismas condiciones) y su resiliencia (que pequeños cambios en la entrada no provoquen salidas sustancialmente diferentes).
  • Transparencia y explicabilidad: para confiar en las decisiones de un sistema basado en IA, es deseable entender cómo y por qué las produce. La transparencia incluye proporcionar información sobre los datos de entrenamiento, las limitaciones conocidas y el rendimiento del modelo en distintas pruebas. Muchas empresas están adoptando la práctica de publicar "tarjetas del modelo" (model cards), que resumen cómo fue diseñado y evaluado un sistema, incluyendo métricas de sesgo, errores comunes y casos de uso recomendados. La explicabilidad va un paso más allá y busca que el modelo ofrezca, cuando sea posible, explicaciones comprensibles de sus resultados (por ejemplo, destacando qué datos influyeron en cierta recomendación). Una mayor transparencia y capacidad de explicación aumentan la rendición de cuentas, permitiendo que desarrolladores y terceros auditen el comportamiento del sistema.

Datos abiertos: transparencia y pruebas más diversas

Para validar adecuadamente los modelos y sistemas de IA, sobre todo en cuanto a equidad y robustez, se requieren conjuntos de datos representativos y diversos que reflejen la realidad de distintas poblaciones y escenarios.

Por otra parte, si solo las empresas dueñas de un sistema disponen datos para probarlo, tenemos que confiar en sus propias evaluaciones internas. Sin embargo, cuando existen conjuntos de datos abiertos y estándares públicos de prueba, la comunidad (universidades, reguladores, desarrolladores independientes, etc.) puede poner a prueba los sistemas de forma autónoma, funcionan así como un contrapeso independiente que sirve a los intereses de la sociedad.

Un ejemplo concreto lo dio Meta (Facebook) al liberar en 2023 su conjunto de datos Casual Conversations v2. Se trata de un conjunto de datos abiertos, obtenido con consentimiento informado, que recopila videos de personas de 7 países (Brasil, India, Indonesia, México, Vietnam, Filipinas y EE.UU.), con 5.567 participantes que proporcionaron atributos como edad, género, idioma y tono de piel.

El objetivo de Meta con la publicación fue precisamente facilitar que los investigadores pudiesen evaluar la imparcialidad y robustez de sistemas de IA en visión y reconocimiento de voz. Al expandir la procedencia geográfica de los datos más allá de EE.UU., este recurso permite comprobar si, por ejemplo, un modelo de reconocimiento facial funciona igual de bien con rostros de distintas etnias, o si un asistente de voz comprende acentos de diferentes regiones.

La diversidad que aportan los datos abiertos también ayuda a descubrir áreas descuidadas en la evaluación de IA. Investigadores del Human-Centered Artificial Intelligence (HAI) de Stanford pusieron de manifiesto en el proyecto HELM (Holistic Evaluation of Language Models) que muchos modelos de lenguaje no se evalúan en dialectos minoritarios del inglés o en idiomas poco representados, simplemente porque no existen datos de calidad en los benchmarks más conocidos.

La comunidad puede identificar estas carencias y crear nuevos conjuntos de prueba para llenarlos (por ejemplo, un conjunto de datos abierto de preguntas frecuentes en suajili para validar el comportamiento de un chatbot multilingüe). En este sentido, HELM ha incorporado evaluaciones más amplias precisamente gracias a la disponibilidad de datos abiertos, permitiendo medir no solo el rendimiento de los modelos en tareas comunes, sino también su comportamiento en otros contextos lingüísticos, culturales y sociales. Esto ha contribuido a visibilizar las limitaciones actuales de los modelos y a fomentar el desarrollo de sistemas más inclusivos y representativos del mundo real o modelos más adaptados a necesidades específicas de contextos locales como es el caso de modelo fundacional ALIA, desarrollado en España.

En definitiva, los datos abiertos contribuyen a democratizar la capacidad de auditar los sistemas de IA, evitando que el poder de validación resida solo en unos pocos. Permiten reducir los costes y barreras ya que un pequeño equipo de desarrollo puede probar su modelo con conjuntos abiertos sin tener que invertir grandes esfuerzos en recopilar datos propios. De este modo no solo se fomenta la innovación, sino que se consigue que soluciones de IA locales de pequeñas empresas estén sometidas también a estándares de validación rigurosos.

La validación de aplicaciones basadas en IA generativa es hoy una necesidad incuestionable para asegurar que estas herramientas operen en sintonía con nuestros valores y expectativas. No es un proceso trivial, requiere metodologías nuevas, métricas innovadoras y, sobre todo, una cultura de responsabilidad en torno a la IA. Pero los beneficios son claros, un sistema de IA rigurosamente validado será más confiable, tanto para el usuario individual que, por ejemplo, interactúa con un chatbot sin temor a recibir una respuesta tóxica, como para la sociedad en su conjunto que puede aceptar las decisiones basadas en estas tecnologías sabiendo que han sido correctamente auditadas. Y los datos abiertos contribuyen a cimentar esta confianza ya que fomentan la transparencia, enriquecen las pruebas con diversidad y hacen partícipe a toda la comunidad en la validación de los sistemas de IA..


Contenido elaborado por Jose Luis Marín, Senior Consultant in Data, Strategy, Innovation & Digitalization. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.

Documentos descargables
0
Histórico de cambios
1
Artículo publicado
Detectado: 20/06/2025
1062904 {"title":"Evaluar para confiar: el rol clave de la validación y los datos abiertos en la IA generativa","published_date":"2025-06-20","region":"datosgobes","region_text":"Portal de datos abiertos del Gobierno de España","category":"press_release","category_text":"Notas de prensa","image":"https:\/\/datos.gob.es\/sites\/default\/files\/styles\/blog_image\/public\/blog\/image\/imagen_iavalidacion.jpg?itok=6xHOl4zF","id":"1062904"} datosgobes aplicaciones;Blog;buenas prácticas;Ciencia y tecnología;datos abiertos;inteligencia artificial https://govclipping.com/modules/controller/ReferencesController.php Resaltar Quitar resaltado true https://govclipping.com/modules/controller/ArticlesController.php https://govclipping.com/modules/controller/SubsidyController.php https://govclipping.com/modules/controller/UserDatasetActionsController.php https://govclipping.com/search https://govclipping.com/search?keywords= Error "" region subsidy initiative Error Ha habido un error: {error}. Inténtalo de nuevo más tarde. Éxito La operación se ha realizado correctamente. Elemento guardado en la lista El elemento ha sido modificado Elemento eliminado de la lista Guardar para leer más tarde Aceptar Cancelar No se han encontrado artículos adicionales. https://govclipping.com/modules/controller/NewslettersController.php ¡Suscripción realizada! Te has suscrito correctamente a la newsletter de GovClipping. Algo salió mal No ha sido posible suscribirte a la newsletter. Vuelve a introducir tu email o inténtalo de nuevo más tarde. Error No se ha podido enviar la alerta de prueba a tu correo electrónico {email}. Inténtalo de nuevo más tarde. Alerta de prueba enviada Se ha enviado una alerta de prueba únicamente a tu email {email}. Revisa tu carpeta de Spam y añade @govclipping.com a tu lista de contactos. Enviar email de prueba Se enviará un email de prueba únicamente al correo electrónico de esta cuenta. Si no lo recibes, revisa tu carpeta de Spam. Enviar a todos los destinatarios Se enviará el correo electrónico a todos los destinatarios. Si no lo reciben, revisen su carpeta de Spam. Error No se ha podido enviar el correo electrónico a todos o algunos de los destinatarios. Inténtalo de nuevo más tarde. Correo electrónico enviado Se ha enviado el correo electrónico a todos los destinatarios. Revisen su carpeta de Spam y añadan @govclipping.com a su lista de contactos. Este contenido está disponible para usuarios premium Mejora tu cuenta para desbloquear y acceder todo el contenido premium sin restricciones. Consulta todas las ventajas de ser Premium en Planes de suscripción. Mejora tu cuenta https://govclipping.com/pricing Enlace copiado en portapapeles. Tu cuenta no está asociada a un Organización. Únete a uno o actualiza tu suscripción para crear tu propia Organización. https://govclipping.com/es/datosgobes/press_release/2025-06-20/1062904-evaluar-confiar-rol-clave-validacion-datos-abiertos-ia-generativa https://govclipping.com/signup https://govclipping.com/modules/controller/UserController.php Sector económico actualizado! El sector económico de tu perfil ha sido actualizado correctamente. Error Por algún motivo no hemos podido tramitar la petición. Vuelve a intentarlo más tarde.