El denominador común en resolución de problemas mediante la inteligencia artificial es la necesidad de datos reales y de buena calidad disponibles para avanzar en los diferentes procedimientos necesarios para crear y entrenar unos modelos adecuados. La investigación práctica en IA a menudo carece de conjuntos de datos disponibles y fiables para que los profesionales puedan probar diferentes algoritmos de inteligencia artificial para la resolución de problemas.
En algunos campos de investigación industrial como el mantenimiento predictivo esta falta de datos es particularmente desafiante, ya que muchos investigadores no tienen acceso a equipos industriales reales o no hay conjuntos de datos disponibles que representen un contenido rico en información en los diferentes tipos de fallos que se puedan presentar en el equipo a analizar. Además de eso, los conjuntos de datos disponibles están claramente desequilibrados desde el punto de vista estadístico, ya que la norma para las máquinas es que funcionen correctamente y solo aparezcan pocos ejemplos de fallas durante su vida útil.
Es muy importante desde el punto de vista de la investigación en IA la disponibilidad de fuentes de datos fiables e interesantes que nos puedan proporcionar gran cantidad de ejemplos para probar diferentes algoritmos de procesamientos de señales e introducir a estudiantes e investigadores en aplicaciones prácticas como el procesamiento de señales, la clasificación o la predicción.
La situación soñada para los investigadores y desarrolladores de soluciones de inteligencia artificial, es que todo el mundo, en la medida de lo posible, comparta datos, pero compartir datos no puede verse solo como una forma de ayudar a otras personas, compartir los datos de investigación puede traer muchas ventajas al donante de estos datos:
- Es parte de las buenas prácticas en datos y ciencia abierta, al hacer que los datos sean accesibles junto con los artículos científicos generados.
- Reducir el fraude académico y evitar la publicación de estudios basados en datos falsos.
- Validar resultados. Cualquiera puede cometer un error, si compartimos los datos que utilizamos, otros investigadores podrían replicar nuestro trabajo y detectar cualquier error potencial.
- Más avances científicos. Esto es especialmente cierto en las ciencias sociales y de la salud, donde el intercambio de datos permitiría, por ejemplo, más estudios en el cerebro humano como la enfermedad de Alzheimer y muchos otros.
- Mejores herramientas para la docencia basadas en el análisis de casos reales.
- Dar mayor relevancia a nuestros trabajos. Diferentes estudios revelan que los trabajos científicos que ponen los datos a disposición en un repositorio público tienen más probabilidades de recibir más referencias que estudios similares para los cuales los datos no están disponibles.
A nivel europeo, la Comisión Europea ha lanzado el Open Research Europe, un programa de publicación científica, para los beneficiarios de proyectos Horizonte 2020 y Horizonte Europa con un servicio para publicar sus resultados en pleno cumplimiento de las políticas de acceso abierto de la Comisión. El servicio proporciona un lugar fácil y de alta calidad revisado por pares para publicar sus resultados en acceso abierto, sin costo para ellos. Otra parte interesante del servicio de esta iniciativa de investigación abierta es Zenodo, un repositorio abierto para cargar los resultados de su investigación (conjuntos de datos, algoritmos, videos,…). Además de las pautas de publicación de investigación abierta, también están disponibles pautas de datos que también se adhieren a los principios F.A.I.R en relación con una serie de repositorios fiables como Zenodo con los que la comisión europea nos obliga a cumplir.
Los principios F.A.I.R a seguir para la publicación de datos significan que los datos y metadatos que los definen deben ser:
- Findables (Encontrable): a los (meta)datos se les asigna un identificador global, único y duradero.
- Accesibles: los (meta)datos se pueden recuperar por su identificador utilizando un protocolo de comunicaciones estandarizado.
- Interoperables: los (meta)datos utilizan un lenguaje formal, accesible, compartido y ampliamente aplicable para representar el conocimiento.
- Reutilizables: los meta(datos) se describen de una forma rica, con una serie de atributos precisos, variados y relevantes.
Además, desde el punto de vista gubernamental de la Comisión Europea, tanto la Estrategia Europea de Datos como la política de Gobernanza de Datos son iniciativas poderosas centradas en la implementación de espacios de datos europeos, entre los cuales la Comisión propone la creación de un espacio de datos industrial (fabricación) europeo específico para aprovechar la fuerte base industrial europea y mejorar su competitividad.
Como investigadores de CARTIF, estamos comprometidos a promover la ciencia abierta con nuestros proyectos de investigación. Por ejemplo, en el proyecto CAPRI tiene disponible su propio repositorio Zenodo, donde periódicamente subimos resultados de las soluciones que estamos desarrollando para la industria de procesos, como sensores cognitivos o algoritmos de control cognitivo. Os invitamos a visitar el repositorio y echar un vistazo a más de 40 conjuntos de datos, códigos fuente o vídeos que ya hemos compartido.
- Tras el telón: Inteligencia Artificial Explicable - 12 julio 2024
- Gemelo Digital: la Industria 4.0 en su forma digitalizada - 9 octubre 2023
- Inteligencia Artificial, una inteligencia que necesita datos nada artificiales - 16 diciembre 2022