sábado 4 de enero de 2025
Search
Close this search box.

Universidad española participa en proyecto Inteligencia Artificial

Barcelona, 18 abr (Prensa Latina) La Universitat Oberta de Catalunya (UOC) participa con la asociación MLCommons en un nuevo formato de metadatos para Inteligencia Artificial (IA).

Así lo anunció hoy el alto centro de estudios, en una nota de prensa en la que refirió que MLCommons acaba de lanzar al mercado Croissant, un nuevo formato de metadatos para indexar los conjuntos de datos preparados para el Machine Learning.

Explicó que los datos son el núcleo de la IA y los profesionales del aprendizaje automático necesitan utilizar grandes conjuntos para entrenar los modelos de inteligencia artificial que están cambiando el mundo en diferentes ámbitos.

Uno de los problemas con que se encuentran, sin embargo, es que a menudo tienen que dedicar mucho tiempo a encontrar los datos necesarios para su propósito, entenderlos, dar sentido a su organización.

Para solucionar este reto que retrasa el desarrollo de la IA, la UOC resaltó la incursión de Croissant, diseñado en colaboración entre los equipos de investigación de las principales empresas del sector tecnológico —Google, Meta, Amazon.

También con el aporte de universidades como Harvard, el King’s College de Londres y la UOC,

que ha participado con Joan Giner, investigador del grupo de investigación SOM Research Lab del Internet Interdisciplinary Institute (IN3).

«Podemos comparar esta propuesta con la que permitió poder buscar cualquier cosa en internet mediante el buscador de Google hace 20 años, pero adaptada al campo de la inteligencia artificial», comentó Giner

El investigador de la UOC apuntó que Croissant no cambia el formato como se representan los datos —por ejemplo, en ficheros de imagen, audio o texto—, sino que proporciona una manera estándar de describirlos y organizarlos.

El nuevo lenguaje expande Schema.org, un estándar legible para las máquinas para describir datos estructurados, que ya se utiliza además de 40 millones de conjuntos de datos en la web y permite que se puedan descubrir con motores de búsqueda como Google Dataset Search.

Croissant tiene capas de información muy útiles referentes a la estructura, el tipo de atributos o cómo descargar estos datos, y hará que sea mucho más fácil hallar e integrar estos conjuntos de datos en las aplicaciones de IA.

«Esto supone un cambio muy relevante, porque la diferencia entre una IA muy buena y una regular es que la primera está entrenada con un conjunto de datos mucho mayor. Ahora que estamos en la era del Big Data y que se publican muchos diariamente, era crucial poner orden para poder acceder a ellos más fácilmente», detalló Giner.

Los mayores repositorios de datos para IA del mundo —HuggingFace, Kaggle, OpenML— también forman parte del proyecto y ya tienen todos sus conjuntos de datos descritos con Croissant e indexados en Google Dataset Search.

Además, los principales programas de Machine Learning para entrenar las IA con datos también lo han integrado. «Por lo tanto, podemos considerar que estamos, de facto, ante el estándar de descripción de datos para IA», acotó el experto.

El investigador Giner participó en el programa de Croissant como su trabajo de doctorado en la UOC.

«Queríamos definir cómo debían documentarse los datos para tener confianza en su uso y no generar problemas éticos», apostilló.

Al afrontar la IA en esta etapa inicial, se esclarecieron muchas cosas, como evitar casos surgidos en aplicaciones de IA médica.

“Fallaban más diagnósticos en mujeres, sobre todo negras, que en hombres blancos debido a la falta de mujeres, y especialmente de mujeres negras, en los datos de entrenamiento», confesó el especialista del IN3.

«Al final, la IA parece inteligente, pero no lo es. Es una gran reproductora de los patrones que hay en los datos. Y si estos datos no se ajustan a la realidad que quieren representar, no funcionará bien», sentenció el doctor Joan Giner.

ro/ft

MINUTO A MINUTO
relacionadas
EDICIONES PRENSA LATINA
Copy link