Ciencia y Tecnología

Gran Bretaña crea un laboratorio de seguridad para detectar riesgos de la IA

El Instituto de Seguridad de la IA, financiado con 480 millones de dólares, prueba sistemas de inteligencia artificial para encontrar vulnerabilidades antes de que causen daño.

Redacción3 min de lectura
Gran Bretaña crea un laboratorio de seguridad para detectar riesgos de la IA
Gran Bretaña crea un laboratorio de seguridad para detectar riesgos de la IA

En un edificio histórico frente al Parlamento de Londres, expertos en inteligencia artificial trabajan para hacerle pisar el palito a los chatbots. Su objetivo: forzar a los sistemas a revelar instrucciones para fabricar armas biológicas, químicas o ejecutar ciberataques. Este es el trabajo cotidiano del Instituto de Seguridad de la IA del gobierno británico, uno de los proyectos gubernamentales más grandes y mejor financiados del mundo para investigar los riesgos potencialmente catastróficos de esta incipiente tecnología.

Xander Davies, un informático estadounidense de 25 años, dirige el "equipo rojo" de la institución. Este equipo simula ataques contra sistemas de IA para identificar debilidades. Hace poco, Davies y sus colegas pasaron seis horas probando la nueva versión de ChatGPT de OpenAI hasta que finalmente consiguieron que el sistema les proporcionara consejos de hackeo. "Hay algunas preguntas que definitivamente no queremos que el modelo responda", explica Davies. "Y nosotros probamos de mil maneras para que nos arroje la respuesta".

Cuando detectan problemas, el equipo comparte sus resultados con las empresas desarrolladoras. OpenAI, Anthropic y Google utilizan esta información para mejorar sus sistemas de seguridad. El instituto, creado hace casi tres años, ya ha detectado importantes fallos en todos los modelos de IA líderes que ha probado, incluidos Claude de Anthropic y Gemini de Google.

La institución cuenta con casi 100 empleados procedentes de agencias de inteligencia británicas, el mundo académico y empresas tecnológicas. Entre ellos hay inspectores de armas, epidemiólogos y expertos en criptografía. Ha logrado coaccionar a sistemas de IA para que compartan instrucciones de fabricación de armas químicas y biológicas, así como para planificar ciberataques sofisticados. En las últimas semanas, descubrió que los modelos de Anthropic y OpenAI pueden completar un ataque de 32 pasos a una red corporativa mucho más rápido que un hacker humano experto.

El trabajo del instituto ya se está convirtiendo en un modelo a seguir para otros gobiernos. La administración Trump está considerando aplicar normas para la evaluación de modelos de IA con similitudes al enfoque británico. Australia, Canadá, China, Francia, India, Japón y Singapur han creado institutos similares.

Gran Bretaña respalda el proyecto con 360 millones de libras esterlinas, unos 480 millones de dólares. Es más grande y cuenta con mayor financiación que el homólogo estadounidense, el Centro para Estándares e Innovación de IA, que este año recibirá apenas 10 millones de dólares. Sin embargo, la inversión global en seguridad de la IA ha quedado eclipsada por las enormes sumas destinadas al desarrollo y la comercialización de la tecnología.

El instituto surgió de una reunión celebrada en 2023 entre el entonces primer ministro Rishi Sunak y tres líderes mundiales de la IA: Sam Altman de OpenAI, Dario Amodei de Anthropic y Demis Hassabis de Google DeepMind. Sunak recuerda que le comentaron que las capacidades de la IA se estaban acelerando con profundas implicaciones para la seguridad nacional. "Ellos mismos estaban pasmados por la aceleración del desarrollo de la IA", recordó.

En noviembre de 2023, Sunak anunció la creación del instituto en una cumbre mundial sobre seguridad de la IA en Bletchley Park, el sitio histórico donde Alan Turing y sus colegas descifraron códigos nazis durante la Segunda Guerra Mundial. "No se puede dejar que las empresas evalúen sus propios errores", afirmó Sunak. "Eso es función de las instituciones democráticas".

El instituto investiga los riesgos potenciales más graves: ciberamenazas, armas químicas y biológicas, y la manipulación del comportamiento humano. En abril, la empresa Anthropic anunció el lanzamiento de un nuevo modelo, Mythos, que no lanzó al público por temor a que pudiera encontrar y explotar vulnerabilidades de ciberseguridad. El instituto británico fue la única organización gubernamental no estadounidense que tuvo acceso para realizar pruebas de seguridad.

Jade Leung, asesora de IA del primer ministro británico Keir Starmer y directora de tecnología del instituto, señala la urgencia del trabajo: "Lo que me quita el sueño es la relativa velocidad del avance de esta tecnología en comparación con la capacidad de respuesta de los gobiernos".

Los gobiernos en general no han creado sistemas dedicados a evaluar la IA en cuanto a sus riesgos de seguridad, como sí lo han hecho para controlar sectores como el desarrollo de fármacos o la manufactura automotriz. Aunque OpenAI, Anthropic y Google cuentan con equipos de controles de seguridad, investigadores externos detectan fallas con peligrosa frecuencia. Recientemente, académicos italianos utilizando poesía engañaron a un modelo de IA para que les diera instrucciones de fabricación de bombas.

Más en Ciencia y Tecnología