NUEVA YORK.– Es martes por la tarde y en un edificio de estilo eduardiano situado junto al Parliament Square de Londres, cuatro expertos en inteligencia artificial están ocupadísimos tratando de hacerle pisar el palito a un chatbot de IA para que les comparta las instrucciones para armamentizar la bacteria causante del ántrax y convertirla en una letal arma biológica.
Los expertos le pidieron de varias maneras al chatbot que les diera la lista de ingredientes necesarios, junto con una receta paso a paso para hacer esa mezcla letal de manera casera.
“Hay algunas preguntas que definitivamente no queremos que el modelo responda”, dice Xander Davies, un norteamericano de 25 años que dirige lo que se conoce como el “equipo rojo” del Instituto de Seguridad de la IA de Gran Bretaña. “Y nosotros probamos de mil maneras para que nos arroje la respuesta”.
Davies y su equipo rojo, que simula ataques a sistemas de IA, recientemente también lograron vulnerar las medidas de seguridad de la nueva versión de ChatGPT de OpenAI: después de seis horas de vueltas e insistencias, consiguieron que les diera consejos de hackeo. Cuando detectan problemas, el equipo comparte sus resultados con la empresa desarrolladora.
“Ellos intentan solucionarlo y a continuación nos informan lo que encontraron”, dice Davies, un experto informático que tras recibirse en Harvard optó por trabajar en el instituto británico en vez de en una empresa tecnológica en San Francisco. “De hecho, gracias a nuestra ayuda ellos mejoran sus sistemas”.
El Instituto de Seguridad de la IA está integrado por inspectores de armas, epidemiólogos y expertos en criptografía y es uno de los proyectos gubernamentales más grandes y mejor financiados del mundo para investigar los riesgos potencialmente catastróficos de esta incipiente tecnología.
Los casi 100 empleados del instituto —procedentes de agencias de inteligencia británicas, el mundo académico y empresas tecnológicas— han detectado importantes fallos de seguridad en todos los modelos de IA líderes que han probado, incluidos Claude, de Anthropic, y Gemini, de Google. Creada hace casi tres años, el laboratorio ya afirma haber logrado coaccionar a sistemas de IA para que compartan instrucciones para la fabricación de armas químicas y biológicas, así como para planificar y ejecutar ciberataques.
El instituto publica sus investigaciones y colabora con las agencias de seguridad nacional británicas para identificar y prepararse para cualquier amenaza que pueda surgir de la IA.
Ante la creciente preocupación en materia de seguridad que plantea la IA, el trabajo del instituto británico ya se está convirtiendo en un modelo a seguir para otros gobiernos. La administración Trump está considerando aplicar normas para la evaluación de modelos de IA que presentan algunas similitudes con el enfoque pionero del grupo británico.
Dado que muchos gobiernos carecen de los conocimientos técnicos necesarios para supervisar esta tecnología y dependen de que las grandes empresas tecnológicas se autorregulen, el instituto podría ofrecer una vía alternativa, en la que los expertos en IA aporten conocimientos tecnológicos reales para la toma de decisiones de sus gobiernos.
“No se puede dejar que las empresas evalúen sus propios errores”, declaró en una entrevista el exprimer ministro británico Rishi Sunak, creador del instituto. “Eso es función de las instituciones democráticas”.
En abril, la empresa Anthropic anunció el lanzamiento de un nuevo modelo de IA, Mythos, que no lanzó al público por temor a que pudiera encontrar y explotar vulnerabilidades de ciberseguridad en las redes globales.
El instituto británico fue la única organización gubernamental no estadounidense que tuvo acceso al modelo para realizar pruebas de seguridad. Sus conclusiones, publicadas seis días después del anuncio de Mythos, fueron ampliamente citadas por expertos en seguridad.
Estados Unidos cuenta con su propio grupo de seguridad de IA, el Centro para Estándares e Innovación de IA, pero la versión británica, respaldada por 360 millones de libras esterlinas de fondos estatales —unos 480 millones de dólares—, es más grande y cuenta con mayor financiación que su homóloga norteamericana, que este años recibirá unos magros 10 millones de dólares. Australia, Canadá, China, Francia, India, Japón y Singapur han creado institutos similares.
De todos modos, la inversión global en seguridad de la IA ha quedado eclipsada por las enormes sumas destinadas al desarrollo y la comercialización de esa tecnología. OpenAI, Anthropic y Google cuentan con equipos que trabajan en controles de seguridad, pero los investigadores externos detectan fallas con peligrosa frecuencia. Recientemente, utilizando poesía, los académicos italianos lograron engañar a un modelo de IA para que les diera las instrucciones para la fabricación de bombas.
En líneas generales, los gobiernos no han creado sistemas dedicados a evaluar la IA en cuanto a sus riesgos de seguridad, como sí lo han hecho para controlar sectores como el desarrollo de fármacos o la fabricación de automóviles.
“Lo que me quita el sueño es la relativa velocidad del avance de esta tecnología en comparación con la capacidad de respuesta de los gobiernos”, apunta Jade Leung, asesora de IA del primer ministro británico Keir Starmer y directora de tecnología del Instituto de Seguridad de la IA.
Este instituto de seguridad británico surgió de una reunión que se celebró en 2023 entre el entonces primer ministro Sunak y tres de los líderes en IA más destacados del mundo: Sam Altman, de OpenAI, Dario Amodei, de Anthropic, y Demis Hassabis, de Google DeepMind. Sunak recuerda que en esa reunión le comentaron que las capacidades de la IA se estaban acelerando, y que tendría profundas implicaciones para el gobierno, el empleo y la seguridad nacional británica.
“Ellos mismos estaban pasmados por la aceleración del desarrollo de la IA”, recordó Sunak.
En noviembre de 2023, Sunak anunció la creación del instituto en una cumbre de líderes mundiales sobre seguridad de la IA realizada en el legendario Bletchley Park, donde durante la Segunda Guerra Mundial Alan Turing y sus colegas descifraron los códigos de encriptación de la Alemania nazi.
El instituto trabaja sobre los riesgos potenciales más graves que entraña la IA avanzada: ciberamenazas, armas químicas y biológicas, y la manipulación del comportamiento humano. En las últimas semanas, sus técnicos descubrieron que los modelos de IA de Anthropic y OpenAI podrían completar un ataque complejo de 32 pasos a una red corporativa mucho más rápido que un hacker humano experto, al que normalmente le llevaría más de 20 horas.
Otra área de investigación estudia si los modelos de IA se dan cuenta cuándo están siendo puestos a prueba y si a partir de allí modifican su comportamiento, un avance que indicaría su nivel de entendimiento y de capacidad para engañar.
Adam Beaumont, director interino del Instituto de Seguridad de la IA, afirmó que uno de los principales temores es la imitación del comportamiento humano que pueda hacer esa tecnología. El año pasado, el instituto publicó un estudio que revela que los chatbots pueden influir en las opiniones políticas de las personas.
El instituto se ha convertido en un modelo para otros, señala Olivia Shen, directora del programa de tecnologías estratégicas de la Universidad de Sídney. El año pasado, Leung, del instituto británico, viajó a Australia para reunirse con funcionarios australianos y este año Australia inauguró su propio centro de seguridad de la IA.
“Los gobiernos tienen que ponerse al día”, advierte Shen. “Al ritmo que avanza la IA, los gobiernos van perdiendo terreno día a día”.
Traducción de Jaime Arrambide


Los comentarios están cerrados.