En una conferencia sobre seguridad de TI en Arlington, Virginia, en octubre pasado, unas pocas docenas de investigadores de IA participaron en un ejercicio primario de su tipo como un “equipo rojo” o probando el estrés de un modelo de idioma avanzado y otros sistemas de inteligencia artificial. Durante dos días, los equipos identificaron 139 formas de garantizar que los sistemas se comporten gravemente, en particular mediante la generación de poca información o una fuga de datos personales. Más importante aún, han mostrado brechas en un nuevo estándar de gobierno estadounidense diseñado para ayudar a las empresas a probar los sistemas de inteligencia artificial.
El Instituto Nacional de Normas y Tecnología (NIST) no ha publicado un informe que detalla el ejercicio, que se completó hacia el final de la administración Biden. El documento puede haber ayudado a las empresas a evaluar sus propios sistemas de IA, pero las fuentes familiarizadas con la situación, que habló bajo la apariencia de anonimato, afirman que era uno de los muchos documentos de la IA NIST que no se publicó por temor a competir con la administración entrante.
“Se ha vuelto muy difícil, incluso bajo (el presidente Joe) Biden, salir de los documentos”, dijo una fuente que estaba en el NIST en ese momento. “Se parecía muy a una investigación sobre el cambio climático o la investigación sobre cigarrillos”.
Ni NIST ni el Departamento de Comercio respondieron a una solicitud de comentarios.
Antes de asumir el cargo, el presidente Donald Trump informó que planeaba revertir Orden ejecutiva de Biden en AI. Desde entonces, la administración Trump ha eliminado a los expertos del estudio de problemas como el sesgo algorítmico o la equidad en los sistemas de IA. EL Plan de acción de AI Lanzado en julio llama explícitamente que el Marco de Gestión de Riesgos de AI NIST se revisa “para eliminar las referencias a la desinformación, la diversidad, las acciones y la inclusión y el cambio climático”.
Irónicamente, sin embargo, el Plan de Acción de Trump AI también exige exactamente el tipo de ejercicio que el informe cubierto no publicado. Proporciona que muchas agencias y el NIST para “coordinar una iniciativa AI Hackathon para solicitar lo mejor y más brillante en el mundo académico estadounidense para probar los sistemas de IA en busca de transparencia, eficiencia, control y vulnerabilidades de seguridad”.
El evento en el equipo rojo se organizó a través de los impactos de riesgo y evaluación del programa NIST del AI (ARIA) en colaboración con Humane Intelligence, una compañía especializada en prueba de la IA vio a los sistemas de los equipos de ataque del equipo. El evento tuvo lugar durante la conferencia sobre el aprendizaje automático aplicado en la seguridad de la información (CAMLIS).
El informe Red Camlis Red Team describe el esfuerzo para investigar varios sistemas de IA de recorte, incluido el código abierto de meta, meta; Anote, una plataforma para modelos de construcción y EA con ajuste fino; Un sistema que bloquea los ataques contra Sist. Sistemas de inteligencia inteligente de inteligencia, una compañía adquirida por Cisco; Y una plataforma para generar avatares de IA a partir de la síntesis de la compañía. Los representantes de cada una de las empresas también participaron en el ejercicio.
Los participantes fueron invitados a usar el NIST tienes 600-1 Marco para evaluar las herramientas de IA. El marco cubre las categorías de riesgo, en particular la generación de ataques de desinformación o ciberseguridad, la fuga de información privada del usuario o información crítica sobre sistemas de IA relacionados y el potencial para que los usuarios se adjunten emocionalmente a las herramientas de IA.
Los investigadores descubrieron varios consejos para probar modelos y herramientas para omitir sus barandas y generar desinformación, revelar datos personales y ayudar a desarrollar ataques de seguridad cibernética. El informe indica que las personas involucradas vieron que ciertos elementos del marco NIST eran más útiles que otros. El informe indica que algunas de las categorías de riesgo de NIST no se han definido insuficientemente para ser útiles en la práctica.