El estudio de riesgo de IA no publicado del NIST permanece archivado en medio del cambio administrativo

En resumen

Un ejercicio de red-teaming liderado por NIST en CAMLIS evaluó las vulnerabilidades en sistemas avanzados de IA, evaluando riesgos como la desinformación, filtraciones de datos y manipulación emocional.

El estudio de riesgo de IA no publicado de NIST permanece en espera en medio del cambio administrativo

El Instituto Nacional de Estándares y Tecnología (NIST) completó un informe sobre la seguridad de los modelos avanzados de IA hacia el final de la administración de Joe Biden, pero el documento no fue publicado tras la transición a la administración de Donald Trump. Aunque el informe fue diseñado para ayudar a las organizaciones a evaluar sus sistemas de IA, fue uno de varios documentos sobre IA escritos por NIST que se retuvieron de su publicación debido a posibles conflictos con la dirección política de la nueva administración.

Antes de asumir el cargo, el presidente Donald Trump indicó su intención de revocar las órdenes ejecutivas de la era Biden relacionadas con la IA. Desde la transición, la administración ha redirigido el enfoque de los expertos lejos de áreas como el sesgo algorítmico y la equidad en la IA. El Plan de Acción de IA publicado en julio solicita específicamente revisiones al Marco de Gestión de Riesgos de IA de NIST, recomendando la eliminación de referencias a la desinformación, Diversidad, Equidad e Inclusión (DEI), y el cambio climático.

Al mismo tiempo, el Plan de Acción de IA incluye una propuesta que se asemeja a los objetivos del informe no publicado. Dirige a múltiples agencias federales, incluida NIST, a organizar una iniciativa coordinada de hackathon de IA con el objetivo de probar sistemas de IA para la transparencia, funcionalidad, control del usuario y posibles vulnerabilidades de seguridad.

Ejercicio de Red Teaming Liderado por NIST Examina los Riesgos del Sistema de IA Usando el Marco ARIA en la Conferencia CAMLIS

El ejercicio de red-teaming se llevó a cabo bajo el programa Evaluación de Riesgos e Impactos de la IA (ARIA) por el NIST, en colaboración con Humane Intelligence, una empresa que se centra en evaluar sistemas de IA. Esta iniciativa se realizó durante la Conferencia sobre Aprendizaje Automático Aplicado en Seguridad de la Información (CAMLIS), donde los participantes exploraron las vulnerabilidades de una variedad de tecnologías avanzadas de IA.

El informe de Red Teaming de CAMLIS documenta la evaluación de varias herramientas de IA, incluyendo Llama de Meta, un modelo de lenguaje grande de código abierto (LLM); Anote, una plataforma para desarrollar y refinar modelos de IA; un sistema de seguridad de Robust Intelligence, que desde entonces ha sido adquirido por CISCO; y la plataforma de generación de avatares de IA de Synthesia. Representantes de cada organización contribuyeron a las actividades de red-teaming.

Los participantes utilizaron el marco NIST AI 600-1 para analizar las herramientas en cuestión. Este marco describe múltiples áreas de riesgo, como la posibilidad de que la IA produzca información falsa o amenazas a la ciberseguridad, divulgue datos privados o sensibles, o fomente la dependencia emocional entre los usuarios y los sistemas de IA.

Informe de Red Teaming de IA No Publicado Revela Vulnerabilidades del Modelo, Desata Preocupaciones por la Supresión Política y Perspectivas de Investigación Perdidas

El equipo de investigación encontró varios métodos para eludir las salvaguardias previstas de las herramientas bajo evaluación, lo que llevó a resultados que incluían desinformación, exposición de información privada y asistencia en la formación de estrategias de ciberataque. Según el informe, algunos aspectos del marco NIST resultaron más aplicables que otros. También se señaló que ciertas categorías de riesgo carecían de la claridad necesaria para un uso práctico.

Las personas familiarizadas con la iniciativa de red-teaming expresaron que los hallazgos del ejercicio podrían haber ofrecido valiosas perspectivas a la comunidad más amplia de investigación y desarrollo en IA. Una participante, Alice Qian Zhang, candidata a doctora en la Universidad Carnegie Mellon, señaló que compartir públicamente el informe podría haber ayudado a aclarar cómo funciona el marco de riesgo de NIST cuando se aplica en entornos de prueba del mundo real. También destacó que la interacción directa con los desarrolladores de las herramientas durante la evaluación agregó valor a la experiencia.

Otro colaborador, que eligió permanecer en el anonimato, indicó que el ejercicio descubrió técnicas de solicitud específicas—utilizando idiomas como el ruso, gujarati, marathi y telugu—que fueron particularmente exitosas en la obtención de salidas prohibidas de modelos como Llama, incluyendo instrucciones relacionadas con unirse a grupos extremistas. Este individuo sugirió que la decisión de no publicar el informe puede reflejar un cambio más amplio alejado de áreas percibidas como vinculadas a la diversidad, la equidad y la inclusión antes de la administración entrante.

Algunos participantes especularon que la omisión del informe también puede deberse a un mayor enfoque gubernamental en los riesgos de alto riesgo—como el uso potencial de sistemas de IA en el desarrollo de armas de destrucción masiva—y un esfuerzo paralelo para fortalecer los lazos con las principales empresas tecnológicas. Un participante del equipo rojo comentó de forma anónima que las consideraciones políticas probablemente jugaron un papel en la retención del informe y que el ejercicio contenía ideas de relevancia científica continua.

IN28.69%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)