Упражнення з червоною командою під керівництвом NIST у CAMLIS оцінювало вразливості в просунутих системах штучного інтелекту, оцінюючи ризики, такі як дезінформація, витоки даних та емоційна маніпуляція.
Національний інститут стандартів і технологій (NIST) завершив звіт про безпеку розроблених моделей ШІ наприкінці адміністрації Джо Байдена, але документ не був опублікований після переходу до адміністрації Дональда Трампа. Хоча звіт був розроблений для допомоги організаціям у оцінці їхніх систем ШІ, він став одним із кількох документів НІСТ про ШІ, які були утримані від публікації через потенційні конфлікти з політичним курсом нової адміністрації.
Перед вступом на посаду президент Дональд Трамп висловив намір скасувати виконавчі укази ери Байдена, пов'язані з ШІ. Від часу переходу адміністрація перенаправила експертну увагу від таких областей, як алгоритмічна упередженість і справедливість у ШІ. План дій з ШІ, опублікований у липні, спеціально закликає до перегляду Рамки управління ризиками ШІ NIST, рекомендуючи видалення посилань на дезінформацію, різноманітність, рівність та інклюзію (DEI) та зміни клімату.
Водночас План дій щодо штучного інтелекту містить пропозицію, яка нагадує цілі неопублікованого звіту. Він спрямовує кілька федеральних агентств, включаючи NIST, організувати координовану ініціативу хакатону штучного інтелекту, спрямовану на тестування систем штучного інтелекту на прозорість, функціональність, контроль користувача та потенційні вразливості безпеки.
Упражнення червоної команди за керівництвом NIST досліджує ризики системи ШІ, використовуючи ARIA Framework на конференції CAMLIS
Вправа з червоного командування була проведена в рамках програми Оцінка ризиків і впливів штучного інтелекту (ARIA) від NIST у партнерстві з Humane Intelligence, компанією, яка зосереджена на оцінці систем штучного інтелекту. Ця ініціатива відбулася під час Конференції з прикладного машинного навчання в інформаційній безпеці (CAMLIS), де учасники досліджували вразливості ряду передових технологій штучного інтелекту.
Звіт CAMLIS Red Teaming документує оцінку різних AI інструментів, включаючи Llama від Meta, відкриту велику мовну модель (LLM); Anote, платформу для розробки та вдосконалення AI моделей; систему безпеки від Robust Intelligence, яка з тих пір була придбана CISCO; а також платформу генерації AI аватарів від Synthesia. Представники кожної організації взяли участь у заходах red-teaming.
Учасники використали рамки NIST AI 600-1 для аналізу запитуваних інструментів. Ця рамка описує кілька ризикових областей, таких як потенційна можливість штучного інтелекту створювати хибну інформацію або загрози кібербезпеці, розкривати приватні або чутливі дані, або сприяти емоційній залежності між користувачами та системами штучного інтелекту.
Неразкритий звіт команди червоного штучного інтелекту виявляє вразливості моделі, викликає занепокоєння щодо політичного придушення та пропущених дослідницьких інсайтів
Дослідна група виявила кілька способів обійти заплановані заходи безпеки інструментів, що оцінюються, що призвело до результатів, які включали дезінформацію, розкриття приватної інформації та допомогу у формуванні стратегій кібератак. Згідно з доповіддю, деякі аспекти рамок NIST виявилися більш застосовними, ніж інші. Також було зазначено, що деякі категорії ризику не мали необхідної чіткості для практичного використання.
Особи, знайомі з ініціативою червоного тестування, висловили думку, що результати цього заходу могли б надати цінні відомості ширшій спільноті досліджень та розробок у сфері штучного інтелекту. Один з учасників, Еліс Цянь Чжан, аспірантка університету Карнегі Меллон, зазначила, що публічне поширення звіту могло б допомогти прояснити, як функціонує рамка ризиків NIST при застосуванні в реальних умовах тестування. Вона також підкреслила, що безпосередня взаємодія з розробниками інструментів під час оцінювання додала цінності до досвіду.
Ще один учасник, який вирішив залишитися анонімним, вказав, що ця діяльність виявила конкретні техніки запиту — використання мов, таких як російська, гуджараті, маратхі та телугу, які були особливо успішними у викликанні заборонених виходів з моделей, таких як Llama, включаючи інструкції, пов'язані з приєднанням до екстремістських груп. Ця особа припустила, що рішення не публікувати звіт може відображати більш широкий зсув від областей, які сприймаються як пов'язані з різноманітністю, рівністю та включенням напередодні нового адміністративного складу.
Деякі учасники припустили, що відсутність звіту може також бути наслідком підвищеної уваги уряду до ризиків високої ставки—таких як потенційне використання систем штучного інтелекту у розробці зброї масового знищення—та паралельних зусиль щодо зміцнення зв'язків з великими технологічними компаніями. Один учасник червоної команди анонімно зауважив, що політичні міркування, ймовірно, відіграли роль у приховуванні звіту і що в ході вправи містилися висновки, які мають триваючу наукову значущість.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Непубліковане дослідження ризиків штучного інтелекту NIST залишається на полицях на фоні адміністративних змін
Коротко
Упражнення з червоною командою під керівництвом NIST у CAMLIS оцінювало вразливості в просунутих системах штучного інтелекту, оцінюючи ризики, такі як дезінформація, витоки даних та емоційна маніпуляція.
Національний інститут стандартів і технологій (NIST) завершив звіт про безпеку розроблених моделей ШІ наприкінці адміністрації Джо Байдена, але документ не був опублікований після переходу до адміністрації Дональда Трампа. Хоча звіт був розроблений для допомоги організаціям у оцінці їхніх систем ШІ, він став одним із кількох документів НІСТ про ШІ, які були утримані від публікації через потенційні конфлікти з політичним курсом нової адміністрації.
Перед вступом на посаду президент Дональд Трамп висловив намір скасувати виконавчі укази ери Байдена, пов'язані з ШІ. Від часу переходу адміністрація перенаправила експертну увагу від таких областей, як алгоритмічна упередженість і справедливість у ШІ. План дій з ШІ, опублікований у липні, спеціально закликає до перегляду Рамки управління ризиками ШІ NIST, рекомендуючи видалення посилань на дезінформацію, різноманітність, рівність та інклюзію (DEI) та зміни клімату.
Водночас План дій щодо штучного інтелекту містить пропозицію, яка нагадує цілі неопублікованого звіту. Він спрямовує кілька федеральних агентств, включаючи NIST, організувати координовану ініціативу хакатону штучного інтелекту, спрямовану на тестування систем штучного інтелекту на прозорість, функціональність, контроль користувача та потенційні вразливості безпеки.
Упражнення червоної команди за керівництвом NIST досліджує ризики системи ШІ, використовуючи ARIA Framework на конференції CAMLIS
Вправа з червоного командування була проведена в рамках програми Оцінка ризиків і впливів штучного інтелекту (ARIA) від NIST у партнерстві з Humane Intelligence, компанією, яка зосереджена на оцінці систем штучного інтелекту. Ця ініціатива відбулася під час Конференції з прикладного машинного навчання в інформаційній безпеці (CAMLIS), де учасники досліджували вразливості ряду передових технологій штучного інтелекту.
Звіт CAMLIS Red Teaming документує оцінку різних AI інструментів, включаючи Llama від Meta, відкриту велику мовну модель (LLM); Anote, платформу для розробки та вдосконалення AI моделей; систему безпеки від Robust Intelligence, яка з тих пір була придбана CISCO; а також платформу генерації AI аватарів від Synthesia. Представники кожної організації взяли участь у заходах red-teaming.
Учасники використали рамки NIST AI 600-1 для аналізу запитуваних інструментів. Ця рамка описує кілька ризикових областей, таких як потенційна можливість штучного інтелекту створювати хибну інформацію або загрози кібербезпеці, розкривати приватні або чутливі дані, або сприяти емоційній залежності між користувачами та системами штучного інтелекту.
Неразкритий звіт команди червоного штучного інтелекту виявляє вразливості моделі, викликає занепокоєння щодо політичного придушення та пропущених дослідницьких інсайтів
Дослідна група виявила кілька способів обійти заплановані заходи безпеки інструментів, що оцінюються, що призвело до результатів, які включали дезінформацію, розкриття приватної інформації та допомогу у формуванні стратегій кібератак. Згідно з доповіддю, деякі аспекти рамок NIST виявилися більш застосовними, ніж інші. Також було зазначено, що деякі категорії ризику не мали необхідної чіткості для практичного використання.
Особи, знайомі з ініціативою червоного тестування, висловили думку, що результати цього заходу могли б надати цінні відомості ширшій спільноті досліджень та розробок у сфері штучного інтелекту. Один з учасників, Еліс Цянь Чжан, аспірантка університету Карнегі Меллон, зазначила, що публічне поширення звіту могло б допомогти прояснити, як функціонує рамка ризиків NIST при застосуванні в реальних умовах тестування. Вона також підкреслила, що безпосередня взаємодія з розробниками інструментів під час оцінювання додала цінності до досвіду.
Ще один учасник, який вирішив залишитися анонімним, вказав, що ця діяльність виявила конкретні техніки запиту — використання мов, таких як російська, гуджараті, маратхі та телугу, які були особливо успішними у викликанні заборонених виходів з моделей, таких як Llama, включаючи інструкції, пов'язані з приєднанням до екстремістських груп. Ця особа припустила, що рішення не публікувати звіт може відображати більш широкий зсув від областей, які сприймаються як пов'язані з різноманітністю, рівністю та включенням напередодні нового адміністративного складу.
Деякі учасники припустили, що відсутність звіту може також бути наслідком підвищеної уваги уряду до ризиків високої ставки—таких як потенційне використання систем штучного інтелекту у розробці зброї масового знищення—та паралельних зусиль щодо зміцнення зв'язків з великими технологічними компаніями. Один учасник червоної команди анонімно зауважив, що політичні міркування, ймовірно, відіграли роль у приховуванні звіту і що в ході вправи містилися висновки, які мають триваючу наукову значущість.