Події

Людяність чи ефективність: на які великі мовні моделі слід покладатися армії США

Поширити: Оскільки США вступають у нову еру суперництва великих держав, особливо з технологічно амбітним Китаєм, питання про те, як і коли довіряти системам ШІ, таким як великі мовні моделі, стає не просто технічним, а має стратегічний характер.

Ці інструменти стануть вирішальними в тому, як Сполучені Штати розподіляють ресурси і визначають пріоритетність оборонних інвестицій.

Про це йдеться у статті видання The National Interest під назвою "Під час оцінки ШІ США мають покладатися на ефективність, а не на пояснення", яку переклав Фокус.

США слід навчитися оцінювати інструменти ШІ, такі як великі мовні моделі, за їхньою продуктивністю, а не за здатністю пояснити свої рішення. Довіра має ґрунтуватися на результатах, а не на нереалістичних очікуваннях антропоморфного мислення.

Оскільки Сполучені Штати вступають у нову еру суперництва великих держав, особливо з технологічно амбітним Китаєм, питання про те, як і коли довіряти системам ШІ, таким як великі мовні моделі (ВММ), стає не просто технічним. Воно має стратегічний характер.

Ці інструменти стануть вирішальними в тому, як Сполучені Штати розподіляють ресурси, визначають пріоритетність оборонних інвестицій і утримують позиції в Індо-Тихоокеанському регіоні та за його межами. БЯМ не мають інтелекту.

Це розпізнавачі образів, навчені на величезних масивах даних і призначені для передбачення наступного слова в послідовності.

Подібно до шахового гросмейстера, який робить блискучий, але інтуїтивний хід, БЯМ часто не можуть пояснити, чому вони генерують той чи інший результат.

Проте Міністерство оборони через такі організації, як Головне управління з цифрових технологій і ШІ, визначило зрозумілість рішень ШІ як вимогу для його оперативного використання. Цей добрий намір може призвести до не найкращих наслідків.

Пояснюваність у БЯМ може виявитися технічно недосяжною, а гонитва за нею — стати відволікаючим фактором. Ці моделі не "розуміють" у людському сенсі. Їхні результати — це статистичні асоціації, а не причинно-наслідкові висновки.

Пояснення постфактум, хоча й приносять задоволення, можуть вводити в оману і зрештою перешкоджати впровадженню інструментів, здатних поліпшити стратегічне передбачення, аналіз розвідданих і оперативне планування.

Реальна небезпека полягає в надмірній увазі до зрозумілості на шкоду ефективності. Багато рішень у сфері національної безпеки — від вибору цілей до планування закупівель — уже включають непрозорі, але перевірені процеси, як-от варгеймінг або експертна оцінка.

БЯМ, якщо їх правильно протестувати, можуть доповнити ці підходи, обробляючи обсяги інформації зі швидкістю, з якою не можуть зрівнятися аналітики-люди.

Замість того, щоб намагатися зробити БЯМ більш "людяними", ми повинні оцінювати їх за критеріями, які відповідають тому, як вони працюють насправді: послідовність, точність і ясність щодо обмежень.

Слід запитати: Нові методи, такі як автоматичний фактчекінг, значно знизили рівень галюцинацій — з 9 % до 0,3 % у деяких моделях.

Системи, засновані на продуктивності, такі як TrustLLM, обіцяють оцінити надійність моделі більш комплексно, ніж це коли-небудь вдавалося зробити за допомогою пояснень.

Щоб забезпечити ефективну і безпечну інтеграцію великих мовних моделей у військові та оборонні контексти, політикам слід віддати перевагу експлуатаційним випробуванням, а не зрозумілості.

Замість того щоб фокусуватися на штучній інтерпретованості, системи мають оцінюватися за пороговими значеннями продуктивності до розгортання.

Такий підхід ґрунтується на емпіричній надійності та гарантує, що інструменти ШІ принесуть послідовні результати, що перевіряються, в реальних умовах. Політики повинні тримати військове командування в курсі природи й обмежень БЯМ.

Довіра до цих моделей має ґрунтуватися на вимірюваних результатах, а не на ілюзії розуміння або антропоморфних якостях.

Будучи нерозумними інструментами, БЯМ працюють на основі розпізнавання образів, а не пізнання, і не слід очікувати, що вони імітуватимуть людське мислення або самосвідомість.

Нарешті, необхідно розробити рекомендації щодо впровадження ШІ з урахуванням конкретних випадків використання. Різні оперативні сценарії вимагають різного рівня контролю і надійності.

Наприклад, під час узагальнення розвідувальних даних пріоритетом може бути висока узгодженість даних, тоді як для бойових застосувань потрібна система стримування і постійний контроль з боку людини для зниження ризиків і забезпечення підзвітності.

Загалом, довіра до БЯМ має ґрунтуватися не на їхній здатності звучати по-людськи, а на їхній постійній здатності видавати точні, повторювані та перевірені результати. Розглядати їх як цифрових оракулів нереалістично і контрпродуктивно.

Оцінка систем ШІ на основі продуктивності, а не інтерпретованості або антропоморфної привабливості, є набагато більш прагматичним і ефективним підходом.

Майкл "Спаркі" Перрі — підполковник ВПС і провідний льотчик MC-130 зі ступенями магістра в галузі ділового адміністрування та військової справи.

Науковий співробітник з питань національної оборони в Школі міжнародних відносин імені Сема Нанна при Технологічному інституті Джорджії.