11 ноября 2025
Сучасні моделі штучного інтелекту, такі як OpenAI GPT-5, демонструють щонайменше дві основні функції обробки даних: пам'ять, тобто відтворення отриманої під час навчання інформації, та міркування — вирішення нових завдань, використовуючи засвоєні принципи. Дослідники зі стартапу Goodfire.ai отримали переконливі докази того, що під час роботи цих функцій моделі звертаються до різних зон у своїй архітектурі.
Джерело зображення: Igor Omilaev / unsplash.com
Архітектурно функції пам'яті та міркувань розділені на диво чітко: видаливши ділянки, відповідальні за пам'ять, вчені на 97 % позбавили модель здатності відтворювати засвоєні під час навчання дані, але залишили за нею можливість логічно міркувати. Наприклад, на 22-му шарі мовної моделі OLMo-7B 50 % компонентів ваги активувалися на 23 % частіше при зверненні до пам'яті, а верхні 10 % — на 26 % частіше при роботі з текстом поза пам'яттю. Таке розділення дозволило вченим хірургічним шляхом видалити здатність моделі працювати з пам'яттю, зберігши в неї інші здібності.
Дивовижним при цьому виявилося те, що під час обробки арифметичних операцій модель звертається до ділянок архітектури, які відповідають за пам'ять, а не за міркування. Коли у неї видаляли механізми пам'яті, якість виконання математичних операцій падала на величину до 66 %, а з задачами на логіку вона продовжувала працювати практично на початковому рівні. Це може пояснити, чому моделі ШІ стикаються з труднощами в математиці, якщо не можуть підключатися до зовнішніх інструментів: вони намагаються згадати арифметичні дії з навчальних масивів, а не виконувати власне обчислення. Як школяр, який зазубрив таблицю множення, але не зрозумів, як працює це арифметичне діяння. Тобто на поточному рівні для мовної моделі вираз «2 + 2 = 4» є скоріше заученим фактом, ніж операцією.
Зазначається також, що стосовно ШІ поняття міркування описує набір здібностей, які можуть не відповідати механізмам міркування у людини. Механізми пам'яті використовуються моделями при оцінці істинності або хибності тверджень, а також при дотриманні правил «якщо — то»; моделі можуть проводити просте зіставлення шаблонів, але цього виявляється недостатньо для глибоких математичних міркувань, які потрібні при доведенні або вирішенні нових задач.
На практиці це означає, що розробники ШІ в перспективі зможуть видаляти з пам'яті моделей матеріали, захищені авторським правом, персональні дані або потенційно небезпечний контент, зберігаючи при цьому за моделями здатність вирішувати задачі на перетворення. Поки ж механізми пам'яті ШІ вивчені не до кінця, і автори дослідження підкреслюють, що їхній метод не гарантує повного виключення конфіденційних даних.
Джерело зображення: Steve Johnson / unsplash.com
Щоб розрізняти механізми пам'яті та міркувань, дослідники Goodfire звернулися до поняття «ландшафту втрат» — візуалізації помилкових і правильних прогнозів при зміні внутрішніх налаштувань, тобто ваг моделей. Уявімо модель ШІ як машину з кількома мільйонами циферблатів, домовимося називати велику кількість помилок високими, а малу — низькими втратами. У цьому випадку ландшафтом буде карта частоти помилок для кожної з можливих комбінацій показників цих циферблатів. Навчання моделі — спуск по цьому ландшафту вниз, коли ваги коригуються так, щоб знайти точки з мінімальною кількістю помилок. В результаті цього процесу модель починає зв'язно і вірно відповідати на запитання.
Для аналізу ландшафту та управління ним вчені використовували метод K-FAC (Kronecker-Factored Approximate Curvature), який дозволив їм встановити, що кожен факт з пам'яті створює різкі стрибки, але, оскільки ці стрибки мають різні напрямки, загальна усереднена картина виявляється плоскою. Здібності до міркування, навпаки, виражаються «гірками» помірної крутизни в усіх напрямках. Свої відкриття дослідники випробували на великих мовних моделях OLMo-2 з 1 і 7 млрд параметрів — розробник їх Інститут Аллена в комплекті з ними надає й навчальні масиви, використані при їх створенні. В експериментах використовувалися також моделі аналізу зображень ViT-Base, які навчали на видозмінених масивах ImageNet, в яких навмисно неправильно маркували дані, щоб контролювати показники пам'яті. Результати маніпуляцій за допомогою K-FAC вони порівнювали з існуючими методами редагування пам'яті, зокрема BalancedSubnet.
Дослідники вибірково видалили з навчальних моделей фрагменти з низькою кривизною, досягнувши скорочення показників пам'яті з 100 % до 3,4 %, при цьому здатність до логічних міркувань залишалася в районі 95–106 % від початкового рівня. Під логічними задачами розумілися булеві операції, зв'язки типу «якщо A більше B», а також бенчмарки. При вирішенні складних математичних задач моделі продовжували успішно вибудовувати міркування, але переставали справлятися на етапі обчислень. Цікаво, що після редагування вони продовжували пам'ятати поширені факти, наприклад, столиці країн, але на 78 % гірше називали імена генеральних директорів компаній — тобто ресурси в архітектурі розподіляються залежно від частоти появи інформації в процесі навчання.
Метод K-FAC виявився найбільш ефективним у роботі з пам'яттю моделей — на прикладі історичних цитат він залишив лише 16,1 % засвоєних даних проти 60 % у вважаного найбільш ефективним методу BalancedSubnet. Схожих результатів вдалося досягти і у візуальних моделях — трансформерів.
Запропонований вченими метод працює не ідеально, підкреслили вони. Видалені з пам'яті дані можуть швидко повертатися при наступному навчанні, тобто інформація швидше подавляється, ніж повністю стирається з ваг нейромережі. Дослідники також не знайшли пояснень, чому пам'ять виявляється настільки тісно пов'язаною зі здібностями до математики: неясно, чи дійсно ШІ просто запам'ятовує арифметичні дії або обробляє їх за схожими нейронними ланцюгами. Деякі складні операції дійсно можуть нагадувати схеми запам'ятовування, але насправді представляти собою складні шаблони міркувань. У деяких випадках математичні методи, які використовуються для оцінки «ландшафту» моделі, виявляються ненадійними, але результати операцій при цьому зберігають ефективність.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
З'явився перший у світі "прозорий" монітор для комп'ютера 11 ноября 2025
З'явився перший у світі "прозорий" монітор для комп'ютера
Стало відомо, чому LED-фари кросоверів і позашляховиків часто засліплюють інших водіїв 11 ноября 2025
Стало відомо, чому LED-фари кросоверів і позашляховиків часто засліплюють інших водіїв
Наталку Денисенко бачили з імовірним бойфрендом на концерті Пивоварова. Фото 11 ноября 2025
Схоже, в актриси Наталки Денисенко таки з'явився новий бойфренд. Причому той, на якого вказував її колишній чоловік, Андрій Федінчик.