2 января 2026
Китайська компанія DeepSeek у 2025 році опублікувала матеріал, у якому пропонується переосмислити фундаментальну архітектуру, що використовується при навчанні базових моделей штучного інтелекту. Одним із авторів роботи виступив голова компанії Лян Веньфен (Liang Wenfeng).
Джерело зображення: Solen Feyissa / unsplash.com
DeepSeek запропонувала метод під назвою «гіперзв'язки з обмеженням на різноманітність» (Manifold-Constrained Hyper-Connections — mHC). Цей метод допомагає підвищити економічну ефективність моделей і дає їм можливість не відставати від конкурентних американських рішень, розробники яких мають доступ до значних обчислювальних ресурсів. Опублікована DeepSeek наукова робота відображає складену в Китаї відкриту та засновану на взаємодопомозі культуру розробників ШІ, які публікують значну частину своїх досліджень у відкритому доступі. Статті DeepSeek також можуть вказувати на інженерні рішення, які компанія використовує в моделях, що готуються до випуску.
Група з 19 дослідників компанії зазначила, що метод mHC тестувався на моделях з 3 млрд, 9 млрд і 27 млрд параметрів, і його використання не призвело до суттєвого збільшення обчислювального навантаження в порівнянні з традиційним методом гіперзв'язків (Hyper-Connections — HC). Базовий метод гіперзв'язків у вересні 2024 року запропонували дослідники ByteDance як модифікацію ResNet (Residual Networks) — домінуючої архітектури глибокого навчання, яку ще в 2015 році представили вчені Microsoft Research Asia.
ResNet дозволяє проводити навчання глибоких нейронних мереж таким чином, щоб ключова інформація (залишкові дані) зберігалася при збільшенні кількості шарів. Ця архітектура використовується при навчанні моделей OpenAI GPT та Google DeepMind AlphaFold, і має важливе обмеження: проходячи через шари нейронної мережі, навчальний сигнал може деградувати в універсальне представлення, однакове для всіх шарів, тобто ризикує стати малозначущим. Гіперзв'язки успішно вирішують цю проблему, розширюючи потік залишкових даних і підвищуючи складність нейронної мережі «без зміни обчислювального навантаження у окремих блоках», але при цьому, вказують у DeepSeek, зростає навантаження на пам'ять, і це заважає масштабувати цю архітектуру при навчанні великих моделей.
Щоб вирішити й цю проблему, DeepSeek пропонує метод mHC, який «допоможе усунути існуючі обмеження і в перспективі відкриє нові шляхи еволюції фундаментальних архітектур нового покоління». Публікувані компанією наукові роботи часто вказують на технічний напрям, що лежить в основі наступних моделей, кажуть експерти. Нову велику модель DeepSeek, як очікується, може представити в середині лютого.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Трамп розповів, звідки у нього синці на руках 2 января 2026
Американський президент усупереч рекомендаціям лікарів приймає підвищену дозу аспірину, пояснюючи це тим, що він так робить роками.
82-річний Мік Джаггер похизувався своїм луком із новорічної вечірки 2 января 2026
Якщо хтось обрав зустріти 2026-ий рік удома, під затишною ковдрочкою, з келихом та мисочкою салату, то це точно не британський музикант Мік Джаггер. 82-річний рокер відривався на вечірці просто неба зі своєю нареченою Мелані Хемрік.
Економіка РФ увійшла у стагнацію - ЦПД 2 января 2026
Навіть лояльні до Кремля аналітики фіксують різке зростання у 2026 році ризику рецесії, тобто не лише зупинки, а й спаду економіки.