ТОнеТО | В DeepSeek придумали новий спосіб економити ресурси під час навчання ШІ | Новости про товары, услуги, компании, технологии

В DeepSeek придумали новий спосіб економити ресурси під час навчання ШІ

2 января 2026

Китайська компанія DeepSeek у 2025 році опублікувала матеріал, у якому пропонується переосмислити фундаментальну архітектуру, що використовується при навчанні базових моделей штучного інтелекту. Одним із авторів роботи виступив голова компанії Лян Веньфен (Liang Wenfeng).

Група дослідників: Solen Feyissa / unsplash.com

Джерело зображення: Solen Feyissa / unsplash.com

DeepSeek запропонувала метод під назвою «гіперзв'язки з обмеженням на різноманітність» (Manifold-Constrained Hyper-Connections — mHC). Цей метод допомагає підвищити економічну ефективність моделей і дає їм можливість не відставати від конкурентних американських рішень, розробники яких мають доступ до значних обчислювальних ресурсів. Опублікована DeepSeek наукова робота відображає складену в Китаї відкриту та засновану на взаємодопомозі культуру розробників ШІ, які публікують значну частину своїх досліджень у відкритому доступі. Статті DeepSeek також можуть вказувати на інженерні рішення, які компанія використовує в моделях, що готуються до випуску.

Група з 19 дослідників компанії зазначила, що метод mHC тестувався на моделях з 3 млрд, 9 млрд і 27 млрд параметрів, і його використання не призвело до суттєвого збільшення обчислювального навантаження в порівнянні з традиційним методом гіперзв'язків (Hyper-Connections — HC). Базовий метод гіперзв'язків у вересні 2024 року запропонували дослідники ByteDance як модифікацію ResNet (Residual Networks) — домінуючої архітектури глибокого навчання, яку ще в 2015 році представили вчені Microsoft Research Asia.

ResNet дозволяє проводити навчання глибоких нейронних мереж таким чином, щоб ключова інформація (залишкові дані) зберігалася при збільшенні кількості шарів. Ця архітектура використовується при навчанні моделей OpenAI GPT та Google DeepMind AlphaFold, і має важливе обмеження: проходячи через шари нейронної мережі, навчальний сигнал може деградувати в універсальне представлення, однакове для всіх шарів, тобто ризикує стати малозначущим. Гіперзв'язки успішно вирішують цю проблему, розширюючи потік залишкових даних і підвищуючи складність нейронної мережі «без зміни обчислювального навантаження у окремих блоках», але при цьому, вказують у DeepSeek, зростає навантаження на пам'ять, і це заважає масштабувати цю архітектуру при навчанні великих моделей.

Щоб вирішити й цю проблему, DeepSeek пропонує метод mHC, який «допоможе усунути існуючі обмеження і в перспективі відкриє нові шляхи еволюції фундаментальних архітектур нового покоління». Публікувані компанією наукові роботи часто вказують на технічний напрям, що лежить в основі наступних моделей, кажуть експерти. Нову велику модель DeepSeek, як очікується, може представити в середині лютого.

Выберите область поиска

В DeepSeek придумали новий спосіб економити ресурси під час навчання ШІ

Читайте также:

Вас могут заинтересовать эти отзывы

Удалить фото?

Фото удалено

Выберите область поиска