В DeepSeek придумали новий спосіб економити ресурси під час навчання ШІ

2 января 2026

Китайська компанія DeepSeek у 2025 році опублікувала матеріал, у якому пропонується переосмислити фундаментальну архітектуру, що використовується при навчанні базових моделей штучного інтелекту. Одним із авторів роботи виступив голова компанії Лян Веньфен (Liang Wenfeng).

Група дослідників: Solen Feyissa / unsplash.com

Джерело зображення: Solen Feyissa / unsplash.com

DeepSeek запропонувала метод під назвою «гіперзв'язки з обмеженням на різноманітність» (Manifold-Constrained Hyper-Connections — mHC). Цей метод допомагає підвищити економічну ефективність моделей і дає їм можливість не відставати від конкурентних американських рішень, розробники яких мають доступ до значних обчислювальних ресурсів. Опублікована DeepSeek наукова робота відображає складену в Китаї відкриту та засновану на взаємодопомозі культуру розробників ШІ, які публікують значну частину своїх досліджень у відкритому доступі. Статті DeepSeek також можуть вказувати на інженерні рішення, які компанія використовує в моделях, що готуються до випуску.

Група з 19 дослідників компанії зазначила, що метод mHC тестувався на моделях з 3 млрд, 9 млрд і 27 млрд параметрів, і його використання не призвело до суттєвого збільшення обчислювального навантаження в порівнянні з традиційним методом гіперзв'язків (Hyper-Connections — HC). Базовий метод гіперзв'язків у вересні 2024 року запропонували дослідники ByteDance як модифікацію ResNet (Residual Networks) — домінуючої архітектури глибокого навчання, яку ще в 2015 році представили вчені Microsoft Research Asia.

ResNet дозволяє проводити навчання глибоких нейронних мереж таким чином, щоб ключова інформація (залишкові дані) зберігалася при збільшенні кількості шарів. Ця архітектура використовується при навчанні моделей OpenAI GPT та Google DeepMind AlphaFold, і має важливе обмеження: проходячи через шари нейронної мережі, навчальний сигнал може деградувати в універсальне представлення, однакове для всіх шарів, тобто ризикує стати малозначущим. Гіперзв'язки успішно вирішують цю проблему, розширюючи потік залишкових даних і підвищуючи складність нейронної мережі «без зміни обчислювального навантаження у окремих блоках», але при цьому, вказують у DeepSeek, зростає навантаження на пам'ять, і це заважає масштабувати цю архітектуру при навчанні великих моделей.

Щоб вирішити й цю проблему, DeepSeek пропонує метод mHC, який «допоможе усунути існуючі обмеження і в перспективі відкриє нові шляхи еволюції фундаментальних архітектур нового покоління». Публікувані компанією наукові роботи часто вказують на технічний напрям, що лежить в основі наступних моделей, кажуть експерти. Нову велику модель DeepSeek, як очікується, може представити в середині лютого.

Хочеш дізнатися більше — читай відгуки

← Вернуться на предыдущую страницу

Читайте также:

Угорщина "узаконила" арешт грошей і золота України 11 марта 2026

Розслідування триватиме до 60 днів, і весь цей час арештовані кошти будуть "під контролем угорських органів влади".

Польща обмежила авіарух уздовж кордонів з Україною та Білоруссю 11 марта 2026

На прохання Оперативного командування Збройних сил з 10 березня по 9 червня у східній частині країни запроваджується обмеження повітряного руху.

Більше не схожа на Барбі: Марго Роббі кардинально змінила зачіску та стиль 11 марта 2026

Більше не схожа на Барбі: Марго Роббі кардинально змінила зачіску та стиль Раніше акторка використовувала стиль своїх героїнь для виходів на червоні доріжки

 

Вас могут заинтересовать эти отзывы

BYD SeaLion 06 5.0
BYD SeaLion 06

Отзывов: 1

SERMPRO 5.0
SERMPRO

Отзывов: 1

Каталог отзывов





×

Выберите область поиска

  • Авто
  • Одяг / аксесуари
  • Роботодавці
  • Інше