2 января 2026
Китайська компанія DeepSeek у 2025 році опублікувала матеріал, у якому пропонується переосмислити фундаментальну архітектуру, що використовується при навчанні базових моделей штучного інтелекту. Одним із авторів роботи виступив голова компанії Лян Веньфен (Liang Wenfeng).
Джерело зображення: Solen Feyissa / unsplash.com
DeepSeek запропонувала метод під назвою «гіперзв'язки з обмеженням на різноманітність» (Manifold-Constrained Hyper-Connections — mHC). Цей метод допомагає підвищити економічну ефективність моделей і дає їм можливість не відставати від конкурентних американських рішень, розробники яких мають доступ до значних обчислювальних ресурсів. Опублікована DeepSeek наукова робота відображає складену в Китаї відкриту та засновану на взаємодопомозі культуру розробників ШІ, які публікують значну частину своїх досліджень у відкритому доступі. Статті DeepSeek також можуть вказувати на інженерні рішення, які компанія використовує в моделях, що готуються до випуску.
Група з 19 дослідників компанії зазначила, що метод mHC тестувався на моделях з 3 млрд, 9 млрд і 27 млрд параметрів, і його використання не призвело до суттєвого збільшення обчислювального навантаження в порівнянні з традиційним методом гіперзв'язків (Hyper-Connections — HC). Базовий метод гіперзв'язків у вересні 2024 року запропонували дослідники ByteDance як модифікацію ResNet (Residual Networks) — домінуючої архітектури глибокого навчання, яку ще в 2015 році представили вчені Microsoft Research Asia.
ResNet дозволяє проводити навчання глибоких нейронних мереж таким чином, щоб ключова інформація (залишкові дані) зберігалася при збільшенні кількості шарів. Ця архітектура використовується при навчанні моделей OpenAI GPT та Google DeepMind AlphaFold, і має важливе обмеження: проходячи через шари нейронної мережі, навчальний сигнал може деградувати в універсальне представлення, однакове для всіх шарів, тобто ризикує стати малозначущим. Гіперзв'язки успішно вирішують цю проблему, розширюючи потік залишкових даних і підвищуючи складність нейронної мережі «без зміни обчислювального навантаження у окремих блоках», але при цьому, вказують у DeepSeek, зростає навантаження на пам'ять, і це заважає масштабувати цю архітектуру при навчанні великих моделей.
Щоб вирішити й цю проблему, DeepSeek пропонує метод mHC, який «допоможе усунути існуючі обмеження і в перспективі відкриє нові шляхи еволюції фундаментальних архітектур нового покоління». Публікувані компанією наукові роботи часто вказують на технічний напрям, що лежить в основі наступних моделей, кажуть експерти. Нову велику модель DeepSeek, як очікується, може представити в середині лютого.
Хочеш дізнатися більше — читай відгуки
← Вернуться на предыдущую страницу
Корабель Orion місії Artemis II подолав більше половини шляху до Місяця 5 апреля 2026
На третій день польоту корабля Orion місії Artemis II екіпаж вже перебуває більш ніж на півдорозі до Місяця. Після успішного запуску двигунів корабля більше доби тому місія набула остаточної конфігурації. Корабель вирвався з гравітаційного колодязя Землі і устремився до Місяця. Весь минулий день екіпаж освоював капсулу і готував її до майбутніх спостережень за супутником вже з відносно близької відстані.
Успішно приземлений модуль Firefly Aerospace Blue Ghost розповів про Місяць дещо несподіване 5 апреля 2026
У березні 2025 року місячний посадковий модуль Blue Ghost, розроблений компанією Firefly Aerospace, успішно приземлився в районі Моря Кризисів (Mare Crisium). Ця вулканічна рівнина була спеціально обрана для вивчення, оскільки вважалася більш холодною, ніж раніше досліджена місіями «Аполлон» зона супутника. Але, як показали нові вимірювання, вчені помилялися в цьому питанні.
Симптоми, за якими можна розпізнати серцеву недостатність 5 апреля 2026
Серцева недостатність може навіть призвести до смерті, тож важливо вчасно її виявити.