В эпоху больших моделей ИИ наблюдается взрывной рост спроса на сетевое оборудование. Обсуждение будущих инноваций и инвестиционных возможностей.

Сеть играет ключевую роль в эпоху больших моделей ИИ

В эпоху больших моделей ускоряется итерация сетевых устройств, таких как光模块 и交换机, и наблюдается взрывной рост спроса. В данной статье, начиная с принципов, рассматривается, почему сеть стала важной частью эпохи ИИ, а также обсуждаются инновации и инвестиционные возможности в области сетевых технологий в будущем.

Источник сетевого спроса

  1. Разница между объемом модели и пределом одной карты увеличивается, переходя на многосерверное кластерное обучение, что составляет основу важности сети.

  2. Сеть используется больше для синхронизации параметров модели между видеокартами, требования к плотности и емкости повышены.

  3. Время тренировки = объем данных x количество параметров / скорость вычислений. Скорость вычислений = скорость одного устройства x количество устройств x эффективность параллелизма. Увеличение количества устройств и эффективности параллелизма становится ключевым.

  4. Сложная синхронизация нескольких карт: после каждого вычисления требуется выравнивание, операции All-to-All распространены, высокие требования к передаче и обмену.

  5. Высокие затраты на сбой: обучение продолжается несколько месяцев, при прерывании необходимо возвращаться к контрольной точке и переобучаться, стабильность сети имеет решающее значение.

Направления сетевых инноваций

  1. Средства связи: обновление оптических, медных, кремниевых сред, развитие технологий снижения затрат, таких как LPO, LRO, кремниевая оптика и др.

  2. Сетевые протоколы: конкуренция между протоколами связи между узлами и связи между сегментами.

  3. Сетевая архитектура: эволюция архитектуры Leaf Spine к новым архитектурам, таким как Dragonfly, rail-only и другим.

Инвестиционные рекомендации

Основное звено системы связи: Zhongji Innolight, Xin Yisheng, Tianfu Communication, Industrial Fortune Union, Invic, Shanghai Electric Co., Ltd.

Инновационные этапы в системе связи: 长飞光纤, 太辰光, 源杰科技, 盛科通信-U, 寒武纪, 德科立.

Предупреждение о рисках

  1. Спрос на ИИ ниже ожидаемого
  2. Законы масштабирования потеряли силу
  3. Усложнение конкуренции в отрасли

Понимание важности сети

Важность связи в эпоху ИИ заключается в:

  1. Количество видеокарт и эффективность подключения определяют время обучения, время является ключевым конкурентным ресурсом.

  2. После каждой операции на каждом слое во время тренировки необходимо выравнивать параметры, что предъявляет очень высокие требования к сети.

  3. Высокие затраты на сбой сети, прерывание может серьезно повлиять на эффективность и стоимость обучения.

  4. Масштаб кластера достигает десятков тысяч, количество соединительных компонентов составляет сотни тысяч, требования к стабильности системы высоки.

Понимание направлений сетевых инноваций

  1. Снижение затрат, открытость и баланс масштабов вычислительной мощности являются основными темами.

  2. Инновации в коммуникационных средах: прогресс оптических, медных и кремниевых сред, новые технологии LPO, LRO, кремниевой оптики и т.д.

  3. Инновации в протоколах связи: конкуренция между протоколами внутри узлов (, такими как NVLINK), и между узлами (, такими как IB против Ethernet).

  4. Обновление сетевой архитектуры: архитектура Leaf Spine эволюционирует в новые архитектуры, такие как Dragonfly, Rail-only и т.д.

От облачных вычислений до эпохи ИИ, важность связи возрастает

  1. Взрывной рост потребностей ИИ в сетевых соединениях и увеличение масштабов параметров привели к тому, что одна карта не может справиться с нагрузкой.

  2. Время тренировки = объем данных x количество параметров / скорость вычислений, накопленная вычислительная мощность становится ключевой.

  3. Скорость вычислений = скорость одного устройства x количество устройств x эффективность параллелизма, количество устройств и эффективность параллелизма становятся одинаково важными.

  4. Сеть становится ключом к увеличению количества устройств и параллельной эффективности, что и стало причиной приобретения Mellanox компанией NVIDIA.

Многокарточное сотрудничество в обучении больших моделей

  1. Параллельная обработка данных: каждая GPU сохраняет полную модель, разделяет данные для обучения.

  2. Модельное параллелизм: разделение модели на разные GPU, включая параллелизм тензоров и конвейерный параллелизм.

  3. Многомерное смешанное параллельное выполнение: сочетание нескольких параллельных методов, разделение на несколько этапов для обучения.

  4. Все параллельные способы требуют синхронизации параметров и предъявляют различные требования к сети.

Ядро многокартного взаимодействия: точность синхронизации

  1. Обратная трансляция для выравнивания параметров, задержка All-to-All является ключевым показателем.

  2. Способы синхронизации включают синхронное параллельное, асинхронное параллельное, All-Reduce и т.д.

  3. Алгоритмы оптимизации, такие как Ring All-Reduce, могут снизить пропускную способность и задержку.

  4. Требуется поддержка сетевого оборудования, такая как NVLink, IB-протокол и т.д.

Системная инженерия: мониторинг - обобщение - инновационная итерация

  1. Необходимо в реальном времени отслеживать поток данных и рабочую ситуацию.

  2. Аппаратный и программный захват трафика являются основными средствами мониторинга, например, Wireshark и т. д.

  3. Технологии последовательного и параллельного соединения оборудования, такие как DPI/DFI, могут обеспечить беспотеречное мониторинг.

  4. Постоянно оптимизировать стабильность и эффективность системы на основе результатов мониторинга.

Конкуренция и итерация коммуникационных протоколов

  1. Внутреннее общение узлов: PCIe, NVLink, Infinity Fabric и т.д.

  2. Связь между узлами: InfiniBand против семейства протоколов Ethernet RoCE.

  3. RDMA стал необходимостью для подключения AI кластеров.

  4. Протокол IB от NVIDIA против сверхэфирного альянса, возглавляемого AMD.

Направления инноваций в сетевом оборудовании

  1. Среда передачи: конкуренция между светом, медью и кремнием, соотношение цены и качества и стабильность являются ключевыми.

  2. Коммутаторы: Возрождение оптических коммутаторов, инновации в чипах электрических коммутаторов.

  3. Сетевая архитектура: эволюция архитектуры Leaf Spine к Dragonfly, Rail-only и т.д.

  4. Кластер центров обработки данных: междатационный обмен становится новым фокусом.

Инвестиционные рекомендации

  1. Обратите внимание на базовое оборудование, такое как коммутаторы и оптические модули.

  2. Отслеживание возможностей, которые предоставляют новые технологии, такие как LPO, CPO, специальные оптические волокна и т.д.

  3. Обратите внимание на возможности ускоренной эволюции отечественных коммутаторов.

Предупреждение о рисках

  1. Спрос на ИИ ниже ожидаемого
  2. Закон масштабирования перестал действовать
  3. Усложнение конкуренции в отрасли
ETH2.67%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Поделиться
комментарий
0/400
LiquidityOraclevip
· 07-23 17:49
Сетевые карты снова будут зарабатывать большие деньги.
Посмотреть ОригиналОтветить0
ValidatorVibesvip
· 07-23 12:27
децентрализованные узкие места сети... как и eth2.0 снова, если честно
Посмотреть ОригиналОтветить0
TokenVelocityTraumavip
· 07-21 02:49
Световые модули действительно хороши, заработал кучу денег.
Посмотреть ОригиналОтветить0
AirdropF5Brovip
· 07-21 02:49
Что за акции торговать, Все в оптические модули!
Посмотреть ОригиналОтветить0
SingleForYearsvip
· 07-21 02:39
Когда же можно будет заработать?
Посмотреть ОригиналОтветить0
SneakyFlashloanvip
· 07-21 02:26
Чипы нужно покупать у NVIDIA
Посмотреть ОригиналОтветить0
  • Закрепить