Сеть играет ключевую роль в эпоху больших моделей ИИ
В эпоху больших моделей ускоряется итерация сетевых устройств, таких как光模块 и交换机, и наблюдается взрывной рост спроса. В данной статье, начиная с принципов, рассматривается, почему сеть стала важной частью эпохи ИИ, а также обсуждаются инновации и инвестиционные возможности в области сетевых технологий в будущем.
Источник сетевого спроса
Разница между объемом модели и пределом одной карты увеличивается, переходя на многосерверное кластерное обучение, что составляет основу важности сети.
Сеть используется больше для синхронизации параметров модели между видеокартами, требования к плотности и емкости повышены.
Время тренировки = объем данных x количество параметров / скорость вычислений. Скорость вычислений = скорость одного устройства x количество устройств x эффективность параллелизма. Увеличение количества устройств и эффективности параллелизма становится ключевым.
Сложная синхронизация нескольких карт: после каждого вычисления требуется выравнивание, операции All-to-All распространены, высокие требования к передаче и обмену.
Высокие затраты на сбой: обучение продолжается несколько месяцев, при прерывании необходимо возвращаться к контрольной точке и переобучаться, стабильность сети имеет решающее значение.
Направления сетевых инноваций
Средства связи: обновление оптических, медных, кремниевых сред, развитие технологий снижения затрат, таких как LPO, LRO, кремниевая оптика и др.
Сетевые протоколы: конкуренция между протоколами связи между узлами и связи между сегментами.
Сетевая архитектура: эволюция архитектуры Leaf Spine к новым архитектурам, таким как Dragonfly, rail-only и другим.
Инвестиционные рекомендации
Основное звено системы связи: Zhongji Innolight, Xin Yisheng, Tianfu Communication, Industrial Fortune Union, Invic, Shanghai Electric Co., Ltd.
Инновационные этапы в системе связи: 长飞光纤, 太辰光, 源杰科技, 盛科通信-U, 寒武纪, 德科立.
Предупреждение о рисках
Спрос на ИИ ниже ожидаемого
Законы масштабирования потеряли силу
Усложнение конкуренции в отрасли
Понимание важности сети
Важность связи в эпоху ИИ заключается в:
Количество видеокарт и эффективность подключения определяют время обучения, время является ключевым конкурентным ресурсом.
После каждой операции на каждом слое во время тренировки необходимо выравнивать параметры, что предъявляет очень высокие требования к сети.
Высокие затраты на сбой сети, прерывание может серьезно повлиять на эффективность и стоимость обучения.
Масштаб кластера достигает десятков тысяч, количество соединительных компонентов составляет сотни тысяч, требования к стабильности системы высоки.
Понимание направлений сетевых инноваций
Снижение затрат, открытость и баланс масштабов вычислительной мощности являются основными темами.
Инновации в коммуникационных средах: прогресс оптических, медных и кремниевых сред, новые технологии LPO, LRO, кремниевой оптики и т.д.
Инновации в протоколах связи: конкуренция между протоколами внутри узлов (, такими как NVLINK), и между узлами (, такими как IB против Ethernet).
Обновление сетевой архитектуры: архитектура Leaf Spine эволюционирует в новые архитектуры, такие как Dragonfly, Rail-only и т.д.
От облачных вычислений до эпохи ИИ, важность связи возрастает
Взрывной рост потребностей ИИ в сетевых соединениях и увеличение масштабов параметров привели к тому, что одна карта не может справиться с нагрузкой.
Время тренировки = объем данных x количество параметров / скорость вычислений, накопленная вычислительная мощность становится ключевой.
Скорость вычислений = скорость одного устройства x количество устройств x эффективность параллелизма, количество устройств и эффективность параллелизма становятся одинаково важными.
Сеть становится ключом к увеличению количества устройств и параллельной эффективности, что и стало причиной приобретения Mellanox компанией NVIDIA.
Многокарточное сотрудничество в обучении больших моделей
Параллельная обработка данных: каждая GPU сохраняет полную модель, разделяет данные для обучения.
Модельное параллелизм: разделение модели на разные GPU, включая параллелизм тензоров и конвейерный параллелизм.
Многомерное смешанное параллельное выполнение: сочетание нескольких параллельных методов, разделение на несколько этапов для обучения.
Все параллельные способы требуют синхронизации параметров и предъявляют различные требования к сети.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
20 Лайков
Награда
20
6
Поделиться
комментарий
0/400
LiquidityOracle
· 07-23 17:49
Сетевые карты снова будут зарабатывать большие деньги.
Посмотреть ОригиналОтветить0
ValidatorVibes
· 07-23 12:27
децентрализованные узкие места сети... как и eth2.0 снова, если честно
Посмотреть ОригиналОтветить0
TokenVelocityTrauma
· 07-21 02:49
Световые модули действительно хороши, заработал кучу денег.
В эпоху больших моделей ИИ наблюдается взрывной рост спроса на сетевое оборудование. Обсуждение будущих инноваций и инвестиционных возможностей.
Сеть играет ключевую роль в эпоху больших моделей ИИ
В эпоху больших моделей ускоряется итерация сетевых устройств, таких как光模块 и交换机, и наблюдается взрывной рост спроса. В данной статье, начиная с принципов, рассматривается, почему сеть стала важной частью эпохи ИИ, а также обсуждаются инновации и инвестиционные возможности в области сетевых технологий в будущем.
Источник сетевого спроса
Разница между объемом модели и пределом одной карты увеличивается, переходя на многосерверное кластерное обучение, что составляет основу важности сети.
Сеть используется больше для синхронизации параметров модели между видеокартами, требования к плотности и емкости повышены.
Время тренировки = объем данных x количество параметров / скорость вычислений. Скорость вычислений = скорость одного устройства x количество устройств x эффективность параллелизма. Увеличение количества устройств и эффективности параллелизма становится ключевым.
Сложная синхронизация нескольких карт: после каждого вычисления требуется выравнивание, операции All-to-All распространены, высокие требования к передаче и обмену.
Высокие затраты на сбой: обучение продолжается несколько месяцев, при прерывании необходимо возвращаться к контрольной точке и переобучаться, стабильность сети имеет решающее значение.
Направления сетевых инноваций
Средства связи: обновление оптических, медных, кремниевых сред, развитие технологий снижения затрат, таких как LPO, LRO, кремниевая оптика и др.
Сетевые протоколы: конкуренция между протоколами связи между узлами и связи между сегментами.
Сетевая архитектура: эволюция архитектуры Leaf Spine к новым архитектурам, таким как Dragonfly, rail-only и другим.
Инвестиционные рекомендации
Основное звено системы связи: Zhongji Innolight, Xin Yisheng, Tianfu Communication, Industrial Fortune Union, Invic, Shanghai Electric Co., Ltd.
Инновационные этапы в системе связи: 长飞光纤, 太辰光, 源杰科技, 盛科通信-U, 寒武纪, 德科立.
Предупреждение о рисках
Понимание важности сети
Важность связи в эпоху ИИ заключается в:
Количество видеокарт и эффективность подключения определяют время обучения, время является ключевым конкурентным ресурсом.
После каждой операции на каждом слое во время тренировки необходимо выравнивать параметры, что предъявляет очень высокие требования к сети.
Высокие затраты на сбой сети, прерывание может серьезно повлиять на эффективность и стоимость обучения.
Масштаб кластера достигает десятков тысяч, количество соединительных компонентов составляет сотни тысяч, требования к стабильности системы высоки.
Понимание направлений сетевых инноваций
Снижение затрат, открытость и баланс масштабов вычислительной мощности являются основными темами.
Инновации в коммуникационных средах: прогресс оптических, медных и кремниевых сред, новые технологии LPO, LRO, кремниевой оптики и т.д.
Инновации в протоколах связи: конкуренция между протоколами внутри узлов (, такими как NVLINK), и между узлами (, такими как IB против Ethernet).
Обновление сетевой архитектуры: архитектура Leaf Spine эволюционирует в новые архитектуры, такие как Dragonfly, Rail-only и т.д.
От облачных вычислений до эпохи ИИ, важность связи возрастает
Взрывной рост потребностей ИИ в сетевых соединениях и увеличение масштабов параметров привели к тому, что одна карта не может справиться с нагрузкой.
Время тренировки = объем данных x количество параметров / скорость вычислений, накопленная вычислительная мощность становится ключевой.
Скорость вычислений = скорость одного устройства x количество устройств x эффективность параллелизма, количество устройств и эффективность параллелизма становятся одинаково важными.
Сеть становится ключом к увеличению количества устройств и параллельной эффективности, что и стало причиной приобретения Mellanox компанией NVIDIA.
Многокарточное сотрудничество в обучении больших моделей
Параллельная обработка данных: каждая GPU сохраняет полную модель, разделяет данные для обучения.
Модельное параллелизм: разделение модели на разные GPU, включая параллелизм тензоров и конвейерный параллелизм.
Многомерное смешанное параллельное выполнение: сочетание нескольких параллельных методов, разделение на несколько этапов для обучения.
Все параллельные способы требуют синхронизации параметров и предъявляют различные требования к сети.
Ядро многокартного взаимодействия: точность синхронизации
Обратная трансляция для выравнивания параметров, задержка All-to-All является ключевым показателем.
Способы синхронизации включают синхронное параллельное, асинхронное параллельное, All-Reduce и т.д.
Алгоритмы оптимизации, такие как Ring All-Reduce, могут снизить пропускную способность и задержку.
Требуется поддержка сетевого оборудования, такая как NVLink, IB-протокол и т.д.
Системная инженерия: мониторинг - обобщение - инновационная итерация
Необходимо в реальном времени отслеживать поток данных и рабочую ситуацию.
Аппаратный и программный захват трафика являются основными средствами мониторинга, например, Wireshark и т. д.
Технологии последовательного и параллельного соединения оборудования, такие как DPI/DFI, могут обеспечить беспотеречное мониторинг.
Постоянно оптимизировать стабильность и эффективность системы на основе результатов мониторинга.
Конкуренция и итерация коммуникационных протоколов
Внутреннее общение узлов: PCIe, NVLink, Infinity Fabric и т.д.
Связь между узлами: InfiniBand против семейства протоколов Ethernet RoCE.
RDMA стал необходимостью для подключения AI кластеров.
Протокол IB от NVIDIA против сверхэфирного альянса, возглавляемого AMD.
Направления инноваций в сетевом оборудовании
Среда передачи: конкуренция между светом, медью и кремнием, соотношение цены и качества и стабильность являются ключевыми.
Коммутаторы: Возрождение оптических коммутаторов, инновации в чипах электрических коммутаторов.
Сетевая архитектура: эволюция архитектуры Leaf Spine к Dragonfly, Rail-only и т.д.
Кластер центров обработки данных: междатационный обмен становится новым фокусом.
Инвестиционные рекомендации
Обратите внимание на базовое оборудование, такое как коммутаторы и оптические модули.
Отслеживание возможностей, которые предоставляют новые технологии, такие как LPO, CPO, специальные оптические волокна и т.д.
Обратите внимание на возможности ускоренной эволюции отечественных коммутаторов.
Предупреждение о рисках