La explosión de la demanda de dispositivos de red en la era de los grandes modelos de IA: explorando oportunidades de innovación e inversión futuras.

La red desempeña un papel clave en la era de los grandes modelos de IA

En la era de los grandes modelos, los módulos ópticos, los conmutadores y otros dispositivos de red están acelerando su iteración, y la demanda está explotando. Este artículo parte de los principios para explorar por qué la red se ha convertido en una parte importante de la era de la IA, y discute las oportunidades de innovación e inversión en el lado de la red en el futuro.

Origen de la demanda de red

  1. La diferencia entre el volumen del modelo y el límite de una sola tarjeta se amplía, orientándose hacia el entrenamiento en clústeres de múltiples servidores, constituyendo la base de la importancia de la red.

  2. La red se utiliza más para sincronizar los parámetros del modelo entre las tarjetas gráficas, lo que aumenta los requisitos de densidad y capacidad.

  3. El tiempo de entrenamiento = tamaño de los datos x cantidad de parámetros / tasa de cálculo. Tasa de cálculo = tasa por dispositivo x número de dispositivos x eficiencia paralela. Aumentar el número de dispositivos y la eficiencia paralela se convierte en clave.

  4. Sincronización compleja de múltiples tarjetas: Después de cada cálculo, es necesario alinear, las operaciones All-to-All son comunes, lo que requiere altos niveles de transmisión e intercambio.

  5. Alto costo de fallos: el entrenamiento dura varios meses, y si se interrumpe, se debe volver al punto de interrupción para reentrenar; la estabilidad de la red es crucial.

Dirección de innovación en la red

  1. Medio de comunicación: actualización de medios de luz, cobre y silicio, desarrollo de tecnologías de reducción de costos como LPO, LRO y silicio fotónico.

  2. Protocolo de red: competencia entre el protocolo de comunicación entre tramos y el protocolo de comunicación entre nodos.

  3. Arquitectura de red: la arquitectura de hoja de árbol evoluciona hacia nuevas arquitecturas como Dragonfly y rail-only.

Consejos de inversión

Elementos clave del sistema de comunicación: Zhongji Xuchuang, New Easy Win, Tianfu Communication, Industrial Fulian, Yingwei Ke, Hu Dian Co.

Innovaciones en sistemas de comunicación: Yangtze Optical Fiber, Taiyuan Fuchuan, Yuancai Technology, Shengke Communication-U, Cambrian, Dekeli.

Advertencia de riesgo

  1. La demanda de IA no cumple con las expectativas
  2. Ley de escalado fallida
  3. Aumento de la competencia en la industria

Importancia de la red

La importancia de la comunicación en la era de la IA se refleja en:

  1. La cantidad de tarjetas gráficas y la eficiencia de conexión determinan el tiempo de entrenamiento; el tiempo es un recurso clave en la competencia.

  2. Se requiere alinear los parámetros después de cada operación en cada capa durante el entrenamiento, lo que exige mucho a la red.

  3. El costo de las fallas de red es alto, las interrupciones pueden afectar gravemente la eficiencia y el costo del entrenamiento.

  4. La escala del clúster alcanza decenas de miles de tarjetas, con cientos de miles de componentes conectados, y se requiere alta estabilidad del sistema.

Reconocimiento de la dirección de la innovación en la red

  1. La reducción de costos, la apertura y el equilibrio de la escalabilidad del poder de cálculo son los principales temas.

  2. Innovación en medios de comunicación: avances en medios de luz, cobre y silicio, nuevas tecnologías como LPO, LRO y silicio fotónico.

  3. Innovación en protocolos de comunicación: competencia entre ( como NVLINK) dentro de los nodos y ( IB vs Ethernet) entre nodos.

  4. Actualización de la arquitectura de la red: la arquitectura de hojas y raíces evoluciona hacia nuevas arquitecturas como Dragonfly y Rail-only.

Desde la computación en la nube hasta la era de la IA, la importancia de las comunicaciones ha aumentado

  1. La demanda de conectividad de red por parte de la IA ha estallado, y la expansión de la escala de parámetros ha llevado a que una sola tarjeta no pueda soportarlo.

  2. El tiempo de entrenamiento = escala de datos x cantidad de parámetros / tasa de cálculo, apilar la potencia de cálculo se convierte en clave.

  3. Tasa de cálculo = tasa por dispositivo x número de dispositivos x eficiencia paralela, el número de dispositivos y la eficiencia paralela se vuelven igualmente importantes.

  4. La red se ha convertido en clave para aumentar el número de dispositivos y la eficiencia paralela, la adquisición de Mellanox por parte de Nvidia es un ejemplo de esto.

Cooperación multitarjeta en el entrenamiento de grandes modelos

  1. Paralelismo de datos: cada GPU mantiene un modelo completo, dividiendo los datos para el entrenamiento.

  2. Paralelismo de modelos: dividir el modelo en diferentes GPU, incluyendo paralelismo de tensores y paralelismo de tuberías.

  3. Mezcla multidimensional en paralelo: combinar varios métodos de paralelismo y dividir en múltiples etapas para el entrenamiento.

  4. Todos los métodos paralelos requieren sincronización de parámetros, lo que plantea diferentes requisitos para la red.

Núcleo de interconexión de múltiples tarjetas: precisión de sincronización

  1. La transmisión inversa para la alineación de parámetros, la latencia de Todos-a-Todos es un indicador clave.

  2. Los métodos de sincronización incluyen sincronización paralela, sincronización asíncrona, All-Reduce, etc.

  3. Algoritmos de optimización como Ring All-Reduce pueden reducir el ancho de banda y la latencia.

  4. Se requiere soporte de hardware de red, como NVLink, protocolo IB, etc.

Ingeniería de sistemas: Monitoreo - Resumen - Iteración de innovación

  1. Es necesario monitorear en tiempo real el flujo de datos y la situación operativa.

  2. La captura de paquetes de hardware y software es el principal medio de monitoreo, como Wireshark, etc.

  3. La tecnología de conexión en serie y paralelo de hardware como DPI/DFI permite la monitorización sin pérdidas.

  4. Optimizar continuamente la estabilidad y la eficiencia del sistema en función de los resultados de monitoreo.

Competencia e Iteración de Protocolos de Comunicación

  1. Comunicación dentro del nodo: PCIe, NVLink, Infinity Fabric, etc.

  2. Comunicación entre nodos: InfiniBand vs familia de protocolos RoCE de Ethernet.

  3. RDMA se convierte en una necesidad básica para la conexión de clústeres de IA.

  4. Protocolo IB de NVIDIA vs Alianza de Super Ethernet liderada por AMD.

Dirección de innovación en hardware de red

  1. Medio de transmisión: la competencia entre luz, cobre y silicio, la relación calidad-precio y la estabilidad son clave.

  2. Conmutador: Surgimiento de conmutadores ópticos, innovación en chips de conmutadores eléctricos.

  3. Arquitectura de red: la arquitectura Leaf-Spine evoluciona hacia Dragonfly, Rail-only, etc.

  4. Clúster de centros de datos: La interconexión entre centros de datos se convierte en un nuevo enfoque.

Consejos de inversión

  1. Prestar atención a hardware básico como conmutadores y módulos ópticos.

  2. Seguimiento de las oportunidades que traen nuevas tecnologías como LPO, CPO y fibra óptica especial.

  3. Prestar atención a las oportunidades de evolución acelerada de los conmutadores nacionales.

Advertencia de riesgo

  1. La demanda de IA no cumple con las expectativas
  2. Ley de escalamiento fallida
  3. Aumento de la competencia en la industria
ETH2.67%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Compartir
Comentar
0/400
LiquidityOraclevip
· 07-23 17:49
La tarjeta de red va a ganar mucho dinero otra vez.
Ver originalesResponder0
ValidatorVibesvip
· 07-23 12:27
cuellos de botella en la red descentralizada... como eth2.0 una vez más, para ser honesto
Ver originalesResponder0
TokenVelocityTraumavip
· 07-21 02:49
Los módulos ópticos son realmente buenos, he ganado un montón.
Ver originalesResponder0
AirdropF5Brovip
· 07-21 02:49
¿Qué acciones comprar? ¡Todo dentro módulos ópticos!
Ver originalesResponder0
SingleForYearsvip
· 07-21 02:39
¿Cuándo podré ganar dinero?
Ver originalesResponder0
SneakyFlashloanvip
· 07-21 02:26
Hay que comprar chips de Nvidia
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)