Tendências de inovação na rede na era da IA: análise das fontes de demanda e direções futuras de desenvolvimento

A rede na era da IA: de onde vem a demanda e para onde vai a inovação?

A rede é uma parte fundamental da era dos grandes modelos de IA. Na era dos grandes modelos, já começamos a ver uma aceleração na iteração de dispositivos de rede, como módulos ópticos e switches, com uma explosão na demanda. No entanto, o mercado tem uma compreensão limitada sobre por que as placas gráficas precisam ser acompanhadas de muitos módulos ópticos e por que a comunicação se tornou um ponto crítico para os grandes modelos. Este artigo irá explorar, a partir dos princípios, por que a rede se tornou a nova "posição de destaque" na era da IA, e discutirá as inovações futuras no lado da rede e as oportunidades de investimento por trás das últimas mudanças na indústria.

De onde vem a demanda de rede?

Entrando na era dos grandes modelos, a diferença entre o tamanho dos modelos e o limite de uma única placa gráfica está a aumentar rapidamente, e a indústria está a procurar clusters de múltiplos servidores para resolver os problemas de treino de modelos, o que também constitui a base para a "superioridade" da rede na era da IA. Ao mesmo tempo, em comparação com o passado, quando a rede era usada apenas para transmitir dados, hoje em dia a rede é mais utilizada para sincronizar os parâmetros dos modelos entre as placas gráficas, o que eleva as exigências de densidade e capacidade da rede.

O tamanho crescente dos modelos:

  1. Tempo de treinamento = Tamanho dos dados de treinamento x Número de parâmetros do modelo / Taxa de cálculo
  2. Taxa de cálculo = Taxa de cálculo por dispositivo x Número de dispositivos x Eficiência de paralelismo de múltiplos dispositivos

Atualmente, a busca dupla por escala de dados de treinamento e parâmetros na indústria, apenas acelerar a eficiência computacional pode reduzir o tempo de treinamento. Como a atualização da taxa de cálculo em um único dispositivo tem seu ciclo e limitações, a forma como se utiliza a rede para expandir o "número de dispositivos" e a "eficiência paralela" determina diretamente o poder de cálculo.

Comunicação complexa de sincronização de múltiplas GPUs: durante o processo de treinamento de grandes modelos, após dividir o modelo em uma única GPU, a cada cálculo, é necessário alinhar entre as GPUs ( como Reduce, Gather, etc. ). Além disso, no sistema de primitivas de comunicação da NVIDIA, NCCL, o All-to-All (, onde todos os nós podem obter e alinhar valores entre si, é uma operação comum, o que, portanto, impõe exigências mais elevadas sobre a transmissão e troca entre as redes.

Custo de falhas cada vez mais caro: o treinamento de grandes modelos geralmente dura mais de vários meses, e qualquer interrupção no meio do processo exige que se retorne a um ponto de verificação de algumas horas ou dias atrás para recomeçar o treinamento. Uma falha em um componente de hardware ou software em toda a rede, ou uma latência excessiva, pode levar a essa interrupção. Mais interrupções significam progresso atrasado e custos cada vez mais altos. As redes de IA modernas têm se desenvolvido gradualmente para se tornarem a cristalização da capacidade de engenharia de sistemas humanos comparável a aviões, porta-aviões, entre outros.

Para onde irá a inovação na rede?

O hardware se move de acordo com a demanda. Após dois anos, o investimento global em poder computacional já cresceu para a casa das centenas de bilhões de dólares, enquanto a expansão dos parâmetros do modelo e a feroz competição entre os gigantes continuam intensas. Hoje em dia, o equilíbrio entre "redução de custos", "abertura" e a escala de poder computacional será o principal tema da inovação na rede.

Mudança dos meios de comunicação: a luz, o cobre e o silício são os três principais meios de transmissão da humanidade. Na era da IA, os módulos de luz buscam taxas de transmissão mais altas, enquanto também avançam em direções de redução de custos, como LPO, LRO e silício fotônico. Neste momento, o cabo de cobre domina a conexão dentro dos armários, devido ao seu custo-benefício e taxa de falhas. Por outro lado, novas tecnologias semicondutoras como Chiplet e Wafer-scaling estão acelerando a exploração dos limites da interconexão baseada em silício.

Competição de protocolos de rede: protocolos de comunicação entre chips e forte vinculação a placas gráficas, como o NV-LINK da Nvidia, o Infinity Fabric da AMD, etc., que determinam o limite de capacidade de um único servidor ou nó de computação, é um campo de batalha brutal entre gigantes. A luta entre IB e Ethernet é a melodia principal da comunicação entre nós.

Mudanças na arquitetura de rede: Atualmente, a arquitetura de rede entre nós geralmente adota uma arquitetura de folha e espinha, que possui características como conveniência, simplicidade e estabilidade. No entanto, à medida que o número de nós em um único cluster aumenta, a arquitetura de folha e espinha, que é ligeiramente redundante, pode trazer custos de rede significativos para clusters super grandes. Atualmente, novas arquiteturas como a arquitetura Dragonfly e a arquitetura rail-only têm potencial para se tornarem a direção evolutiva para a próxima geração de clusters super grandes.

Sugestões de Investimento

Núcleo do sistema de comunicação: Zhongji Xuchuang, New Easy Win, Tianfu Communication, Industrial Fulian, Invec, Hu Dian Co.

Inovações no sistema de comunicação: FiberHome, Taisun, Yuanjie Technology, Shengke Communication-U, Cambricon, Dekoli.

Aviso de risco

  1. A demanda por IA não atendeu às expectativas
  2. Lei de escalonamento falhou
  3. A concorrência na indústria está a aumentar
ETH0.48%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 8
  • Partilhar
Comentar
0/400
ForumMiningMastervip
· 07-24 22:25
Módulos ópticos a disparar Até à lua, comprem sem hesitar.
Ver originalResponder0
0xOverleveragedvip
· 07-24 11:16
Entender de tecnologia e ter Posição completa. Se não está a fazer nada, não fale.
Ver originalResponder0
ForkTonguevip
· 07-24 06:15
Isto tudo fala durante meia hora e ainda assim não é para eu comprar ações da Light Module?
Ver originalResponder0
NftMetaversePaintervip
· 07-22 10:46
*ajusta o monóculo digital* fascinante como a topologia computacional das infraestruturas de rede reflete a minha mais recente série de arte generativa... verdadeiramente uma mudança de paradigma na computação estética
Ver originalResponder0
ForkMongervip
· 07-22 10:44
a escalabilidade da rede é o verdadeiro gargalo... não os teus fancy stacks de gpu lmao descuido típico do pessoal de ml
Ver originalResponder0
GasGuzzlervip
· 07-22 10:36
O estoque de módulos ópticos deve estar prestes a explodir, todos estão loucos para dump.
Ver originalResponder0
ZkSnarkervip
· 07-22 10:36
a questão é essa... os gargalos de rede são literalmente os novos gargalos de gpu fr
Ver originalResponder0
GweiTooHighvip
· 07-22 10:29
Outra boa desculpa para fazer as pessoas de parvas~
Ver originalResponder0
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)