A capacidade de longo texto dos grandes modelos está a melhorar rapidamente, 400 mil tokens podem ser apenas o começo
A capacidade de processamento de longos textos dos grandes modelos está a aumentar a uma velocidade impressionante. Desde os primeiros 4000 tokens até aos atuais 400.000 tokens, o crescimento desta capacidade é visível a olho nu.
A capacidade de texto longo parece ter se tornado um novo "padrão" para os fabricantes de grandes modelos. Internacionalmente, a OpenAI aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respectivamente, através de várias atualizações. A Anthropic fez ainda mais ao expandir o comprimento do contexto de seu modelo Claude para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens ou até mais.
No âmbito nacional, a Kimi Chat, uma startup de modelos grandes lançada pela Moonlight, suporta a entrada de 200 mil caracteres chineses, equivalente a cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto de um modelo de 7B para 100 mil tokens, enquanto um modelo de 70B pode alcançar 32 mil tokens.
Atualmente, várias das principais empresas e instituições de pesquisa em grandes modelos, incluindo OpenAI, Anthropic, Meta e a Lua da Escuridão, estão focadas na expansão do comprimento do contexto como uma direção de atualização prioritária. Sem exceção, essas empresas são as queridinhas do mercado de capitais. A OpenAI recebeu quase 12 bilhões de dólares em investimentos, a avaliação da Anthropic deve alcançar 30 bilhões de dólares, e a Lua da Escuridão completou várias rodadas de financiamento em apenas seis meses, com uma avaliação superior a 300 milhões de dólares.
O que significa um aumento de cem vezes no comprimento do contexto? À primeira vista, isso amplia o alcance de leitura do modelo. De inicialmente conseguir ler um breve artigo, agora é capaz de ler facilmente um romance longo. Em um nível mais profundo, a tecnologia de textos longos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que não se pode igualar diretamente o suporte do modelo a entradas de contexto mais longas com a melhoria do desempenho. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.
Apesar disso, a exploração atual do comprimento do texto parece ainda não ter atingido o "ponto crítico". Empresas de modelos grandes, tanto nacionais quanto internacionais, continuam a fazer avanços, e 400 mil tokens podem ser apenas o começo.
O desenvolvimento da tecnologia de long text não só resolveu alguns dos problemas iniciais dos grandes modelos, como também pavimentou o caminho para a promoção de aplicações industriais. Isso marca a entrada do desenvolvimento dos grandes modelos em uma nova fase, de LLM para Long LLM.
No futuro, assistentes de IA que se afastam das simples rodadas de conversa estão a desenvolver-se na direção da especialização, personalização e profundidade. Isso poderá tornar-se uma nova alavanca para impulsionar aplicações industriais e criar super aplicativos.
No entanto, a tecnologia de texto longo ainda enfrenta o dilema do "triângulo impossível": é difícil conciliar o comprimento do texto, a atenção e a capacidade computacional. Atualmente, busca-se uma solução principalmente através da otimização do mecanismo de autoatenção, uso de ferramentas externas para auxiliar no processamento e otimização de modelos.
A direção futura do desenvolvimento está em encontrar o melhor ponto de equilíbrio entre os três, para lidar com informações suficientes enquanto considera as limitações de cálculo de atenção e custo computacional. A contínua melhoria na capacidade de textos longos irá abrir perspectivas de aplicação mais amplas para grandes modelos.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
8 gostos
Recompensa
8
7
Republicar
Partilhar
Comentar
0/400
Layer3Dreamer
· 07-15 00:47
teoricamente falando, a escalabilidade do token é apenas outra manifestação do trilema do blockchain... curioso sobre as implicações recursivas
Ver originalResponder0
consensus_failure
· 07-14 18:07
Longar mais não serve de nada, o Poder de computação não explode o valor, né?
Ver originalResponder0
DefiPlaybook
· 07-13 12:06
Outra vez a aumentar RAM, como se o TVL tivesse subido.
400 mil tokens tornam-se o novo padrão para grandes modelos A capacidade de longo texto pode impulsionar uma revolução industrial
A capacidade de longo texto dos grandes modelos está a melhorar rapidamente, 400 mil tokens podem ser apenas o começo
A capacidade de processamento de longos textos dos grandes modelos está a aumentar a uma velocidade impressionante. Desde os primeiros 4000 tokens até aos atuais 400.000 tokens, o crescimento desta capacidade é visível a olho nu.
A capacidade de texto longo parece ter se tornado um novo "padrão" para os fabricantes de grandes modelos. Internacionalmente, a OpenAI aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respectivamente, através de várias atualizações. A Anthropic fez ainda mais ao expandir o comprimento do contexto de seu modelo Claude para 100.000 tokens. O LongLLaMA levou esse número a 256.000 tokens ou até mais.
No âmbito nacional, a Kimi Chat, uma startup de modelos grandes lançada pela Moonlight, suporta a entrada de 200 mil caracteres chineses, equivalente a cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto de um modelo de 7B para 100 mil tokens, enquanto um modelo de 70B pode alcançar 32 mil tokens.
Atualmente, várias das principais empresas e instituições de pesquisa em grandes modelos, incluindo OpenAI, Anthropic, Meta e a Lua da Escuridão, estão focadas na expansão do comprimento do contexto como uma direção de atualização prioritária. Sem exceção, essas empresas são as queridinhas do mercado de capitais. A OpenAI recebeu quase 12 bilhões de dólares em investimentos, a avaliação da Anthropic deve alcançar 30 bilhões de dólares, e a Lua da Escuridão completou várias rodadas de financiamento em apenas seis meses, com uma avaliação superior a 300 milhões de dólares.
O que significa um aumento de cem vezes no comprimento do contexto? À primeira vista, isso amplia o alcance de leitura do modelo. De inicialmente conseguir ler um breve artigo, agora é capaz de ler facilmente um romance longo. Em um nível mais profundo, a tecnologia de textos longos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica.
No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo for. Estudos mostram que não se pode igualar diretamente o suporte do modelo a entradas de contexto mais longas com a melhoria do desempenho. A chave está em como o modelo utiliza efetivamente o conteúdo do contexto.
Apesar disso, a exploração atual do comprimento do texto parece ainda não ter atingido o "ponto crítico". Empresas de modelos grandes, tanto nacionais quanto internacionais, continuam a fazer avanços, e 400 mil tokens podem ser apenas o começo.
O desenvolvimento da tecnologia de long text não só resolveu alguns dos problemas iniciais dos grandes modelos, como também pavimentou o caminho para a promoção de aplicações industriais. Isso marca a entrada do desenvolvimento dos grandes modelos em uma nova fase, de LLM para Long LLM.
No futuro, assistentes de IA que se afastam das simples rodadas de conversa estão a desenvolver-se na direção da especialização, personalização e profundidade. Isso poderá tornar-se uma nova alavanca para impulsionar aplicações industriais e criar super aplicativos.
No entanto, a tecnologia de texto longo ainda enfrenta o dilema do "triângulo impossível": é difícil conciliar o comprimento do texto, a atenção e a capacidade computacional. Atualmente, busca-se uma solução principalmente através da otimização do mecanismo de autoatenção, uso de ferramentas externas para auxiliar no processamento e otimização de modelos.
A direção futura do desenvolvimento está em encontrar o melhor ponto de equilíbrio entre os três, para lidar com informações suficientes enquanto considera as limitações de cálculo de atenção e custo computacional. A contínua melhoria na capacidade de textos longos irá abrir perspectivas de aplicação mais amplas para grandes modelos.