40萬token成大模型新標配長文本能力或撬動產業革命

2025-07-13 01:30:39

摘要生成中

大模型長文本能力迅速提升，40萬token或許只是開始

大模型的長文本處理能力正在以驚人的速度提升。從最初的4000 token到如今的40萬token，這一能力的增長肉眼可見。

長文本能力似乎已成爲大模型廠商的新"標配"。國際上，OpenAI通過多次升級將GPT-3.5和GPT-4的上下文長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將其模型Claude的上下文長度擴展到10萬token。LongLLaMA則將這一數字推至25.6萬token甚至更高。

國內方面，大模型初創公司月之暗面推出的Kimi Chat支持輸入20萬漢字，約合40萬token。港中文和MIT聯合開發的LongLoRA技術可將7B模型的文本長度擴展到10萬token，70B模型則可達3.2萬token。

目前，包括OpenAI、Anthropic、Meta、月之暗面在內的衆多頂級大模型公司和研究機構都將拓展上下文長度作爲重點升級方向。這些公司無一例外都是資本市場的寵兒。OpenAI獲得近120億美元投資，Anthropic估值有望達300億美元，月之暗面成立半年即完成多輪融資，估值超3億美元。

上下文長度的百倍增長意味着什麼？表面上看，這擴大了模型的閱讀範圍。從最初只能讀完一篇短文，到現在可以輕鬆閱讀一本長篇小說。更深層次上，長文本技術正推動大模型在金融、司法、科研等專業領域的應用落地。

然而，文本長度並非越長越好。研究表明，模型支持更長上下文輸入與效果提升並不能直接畫等號。關鍵在於模型如何有效利用上下文內容。

盡管如此，當前對文本長度的探索似乎還未觸及"臨界點"。國內外大模型公司仍在不斷突破，40萬token可能只是一個開始。

長文本技術的發展既解決了大模型早期的一些問題，也爲進一步推動產業應用鋪平了道路。這標志着大模型發展進入了從LLM到Long LLM的新階段。

未來，脫離簡單對話輪次的AI助手正朝着專業化、個性化、深度化方向發展。這或將成爲撬動產業應用和打造超級APP的新抓手。

然而，長文本技術仍面臨"不可能三角"困境：文本長度、注意力和算力三者難以兼顧。當前主要通過優化自注意力機制、使用外部工具輔助處理以及模型優化等方法來尋求突破。

未來的發展方向在於在三者之間尋找最佳平衡點，以處理足夠信息的同時兼顧注意力計算和算力成本限制。長文本能力的持續提升，將爲大模型開啓更廣闊的應用前景。

TOKEN-11.02%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

8人點讚了這條動態

讚賞
8
7
分享

留言

0/400

Layer3梦想家

· 07-15 00:47

从理论上讲，代币扩展仅仅是区块链不可能三角的另一种表现形式……对递归影响感到好奇

查看原文回復0

consensus_failure

· 07-14 18:07

长再多又有啥用算力费不爆表嘛

回復0

DeFi攻略

· 07-13 12:06

又在卷RAM，搞得和TVL涨了似的

回復0

地平线猎手

· 07-13 01:59

40w也会溢出内存吧？

回復0

SelfStaking

· 07-13 01:44

加到40万咯真猛

回復0

稳定币焦虑症

· 07-13 01:44

爆肝40万token 头秃

回復0

潮水退了就知道

· 07-13 01:42

我的token都涨疯了

回復0

話題
1/3
1山寨季來了？
15k 熱度
2穩定幣監管風暴
3k 熱度
3Gate 6月透明度報告
15k 熱度
4以太坊突破3800
23k 熱度
5Strategy增持比特幣
15k 熱度

40萬token成大模型新標配 長文本能力或撬動產業革命

大模型長文本能力迅速提升，40萬token或許只是開始

40萬token成大模型新標配長文本能力或撬動產業革命