400 ribu token menjadi standar baru untuk model besar, kemampuan teks panjang dapat mendorong revolusi industri

robot
Pembuatan abstrak sedang berlangsung

Kemampuan teks panjang model besar meningkat pesat, 400.000 token mungkin baru permulaan

Kemampuan pemrosesan teks panjang dari model besar sedang meningkat dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, pertumbuhan kemampuan ini terlihat jelas.

Kemampuan teks panjang tampaknya telah menjadi "standar" baru bagi produsen model besar. Di tingkat internasional, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah memperluas panjang konteks modelnya, Claude, hingga 100.000 token. LongLLaMA bahkan telah mendorong angka ini hingga 256.000 token atau lebih.

Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Bulan Gelap, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Cina di Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, sementara model 70B dapat mencapai 32.000 token.

Saat ini, banyak perusahaan dan lembaga penelitian model besar teratas, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang penting. Perusahaan-perusahaan ini tanpa kecuali adalah kesayangan pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar dolar, valuasi Anthropic diperkirakan mencapai 30 miliar dolar, dan Bulan Gelap telah menyelesaikan beberapa putaran pendanaan dalam waktu enam bulan setelah didirikan, dengan valuasi lebih dari 300 juta dolar.

Apa arti pertumbuhan panjang konteks seratus kali lipat? Secara permukaan, ini memperluas jangkauan bacaan model. Dari awal yang hanya bisa membaca sebuah artikel pendek, sekarang bisa dengan mudah membaca sebuah novel panjang. Di tingkat yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, yurisprudensi, dan penelitian ilmiah.

Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak selalu berbanding lurus dengan peningkatan kinerja. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.

Meskipun demikian, eksplorasi panjang teks saat ini tampaknya belum menyentuh "titik kritis". Perusahaan model besar di dalam dan luar negeri masih terus melakukan terobosan, 400.000 token mungkin hanya merupakan awal.

Perkembangan teknologi teks panjang tidak hanya menyelesaikan beberapa masalah awal dari model besar, tetapi juga membuka jalan untuk mendorong aplikasi industri lebih lanjut. Ini menandai bahwa perkembangan model besar memasuki tahap baru dari LLM ke Long LLM.

Di masa depan, asisten AI yang terlepas dari siklus percakapan sederhana akan berkembang ke arah profesionalisasi, personalisasi, dan kedalaman. Ini mungkin akan menjadi penggali baru untuk aplikasi industri dan menciptakan super APP.

Namun, teknologi teks panjang masih menghadapi dilema "segitiga tidak mungkin": sulit untuk mengakomodasi panjang teks, perhatian, dan daya komputasi secara bersamaan. Saat ini, terobosan dicari terutama melalui pengoptimalan mekanisme perhatian mandiri, menggunakan alat eksternal untuk membantu pemrosesan, serta pengoptimalan model.

Arah pengembangan di masa depan terletak pada mencari titik keseimbangan terbaik antara ketiga faktor tersebut, untuk menangani informasi yang cukup sambil tetap memperhatikan perhitungan perhatian dan batasan biaya komputasi. Peningkatan kemampuan teks panjang yang berkelanjutan akan membuka prospek aplikasi yang lebih luas untuk model besar.

TOKEN-4.26%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Bagikan
Komentar
0/400
Layer3Dreamervip
· 07-15 00:47
secara teoritis, penskalaan token hanyalah manifestasi lain dari blockchain trilemma... penasaran tentang implikasi rekursif
Lihat AsliBalas0
consensus_failurevip
· 07-14 18:07
Panjang berapa pun juga, apa gunanya? Daya Komputasi tidak meledak, kan?
Lihat AsliBalas0
DefiPlaybookvip
· 07-13 12:06
Sekali lagi menggulung RAM, seolah-olah TVL naik.
Lihat AsliBalas0
HorizonHuntervip
· 07-13 01:59
Apakah 40w juga akan meluap memori?
Lihat AsliBalas0
SelfStakingvip
· 07-13 01:44
Menambahkan hingga 400 ribu, benar-benar hebat
Lihat AsliBalas0
StablecoinAnxietyvip
· 07-13 01:44
Menghabiskan 400.000 token, kepala botak
Lihat AsliBalas0
TideRecedervip
· 07-13 01:42
Token saya semua naik gila.
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)