Mạng đóng vai trò quan trọng trong thời đại mô hình AI lớn
Thời đại mô hình lớn, các thiết bị mạng như mô-đun quang, công tắc... đang tăng tốc độ thay thế, nhu cầu bùng nổ. Bài viết này bắt đầu từ nguyên lý, khám phá lý do tại sao mạng trở thành một phần quan trọng trong thời đại AI và thảo luận về những cơ hội đổi mới và đầu tư ở phía mạng trong tương lai.
Nguồn cầu mạng
Sự chênh lệch giữa kích thước mô hình và giới hạn trên của một thẻ đã gia tăng, chuyển sang đào tạo cụm máy chủ đa dạng, tạo thành nền tảng quan trọng của mạng.
Mạng nhiều hơn được sử dụng để đồng bộ hóa các tham số mô hình giữa các card đồ họa, yêu cầu về mật độ và dung lượng tăng lên.
Thời gian huấn luyện = quy mô dữ liệu x số lượng tham số / tốc độ tính toán. Tốc độ tính toán = tốc độ trên một thiết bị x số lượng thiết bị x hiệu suất song song. Mở rộng số lượng thiết bị và hiệu suất song song trở thành yếu tố then chốt.
Đồng bộ nhiều thẻ phức tạp: mỗi lần tính toán cần phải căn chỉnh, thao tác All-to-All thường gặp, yêu cầu cao về truyền tải và trao đổi.
Chi phí sự cố cao: Đào tạo kéo dài trong vài tháng, nếu bị gián đoạn cần quay lại điểm dừng để đào tạo lại, độ ổn định của mạng là rất quan trọng.
Hướng đổi mới mạng
Chất liệu truyền thông: Cập nhật chất liệu quang, đồng, silicon, phát triển công nghệ giảm chi phí như LPO, LRO, quang silicon.
Giao thức mạng: Cạnh tranh giữa giao thức truyền thông giữa các mảnh và giao thức truyền thông giữa các nút.
Kiến trúc mạng: Kiến trúc lá phổi tiến hóa sang các kiến trúc mới như Dragonfly, rail-only.
Đề xuất đầu tư
Các liên kết cốt lõi của hệ thống truyền thông: Zhongji Xuchuang, New Yi Sheng, Tianfu Communication, Industrial Fulian, Yingwei Ke, Hu Dian Co., Ltd.
Các khâu đổi mới trong hệ thống truyền thông: Long Tech Fiber, Tai Chen Light, Yuan Jie Technology, Sheng Ke Communication-U, Han Wu Ji, De Ke Li.
Cảnh báo rủi ro
Nhu cầu AI không đạt kỳ vọng
Quy luật mở rộng không còn hiệu lực
Cạnh tranh trong ngành gia tăng
Nhận thức về tầm quan trọng của mạng
Tầm quan trọng của giao tiếp trong thời đại AI thể hiện ở:
Số lượng card đồ họa và hiệu suất kết nối quyết định thời gian đào tạo, thời gian là tài nguyên cạnh tranh quan trọng.
Trong quá trình đào tạo, cần phải căn chỉnh tham số sau mỗi phép toán ở mỗi lớp, điều này yêu cầu rất cao đối với mạng.
Chi phí do sự cố mạng cao, gián đoạn sẽ ảnh hưởng nghiêm trọng đến hiệu quả và chi phí đào tạo.
Quy mô cụm đạt hàng vạn thẻ, số lượng bộ phận kết nối lên tới hàng trăm nghìn, yêu cầu độ ổn định của hệ thống cao.
Nhận thức về hướng đổi mới mạng
Giảm chi phí, mở cửa và cân bằng quy mô sức mạnh tính toán là những vấn đề chính.
Đổi mới phương tiện truyền thông: Tiến bộ về chất liệu quang, đồng, silicon, các công nghệ mới như LPO, LRO, quang silicon.
Đổi mới giao thức truyền thông: Cạnh tranh giữa các giao thức trong nút ( như NVLINK ) và giữa các nút ( IB so với Ethernet ).
Cập nhật kiến trúc mạng: Kiến trúc lá được phát triển sang các kiến trúc mới như Drangonfly, Rail-only.
Từ điện toán đám mây đến thời đại AI, tầm quan trọng của truyền thông tăng lên
Nhu cầu kết nối mạng của AI bùng nổ, quy mô tham số tăng lên khiến một thẻ không thể chịu đựng được.
Thời gian huấn luyện = quy mô dữ liệu x số lượng tham số / tốc độ tính toán, sức mạnh tính toán chồng chất trở thành yếu tố then chốt.
Tốc độ tính toán = Tốc độ từng thiết bị x Số lượng thiết bị x Hiệu suất song song, số lượng thiết bị và hiệu suất song song trở nên quan trọng như nhau.
Mạng trở thành yếu tố then chốt trong việc nâng cao số lượng thiết bị và hiệu suất song song, việc Nvidia mua lại Mellanox chính là vì lý do này.
Hợp tác đa thẻ trong đào tạo mô hình lớn
Song song dữ liệu: Mỗi GPU giữ nguyên mô hình đầy đủ, phân chia dữ liệu để huấn luyện.
Song song mô hình: Chia mô hình ra các GPU khác nhau, bao gồm song song tensor và song song ống dẫn.
Phối hợp đa chiều song song: Kết hợp nhiều phương thức song song, chia thành nhiều giai đoạn để đào tạo.
Các phương thức song song khác nhau đều cần phải đồng bộ tham số, đặt ra các yêu cầu khác nhau cho mạng.
Cốt lõi của đa thẻ liên kết: Độ chính xác của đồng bộ
Phát sóng ngược để căn chỉnh tham số, độ trễ All-to-All là chỉ số quan trọng.
Phương pháp đồng bộ bao gồm đồng bộ song song, đồng bộ bất đồng bộ, All-Reduce, v.v.
Các thuật toán tối ưu như Ring All-Reduce có thể giảm băng thông và độ trễ.
Cần hỗ trợ phần cứng mạng, như NVLink, giao thức IB, v.v.
Kỹ thuật hệ thống: Giám sát - Tóm tắt - Đổi mới lặp lại
Cần theo dõi luồng dữ liệu và tình hình hoạt động theo thời gian thực.
Phần mềm và phần cứng bắt gói là phương pháp giám sát chính, chẳng hạn như Wireshark.
Công nghệ kết nối chuỗi và song song như DPI/DFI có thể thực hiện giám sát không mất mát.
Tối ưu hóa tính ổn định và hiệu suất của hệ thống dựa trên kết quả giám sát.
Cạnh tranh và lặp lại của giao thức truyền thông
Giao tiếp trong nút: PCIe, NVLink, Infinity Fabric, v.v.
Giao tiếp giữa các nút: InfiniBand so với gia đình giao thức Ethernet RoCE.
RDMA trở thành nhu cầu thiết yếu kết nối cụm AI.
Giao thức IB của Nvidia so với Liên minh Siêu Ethernet do AMD dẫn đầu.
Hướng đổi mới phần cứng mạng
Phương tiện truyền dẫn: Sự cạnh tranh giữa ánh sáng, đồng và silicon, yếu tố giá thành và độ ổn định là rất quan trọng.
Bộ chuyển mạch: Sự trỗi dậy của bộ chuyển mạch quang, đổi mới chip bộ chuyển mạch điện.
Kiến trúc mạng: Kiến trúc lá xòe tiến hóa thành Dragonfly, Rail-only và các kiến trúc khác.
Cụm trung tâm dữ liệu: Kết nối giữa các trung tâm dữ liệu trở thành điểm nhấn mới.
Gợi ý đầu tư
Chú ý đến các phần cứng cơ bản như switch, module quang.
Theo dõi cơ hội từ các công nghệ mới như LPO, CPO, sợi quang đặc biệt.
Chú ý đến cơ hội tăng tốc phát triển của các switch sản xuất trong nước.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
20 thích
Phần thưởng
20
6
Chia sẻ
Bình luận
0/400
LiquidityOracle
· 07-23 17:49
Card mạng lại sắp kiếm được nhiều tiền rồi.
Xem bản gốcTrả lời0
ValidatorVibes
· 07-23 12:27
tắc nghẽn mạng phi tập trung... giống như eth2.0 lại một lần nữa, thật lòng mà nói
Thời đại mô hình AI lớn bùng nổ nhu cầu thiết bị mạng Thảo luận về cơ hội đổi mới và đầu tư trong tương lai
Mạng đóng vai trò quan trọng trong thời đại mô hình AI lớn
Thời đại mô hình lớn, các thiết bị mạng như mô-đun quang, công tắc... đang tăng tốc độ thay thế, nhu cầu bùng nổ. Bài viết này bắt đầu từ nguyên lý, khám phá lý do tại sao mạng trở thành một phần quan trọng trong thời đại AI và thảo luận về những cơ hội đổi mới và đầu tư ở phía mạng trong tương lai.
Nguồn cầu mạng
Sự chênh lệch giữa kích thước mô hình và giới hạn trên của một thẻ đã gia tăng, chuyển sang đào tạo cụm máy chủ đa dạng, tạo thành nền tảng quan trọng của mạng.
Mạng nhiều hơn được sử dụng để đồng bộ hóa các tham số mô hình giữa các card đồ họa, yêu cầu về mật độ và dung lượng tăng lên.
Thời gian huấn luyện = quy mô dữ liệu x số lượng tham số / tốc độ tính toán. Tốc độ tính toán = tốc độ trên một thiết bị x số lượng thiết bị x hiệu suất song song. Mở rộng số lượng thiết bị và hiệu suất song song trở thành yếu tố then chốt.
Đồng bộ nhiều thẻ phức tạp: mỗi lần tính toán cần phải căn chỉnh, thao tác All-to-All thường gặp, yêu cầu cao về truyền tải và trao đổi.
Chi phí sự cố cao: Đào tạo kéo dài trong vài tháng, nếu bị gián đoạn cần quay lại điểm dừng để đào tạo lại, độ ổn định của mạng là rất quan trọng.
Hướng đổi mới mạng
Chất liệu truyền thông: Cập nhật chất liệu quang, đồng, silicon, phát triển công nghệ giảm chi phí như LPO, LRO, quang silicon.
Giao thức mạng: Cạnh tranh giữa giao thức truyền thông giữa các mảnh và giao thức truyền thông giữa các nút.
Kiến trúc mạng: Kiến trúc lá phổi tiến hóa sang các kiến trúc mới như Dragonfly, rail-only.
Đề xuất đầu tư
Các liên kết cốt lõi của hệ thống truyền thông: Zhongji Xuchuang, New Yi Sheng, Tianfu Communication, Industrial Fulian, Yingwei Ke, Hu Dian Co., Ltd.
Các khâu đổi mới trong hệ thống truyền thông: Long Tech Fiber, Tai Chen Light, Yuan Jie Technology, Sheng Ke Communication-U, Han Wu Ji, De Ke Li.
Cảnh báo rủi ro
Nhận thức về tầm quan trọng của mạng
Tầm quan trọng của giao tiếp trong thời đại AI thể hiện ở:
Số lượng card đồ họa và hiệu suất kết nối quyết định thời gian đào tạo, thời gian là tài nguyên cạnh tranh quan trọng.
Trong quá trình đào tạo, cần phải căn chỉnh tham số sau mỗi phép toán ở mỗi lớp, điều này yêu cầu rất cao đối với mạng.
Chi phí do sự cố mạng cao, gián đoạn sẽ ảnh hưởng nghiêm trọng đến hiệu quả và chi phí đào tạo.
Quy mô cụm đạt hàng vạn thẻ, số lượng bộ phận kết nối lên tới hàng trăm nghìn, yêu cầu độ ổn định của hệ thống cao.
Nhận thức về hướng đổi mới mạng
Giảm chi phí, mở cửa và cân bằng quy mô sức mạnh tính toán là những vấn đề chính.
Đổi mới phương tiện truyền thông: Tiến bộ về chất liệu quang, đồng, silicon, các công nghệ mới như LPO, LRO, quang silicon.
Đổi mới giao thức truyền thông: Cạnh tranh giữa các giao thức trong nút ( như NVLINK ) và giữa các nút ( IB so với Ethernet ).
Cập nhật kiến trúc mạng: Kiến trúc lá được phát triển sang các kiến trúc mới như Drangonfly, Rail-only.
Từ điện toán đám mây đến thời đại AI, tầm quan trọng của truyền thông tăng lên
Nhu cầu kết nối mạng của AI bùng nổ, quy mô tham số tăng lên khiến một thẻ không thể chịu đựng được.
Thời gian huấn luyện = quy mô dữ liệu x số lượng tham số / tốc độ tính toán, sức mạnh tính toán chồng chất trở thành yếu tố then chốt.
Tốc độ tính toán = Tốc độ từng thiết bị x Số lượng thiết bị x Hiệu suất song song, số lượng thiết bị và hiệu suất song song trở nên quan trọng như nhau.
Mạng trở thành yếu tố then chốt trong việc nâng cao số lượng thiết bị và hiệu suất song song, việc Nvidia mua lại Mellanox chính là vì lý do này.
Hợp tác đa thẻ trong đào tạo mô hình lớn
Song song dữ liệu: Mỗi GPU giữ nguyên mô hình đầy đủ, phân chia dữ liệu để huấn luyện.
Song song mô hình: Chia mô hình ra các GPU khác nhau, bao gồm song song tensor và song song ống dẫn.
Phối hợp đa chiều song song: Kết hợp nhiều phương thức song song, chia thành nhiều giai đoạn để đào tạo.
Các phương thức song song khác nhau đều cần phải đồng bộ tham số, đặt ra các yêu cầu khác nhau cho mạng.
Cốt lõi của đa thẻ liên kết: Độ chính xác của đồng bộ
Phát sóng ngược để căn chỉnh tham số, độ trễ All-to-All là chỉ số quan trọng.
Phương pháp đồng bộ bao gồm đồng bộ song song, đồng bộ bất đồng bộ, All-Reduce, v.v.
Các thuật toán tối ưu như Ring All-Reduce có thể giảm băng thông và độ trễ.
Cần hỗ trợ phần cứng mạng, như NVLink, giao thức IB, v.v.
Kỹ thuật hệ thống: Giám sát - Tóm tắt - Đổi mới lặp lại
Cần theo dõi luồng dữ liệu và tình hình hoạt động theo thời gian thực.
Phần mềm và phần cứng bắt gói là phương pháp giám sát chính, chẳng hạn như Wireshark.
Công nghệ kết nối chuỗi và song song như DPI/DFI có thể thực hiện giám sát không mất mát.
Tối ưu hóa tính ổn định và hiệu suất của hệ thống dựa trên kết quả giám sát.
Cạnh tranh và lặp lại của giao thức truyền thông
Giao tiếp trong nút: PCIe, NVLink, Infinity Fabric, v.v.
Giao tiếp giữa các nút: InfiniBand so với gia đình giao thức Ethernet RoCE.
RDMA trở thành nhu cầu thiết yếu kết nối cụm AI.
Giao thức IB của Nvidia so với Liên minh Siêu Ethernet do AMD dẫn đầu.
Hướng đổi mới phần cứng mạng
Phương tiện truyền dẫn: Sự cạnh tranh giữa ánh sáng, đồng và silicon, yếu tố giá thành và độ ổn định là rất quan trọng.
Bộ chuyển mạch: Sự trỗi dậy của bộ chuyển mạch quang, đổi mới chip bộ chuyển mạch điện.
Kiến trúc mạng: Kiến trúc lá xòe tiến hóa thành Dragonfly, Rail-only và các kiến trúc khác.
Cụm trung tâm dữ liệu: Kết nối giữa các trung tâm dữ liệu trở thành điểm nhấn mới.
Gợi ý đầu tư
Chú ý đến các phần cứng cơ bản như switch, module quang.
Theo dõi cơ hội từ các công nghệ mới như LPO, CPO, sợi quang đặc biệt.
Chú ý đến cơ hội tăng tốc phát triển của các switch sản xuất trong nước.
Cảnh báo rủi ro