Tỷ lệ Attention/FFN tối ưu về mặt lý thuyết trong phục vụ LLM phân tách

Một nhóm nghiên cứu dẫn đầu bởi Chendong Song và 7 đồng tác giả vừa công bố công trình phân tích về tỉ lệ tối ưu giữa Attention và FFN trong kiến trúc disaggregated LLM serving. Bài báo, nộp lần đầu ngày 29/01/2026 và hiệu chỉnh lần cuối ngày 07/05/2026, trình bày khung lý thuyết giúp xác định cách cấp phát tài nguyên cho Attention/FFN trong kiến trúc Attention–FFN disaggregation (AFD).

AFD là kiến trúc mới cho quá trình giải mã của mô hình ngôn ngữ lớn (LLM) tách riêng phần tính toán nặng trạng thái, chiếm nhiều bộ nhớ do KV-cache (Attention), khỏi phần tính toán không trạng thái nhưng tiêu tốn nhiều FLOP (FFN), kết nối với nhau bằng giao tiếp theo từng bước (per-step communication). Thiết kế này cho phép mở rộng độc lập tài nguyên nhớ và tài nguyên tính toán, nhưng hiệu suất vận hành lại rất nhạy cảm với tỉ lệ cấp phát Attention/FFN: nếu cấp quá ít hoặc quá nhiều sẽ gây hiện tượng chặn ở cấp bước và làm thiết bị phải nhàn rỗi, tốn kém.

Nhóm tác giả phát triển một khung phân bổ tài nguyên phân tích cho các bundle AFD trong cấu trúc topo rA–1F dưới các khối lượng công việc ngẫu nhiên (stochastic workloads). Họ nhận diện hai nguồn ngẫu nhiên chính ảnh hưởng đến bài toán: thứ nhất, khối lượng công việc Attention theo từng slot biến đổi khi bộ nhớ KV-cache tăng lên và các yêu cầu hoàn thành được bổ sung lại với độ dài prompt và decode ngẫu nhiên; thứ hai, việc thực thi đồng bộ giữa các worker Attention tạo ra một rào cản (barrier) bị chi phối bởi worker chậm nhất.

Để xử lý cả hai yếu tố ngẫu nhiên này, nghiên cứu sử dụng đặc trưng renewal–reward cho tải token trạm ổn định theo mỗi slot, và xác định được một thống kê duy nhất của workload, ký hiệu là θ, chi phối việc cấp phát tài nguyên trong mọi phân bố prefill-decode. Thống kê θ có thể ước lượng không tham số (nonparametric) từ các bản ghi yêu cầu (request traces), cho phép hiệu chỉnh thực tế cho khung lý thuyết.

Từ phân tích, tác giả đưa ra một quy tắc mean-field dạng đóng cho tỉ lệ Attention/FFN tối ưu, phân rã thành các chế độ giới hạn do Attention, do giao tiếp (communication) và do FFN. Họ còn phát triển một sửa đổi có tính toán đến rào cản theo phân bố Gaussian, giúp định lượng chi phí đồng bộ hóa giữa các worker Attention.

Nhóm tác giả cũng xây dựng bộ mô phỏng AFD được hiệu chỉnh theo trace để kiểm chứng khung lý thuyết trên nhiều workload khác nhau: tỉ lệ tối ưu dự đoán bởi khung phân tích trùng khớp với tỉ lệ tối ưu tìm được qua mô phỏng trong phạm vi 10%. Kết quả này cung cấp một lời giải cô đọng và có thể hiệu chỉnh, giải thích cách mà cấu trúc ngẫu nhiên của workload quyết định việc cấp phát tài nguyên trong disaggregated LLM serving.

Nguồn: arxiv.org

Đăng ngày: 2026-05-08 11:00:00 • Tác giả: Chendong Song, Meixuan Wang, Hang Zhou, Hong Liang, Yuan Lyu, Zixi Chen, Yuwei Fan, Zijie Zhou

This article is also published as a forum topic here »