Cache-Augmented Generation (CAG) xuất hiện như một cách tiếp cận thay đổi trò chơi bằng cách loại bỏ việc lấy lại thời gian thực, tận dụng kiến thức đã tải trước và đạt được kết quả vượt trội.
Đây là cách:
》 Cổ chai của RAG
✸ Thế hệ tăng cường Rettrieval (RAG) đã mang tính cách mạng hóa hệ thống AI bằng cách cho phép các mô hình tìm nạp kiến thức bên ngoài một cách linh động. ✸ Tuy nhiên, RAG giới thiệu về độ trễ thu hồi, lỗi lựa chọn tài liệu và kiến trúc phức tạp, thường dẫn đến sự thiếu hiệu quả trong các công việc nhạy cảm về thời gian.
﹌﹌﹌﹌﹌﹌﹌﹌﹌
》 The CAG Paradigm: Tiếp cận đơn giản hơn, nhanh hơn
✸ Ý tưởng chính: CAG tận dụng Mô hình Ngôn ngữ lớn (LLMs) với tài liệu được tải sẵn và bộ nhớ được sử dụng sẵn (Key-Value Cache).
✸ Điều này tránh sự phụ thuộc vào việc tìm nạp dữ liệu bên ngoài, cho phép các câu trả lời chính xác ngay lập tức và theo ngữ cảnh mà không có lỗi.
———
✸ Tại sao CAG lại được miễn phí lấy lại?
☆ Kiến thức đã tải trước: Thay vì lấy tài liệu một cách linh động, CAG tải trước tất cả kiến thức cần thiết vào ngữ cảnh mô hình.
☆ Bộ nhớ Precomputed Memory (KV Cache): Tài liệu được mã hóa thành bộ nhớ đệm Giá trị Key-Value, lưu trữ các trạng thái khác và loại bỏ nhu cầu tìm kiếm.
☆Truy cập trực tiếp vào ngữ cảnh: Các câu hỏi truy cập trực tiếp thông tin đã tải trước, đảm bảo phản hồi nhanh hơn và vượt qua cơ chế thu hồi.
☆ Phản hồi miễn phí lỗi: Vì tất cả ngữ cảnh đã được tải trước, nên không có nguy cơ bị lỗi lấy lại hoặc dữ liệu chưa hoàn chỉnh.
———-
✸ Bối cảnh tải trước CAG như thế nào?
☆ Chuẩn bị tài liệu: Tất cả các tài liệu liên quan đều được chỉnh sửa và xử lý sẵn để phù hợp với cửa sổ ngữ cảnh của LLM.
☆ Key-Value Cache Encoding: Các tài liệu được chuyển đổi thành bộ nhớ đệm KV được tính sẵn để lưu trữ các trạng thái khác nhau.
☆ Lưu trữ và Tái sử dụng: Bộ nhớ đệm KV này được lưu trữ trong bộ nhớ hoặc đĩa và tái sử dụng trong quá trình tham khảo, loại bỏ quá trình xử lý lặp đi lặp lại.
☆ Thực hiện truy vấn: Thắc vấn của người dùng tận dụng bộ nhớ đệm đã tải sẵn, đảm bảo phản hồi tức thì mà không cần thêm các bước lấy lại.
﹌﹌﹌﹌﹌﹌﹌﹌﹌
》 Kết quả Thử nghiệm: Tại sao CAG vượt qua RAG
✸ Tập dữ liệu tiêu chuẩn:
– HotPotQA – Tập trung vào lý luận đahop.
– SQuaD – Nhấn mạnh sự hiểu biết một đường.
✸ Số liệu:
– Độ chính xác: Được đo bằng BERTScore.
– Tốc độ: So sánh thời gian phản hồi.
✸ Tìm kiếm:
☆ CAG đạt hiệu quả vượt trội RAG về độ chính xác và thời gian phản hồi trên các tập dữ liệu nhỏ, vừa và lớn.
☆ Các tập dữ liệu lớn nhận được thời gian tham khảo nhanh hơn 40 lần so với thiết lập RAG truyền thống.
☆ CAG liên tục duy trì độ chính xác và đồng đều cao hơn do xử lý ngữ cảnh toàn diện.