Nếu bạn đang tìm mô hình ngôn ngữ mở có khả năng hiểu và sử dụng tiếng Việt tốt thì không thể bỏ qua Sailor2, một dự án cộng đồng vừa mới ra mắt, mang đến những mô hình ngôn ngữ đa ngôn ngữ cực kỳ ấn tượng. Trong khi cả thế giới AI đang tập trung vào những mô hình “khủng” nói tiếng Anh, thì Sailor2 lại mang đến một làn gió mới, tập trung vào các ngôn ngữ Đông Nam Á, trong đó có cả tiếng Việt của chúng ta.
Sailor2 không chỉ là một mô hình ngôn ngữ thông thường, mà là một bộ sưu tập các mô hình với ba kích cỡ khác nhau: 0.8 tỷ, 8 tỷ và 20 tỷ tham số, tha hồ cho bạn lựa chọn tùy theo nhu cầu sử dụng. Điều đặc biệt là Sailor2 được phát hành dưới giấy phép Apache 2.0, tức là hoàn toàn miễn phí và mở, ai cũng có thể tải về và sử dụng.
Sailor2 được xây dựng trên nền tảng Qwen2.5 của Alibaba, nhưng đã được “huấn luyện” thêm với hơn 500 tỷ token dữ liệu chất lượng cao, để có thể “nói” được 15 thứ tiếng, bao gồm: Anh, Trung, Miến Điện , Cebuano, Ilocano, Indonesia, Java, Khmer, Lào, Malay, Sunda, Tagalog, Thái Lan, và dĩ nhiên là cả Việt Nam của chúng ta, cùng với Waray
.
Để đạt được hiệu năng cao như vậy, đội ngũ phát triển Sailor2 đã sử dụng nhiều công nghệ tiên tiến:
Mở rộng mô hình: Giúp AI học được nhiều kiến thức hơn.
Trộn dữ liệu thông minh: Đảm bảo AI học đều các ngôn ngữ, không bị “học lệch”.
Huấn luyện nhiều giai đoạn: Giúp AI học một cách bài bản, từ dễ đến khó.
Tinh chỉnh đa ngôn ngữ: Giúp AI nói tiếng Việt chuẩn như người bản xứ.
Mặc dù chỉ có 20 tỷ tham số, nhưng mô hình 20B của Sailor2 lại có sức mạnh đáng kinh ngạc, có thể sánh ngang hoặc vượt qua các mô hình lớn hơn nhiều như Qwen2.5-32B, Gemma2-27B, Llama3.1-70B và Aya-Expanse-32B khi so sánh về khả năng hiểu và sử dụng tiếng Việt. Thậm chí, phiên bản chat 20B của Sailor2 còn có thể “đọ sức” với GPT-4o và đạt tỷ lệ thắng 50-50 trong hầu hết các ngôn ngữ Đông Nam Á!
Nói chung là, nếu bạn đang tìm kiếm một mô hình ngôn ngữ mở, mạnh mẽ, lại còn nói được tiếng Việt “chuẩn không cần chỉnh” thì Sailor2 chính là lựa chọn không thể bỏ qua. Các link demo và tải model về mình để ở dưới nhé