Google Gemini: Tổng Quan – Chi Tiết về Các AI nhà Google

Bài này hơi dài nhưng sẽ rất hữu ích cho ai muốn khai thác hiệu quả các sản phẩm của hệ sinh thái nhà Google trên nền AI Gemini

Google đang vào giai đoạn bùng nổ với Gemini, bộ công cụ mô hình AI tạo sinh, ứng dụng và dịch vụ chủ lực của mình. Bài viết này sẽ cung cấp cho bạn mọi thông tin cần biết về Gemini, từ định nghĩa, cách sử dụng đến so sánh với các công cụ AI tạo sinh khác như ChatGPT, Llama và Copilot.

Gemini là gì?

Gemini là dòng mô hình AI tạo sinh thế hệ tiếp theo được Google ấp ủ từ lâu. Được phát triển bởi các phòng nghiên cứu AI của Google là DeepMind và Google Research, Gemini có bốn phiên bản chính:

Gemini Ultra: Mô hình mạnh mẽ nhất, chuyên về các tác vụ phức tạp.

Gemini Pro: Mô hình cân bằng giữa hiệu suất và tốc độ, phù hợp cho nhiều ứng dụng.

Gemini Flash: Phiên bản “tinh gọn” và nhanh hơn của Pro, có hai biến thể là Gemini Flash-8B nhỏ gọn hơn.

Gemini Nano: Hai mô hình nhỏ gọn (Nano-1 và Nano-2), được thiết kế để chạy trên thiết bị di động ngay cả khi không có kết nối mạng.

Điểm đặc biệt của Gemini là khả năng xử lý đa phương thức (multimodal), có nghĩa là nó có thể làm việc và phân tích không chỉ văn bản mà còn cả âm thanh, hình ảnh và video. Các mô hình Gemini được đào tạo và tinh chỉnh trên nhiều dữ liệu công khai, độc quyền, dữ liệu được cấp phép, bộ cơ sở mã và văn bản bằng nhiều ngôn ngữ khác nhau. Điều này tạo nên sự khác biệt so với các mô hình như LaMDA của Google, vốn chỉ được đào tạo trên dữ liệu văn bản.

Tuy nhiên, vấn đề đạo đức và pháp lý liên quan đến việc đào tạo các mô hình trên dữ liệu công khai mà không có sự đồng ý của chủ sở hữu vẫn còn là một tranh cãi. Google cung cấp chính sách bồi thường AI cho một số khách hàng Google Cloud, nhưng chính sách này có những điều khoản loại trừ, do đó bạn nên thận trọng khi sử dụng Gemini cho mục đích thương mại.

Sự Khác Biệt Giữa Ứng Dụng và Mô Hình Gemini

Cần phân biệt rõ giữa các mô hình Gemini và ứng dụng Gemini. Ứng dụng Gemini (trước đây là Bard) hoạt động như một giao diện chatbot, kết nối với các mô hình Gemini khác nhau. Chúng là “bộ mặt” của AI tạo sinh Google, tương tự như ChatGPT và Claude.

Ứng dụng Gemini có mặt trên web và thiết bị di động. Trên Android, ứng dụng Gemini thay thế Google Assistant. Trên iOS, ứng dụng Google và Google Search đóng vai trò là ứng dụng Gemini.

Ứng dụng Gemini có thể chấp nhận đầu vào là hình ảnh, lệnh thoại, văn bản, tệp PDF, và sắp tới là video (tải lên hoặc từ Google Drive), đồng thời tạo ra hình ảnh. Các cuộc trò chuyện trên ứng dụng Gemini di động sẽ được đồng bộ với phiên bản web và ngược lại nếu bạn đăng nhập cùng một tài khoản Google.

Trên Android, bạn có thể kích hoạt Gemini bằng cách nhấn giữ nút nguồn hoặc nói “Hey Google” để đặt câu hỏi liên quan đến nội dung hiển thị trên màn hình.

Gemini Advanced

Ngoài các ứng dụng Gemini, Google cũng đang dần tích hợp các tính năng của Gemini vào các ứng dụng và dịch vụ quen thuộc như Gmail và Google Docs. Để sử dụng hầu hết các tính năng này, bạn cần đăng ký gói Google One AI Premium, với chi phí 20 đô la.

Gói AI Premium cung cấp quyền truy cập Gemini trong các ứng dụng Google Workspace như Docs, Maps, Slides, Sheets, Drive, và Meet. Nó cũng kích hoạt Gemini Advanced, sử dụng các mô hình Gemini tinh vi hơn trong các ứng dụng Gemini.

Người dùng Gemini Advanced được hưởng một số lợi ích như:

Ưu tiên truy cập các tính năng mới.

Khả năng chạy và chỉnh sửa code Python trực tiếp trong Gemini.

“Cửa sổ ngữ cảnh” lớn hơn, giúp Gemini ghi nhớ và suy luận trên khoảng 750.000 từ (1.500 trang tài liệu), so với 24.000 từ (48 trang) của ứng dụng Gemini tiêu chuẩn.

Tính năng Deep Research, sử dụng khả năng suy luận nâng cao để tạo các báo cáo nghiên cứu chi tiết.

Tính năng Memory, cho phép chatbot sử dụng các cuộc trò chuyện cũ làm ngữ cảnh cho các cuộc trò chuyện hiện tại.

Tính năng lập kế hoạch du lịch trong Google Search, tạo lịch trình tùy chỉnh dựa trên sở thích, thông tin chuyến bay và địa điểm du lịch.

Gemini cũng có mặt trong các gói dành cho doanh nghiệp: Gemini Business (bổ sung cho Google Workspace) và Gemini Enterprise (cung cấp các tính năng cao cấp hơn).

Gemini Trong Các Dịch Vụ Google Khác

Gemini đang được tích hợp sâu rộng vào nhiều dịch vụ của Google:

Gmail: Gemini có thể viết email và tóm tắt các chuỗi tin nhắn.

Docs: Gemini giúp bạn viết và tinh chỉnh nội dung, cũng như đưa ra ý tưởng mới.

Slides: Gemini tạo slide và hình ảnh tùy chỉnh.

Sheets: Gemini theo dõi và sắp xếp dữ liệu, tạo bảng và công thức.

Maps: Gemini tóm tắt đánh giá quán cà phê, gợi ý lịch trình tham quan thành phố.

Drive: Gemini tóm tắt tệp tin và thư mục, cung cấp thông tin nhanh về dự án.

Meet: Gemini dịch chú thích theo thời gian thực.

Chrome: Gemini cung cấp công cụ viết AI để tạo hoặc viết lại văn bản, dựa trên nội dung trang web.

Các công cụ khác: Gemini cũng được tích hợp vào các sản phẩm cơ sở dữ liệu, công cụ bảo mật đám mây, nền tảng phát triển ứng dụng (Firebase, Project IDX), Google Photos, YouTube và NotebookLM.

Công cụ Code Assist (trước đây là Duet AI for Developers) và các sản phẩm bảo mật của Google cũng đang sử dụng Gemini để cải thiện hiệu suất.

Tiện Ích Mở Rộng và Gems của Gemini

Tại Google I/O 2024, Google giới thiệu Gems, các chatbot tùy chỉnh được hỗ trợ bởi mô hình Gemini. Bạn có thể tạo Gems bằng mô tả ngôn ngữ tự nhiên và chia sẻ với người khác hoặc giữ riêng tư. Gems có thể tích hợp với các dịch vụ Google khác như Calendar, Tasks, Keep và YouTube Music.

Ứng dụng Gemini trên web và di động có thể kết nối với các dịch vụ Google thông qua “tiện ích mở rộng Gemini”. Gemini có thể truy cập Google Drive, Gmail và YouTube để trả lời các câu hỏi như “Tóm tắt ba email gần nhất của tôi”. Trong tương lai, Gemini sẽ có thể thực hiện các thao tác với Google Calendar, Keep, Tasks, YouTube Music và các ứng dụng tiện ích khác.

Trò Chuyện Giọng Nói Chuyên Sâu với Gemini Live

Gemini Live cho phép người dùng có các cuộc trò chuyện bằng giọng nói “chuyên sâu” với Gemini. Tính năng này có sẵn trên ứng dụng di động và Pixel Buds Pro 2, có thể truy cập ngay cả khi điện thoại bị khóa.

Với Gemini Live, bạn có thể ngắt lời Gemini để hỏi câu hỏi làm rõ và chatbot sẽ thích ứng với kiểu nói của bạn. Gemini sẽ sớm có khả năng hiểu thị giác, cho phép nó nhìn và phản hồi với môi trường xung quanh thông qua ảnh hoặc video từ camera điện thoại. Gemini Live còn có thể đóng vai trò là huấn luyện viên ảo, giúp bạn luyện tập cho các sự kiện, đưa ra ý tưởng và tư vấn kỹ năng.

Tạo Ảnh với Imagen 3

Người dùng Gemini có thể tạo ảnh và tác phẩm nghệ thuật bằng mô hình Imagen 3 tích hợp của Google. Imagen 3 có khả năng hiểu các câu lệnh bằng văn bản chính xác hơn, tạo ra hình ảnh sáng tạo và chi tiết hơn so với phiên bản trước, đồng thời giảm thiểu lỗi hình ảnh và tạo văn bản tốt hơn.

Trước đó, Google đã phải tạm dừng tính năng tạo ảnh người của Gemini do các phản hồi về sự không chính xác trong lịch sử. Tuy nhiên, Google đã giới thiệu lại tính năng này cho một số người dùng trả phí bằng tiếng Anh.

Gemini Dành Cho Thanh Thiếu Niên

Google cũng giới thiệu trải nghiệm Gemini dành cho thanh thiếu niên, cho phép học sinh đăng ký thông qua tài khoản Google Workspace for Education của trường. Phiên bản này có thêm các chính sách và biện pháp bảo vệ, bao gồm hướng dẫn sử dụng AI có trách nhiệm.

Gemini Trong Thiết Bị Nhà Thông Minh

Ngày càng có nhiều thiết bị Google sử dụng Gemini để cải thiện chức năng, từ Google TV Streamer đến Pixel 9, 9 Pro và Nest Learning Thermostat mới nhất.

Trên Google TV Streamer, Gemini gợi ý nội dung dựa trên sở thích của bạn. Trên các thiết bị Nest, Gemini sẽ cải thiện khả năng đàm thoại và phân tích của Google Assistant, cũng như cung cấp mô tả AI cho video từ camera Nest và tự động hóa thiết bị thông minh.

Khả Năng của Các Mô Hình Gemini

Với khả năng xử lý đa phương thức, các mô hình Gemini có thể thực hiện nhiều tác vụ, từ phiên âm giọng nói đến chú thích hình ảnh và video theo thời gian thực. Tuy nhiên, Google vẫn còn phải cải thiện độ chính xác và giải quyết các vấn đề như thiên kiến và ảo giác.

Dưới đây là tổng quan về khả năng của các phiên bản Gemini khác nhau:

Gemini Ultra: Hỗ trợ giải bài tập vật lý, xác định lỗi sai trong bài giải, tìm kiếm tài liệu khoa học, trích xuất thông tin từ nhiều nguồn và tạo biểu đồ. Mô hình này hỗ trợ tạo ảnh gốc mà không cần bước trung gian, tuy nhiên tính năng này chưa được đưa vào sản phẩm. Gemini Ultra được cung cấp qua API của Vertex AI và AI Studio.

Gemini Pro: Cải thiện khả năng suy luận, lập kế hoạch và hiểu biết so với LaMDA. Gemini 1.5 Pro còn vượt trội hơn Ultra trong một số lĩnh vực, có thể xử lý tới 1,4 triệu từ, 2 giờ video hoặc 22 giờ âm thanh. Mô hình này có khả năng thực thi code và được tùy chỉnh cho các trường hợp sử dụng cụ thể.

Gemini Flash: Phiên bản nhanh và nhẹ hơn của Pro, phù hợp cho các tác vụ như tóm tắt, chatbot, chú thích ảnh và video, trích xuất dữ liệu. Gemini 2.0 Flash là mô hình AI chủ lực của Google, có khả năng tạo ảnh và âm thanh gốc, sử dụng công cụ tìm kiếm và tương tác với API.

Gemini Nano: Phiên bản nhỏ gọn, chạy trực tiếp trên điện thoại, được sử dụng để tóm tắt trong Recorder, gợi ý trả lời trong Gboard và tạo tin nhắn phong phú trong Google Messages.

Chi Phí Sử Dụng Các Mô Hình Gemini

Các mô hình Gemini 1.0 Pro, 1.5 Pro và Flash có sẵn qua API của Google, với các tùy chọn miễn phí và trả phí. Các tùy chọn miễn phí có giới hạn sử dụng và không bao gồm một số tính năng.

Giá cơ bản của các mô hình (tháng 9/2024) như sau:

Gemini 1.0 Pro: 0.5 đô la cho 1 triệu token đầu vào, 1.5 đô la cho 1 triệu token đầu ra.

Gemini 1.5 Pro: 1.25 đô la/2.5 đô la cho 1 triệu token đầu vào, 5 đô la/10 đô la cho 1 triệu token đầu ra (tùy thuộc vào độ dài prompt).

Gemini 1.5 Flash: 0.075 đô la/0.15 đô la cho 1 triệu token đầu vào, 0.3 đô la/0.6 đô la cho 1 triệu token đầu ra (tùy thuộc vào độ dài prompt).

Gemini 1.5 Flash-8B: 0.0375 đô la/0.075 đô la cho 1 triệu token đầu vào, 0.15 đô la/0.3 đô la cho 1 triệu token đầu ra (tùy thuộc vào độ dài prompt).

Giá của Ultra và 2.0 Flash vẫn chưa được công bố, Nano vẫn đang trong giai đoạn truy cập sớm.

Project Astra

Project Astra là nỗ lực của Google DeepMind nhằm tạo ra các ứng dụng và “agent” AI có khả năng hiểu đa phương thức theo thời gian thực. Google đã phát hành phiên bản ứng dụng cho một số người thử nghiệm, nhưng chưa có kế hoạch phát hành rộng rãi.

Google có ý định tích hợp Project Astra vào kính thông minh, nhưng vẫn chưa có sản phẩm cụ thể.

Gemini Có Thể Sẽ Xuất Hiện Trên iPhone?

Có khả năng. Apple đang đàm phán để sử dụng Gemini và các mô hình bên thứ ba khác cho bộ tính năng Apple Intelligence của mình. Tuy nhiên, chưa có thông tin chi tiết nào được tiết lộ.

Google Gemini là một bước tiến lớn của Google trong lĩnh vực AI tạo sinh. Với khả năng xử lý đa phương thức và tích hợp sâu rộng vào các dịch vụ của Google, Gemini hứa hẹn sẽ mang lại nhiều ứng dụng và trải nghiệm mới cho người dùng. Tuy nhiên, vẫn còn nhiều thách thức phía trước, đặc biệt là về tính chính xác, đạo đức và bảo mật. Việc theo dõi các cập nhật mới nhất về Gemini là rất quan trọng để tận dụng tối đa tiềm năng của công nghệ này.

Contents

Gemini là gì?Sự Khác Biệt Giữa Ứng Dụng và Mô Hình Gemini Gemini Advanced Gemini Trong Các Dịch Vụ Google Khác Tiện Ích Mở Rộng và Gems của Gemini Trò Chuyện Giọng Nói Chuyên Sâu với Gemini Live Tạo Ảnh với Imagen 3 Gemini Dành Cho Thanh Thiếu Niên Gemini Trong Thiết Bị Nhà Thông Minh Khả Năng của Các Mô Hình Gemini Chi Phí Sử Dụng Các Mô Hình Gemini Project Astra Gemini Có Thể Sẽ Xuất Hiện Trên iPhone?

Chatbot, Kiến thức AI