KHÓA HỌC MIỄN PHÍ VỀ VIẾT MULTIMODAL PROMPT CHO GEMINI

Mình vừa hoàn thành khóa học Large Multimodal Model Prompting with Gemini trên deeplearning. Đây là khóa học cung cấp kĩ năng viết prompt để AI có thể làm việc với cả video, audio, ảnh, text…trên model gemini 1.5 pro.

Nếu bạn đã quen với việc prompt LLM, thì việc tiếp cận viết promtp cho AI đa phương thức (multimodal) cũng không quá khác biệt.

Điều làm gemini thực sự khác biệt, cũng như lý do chính khiến mình tham gia khóa này, nằm ở khả năng suy luận đa phương thức (cross-modal reasoning):

Kết hợp đầu vào từ hình ảnh, văn bản và công thức toán học

Mô phỏng cách suy luận của con người

Cho phép giao tiếp tương tác thời gian thực

Khả năng suy luận này của gemini cũng giống như con người khi giải quyết vấn đề sẽ tự nhiên tích hợp:

Hình ảnh chúng ta nhìn thấy

Ghi chép chúng ta đã làm

Công thức chúng ta nhớ

Cuộc trò chuyện chúng ta có

Đây chính xác là cách Gemini tiếp cận vấn đề, mở ra vô số khả năng cho:

Chatbot trở nên trực quan hơn

Trợ lý ảo thông minh hơn

Công cụ giải quyết vấn đề hiệu quả hơn

Mặc dù khóa chưa cập nhật cho model gemini 2.0 mới ra mắt, cũng như chưa có nội dung về viết prompt cho dữ liệu streaming video/audio, tuy nhiên khóa này cũng cấp nền tảng cần thiết để làm quen với multimodal nói chung và gemini nói riêng.

Highly recommend cho mọi người nhé. Link khóa học mình để tại comment, hoặc mọi người có thể vào deeplearning. ai để tìm kiếm

Link learn: https://learn.deeplearning.ai/courses/large-multimodal-model-prompting-with-gemini/lesson/1/introduction

admin

Leave a Reply Cancel reply