KHÓA HỌC MIỄN PHÍ VỀ VIẾT MULTIMODAL PROMPT CHO GEMINI

Mình vừa hoàn thành khóa học Large Multimodal Model Prompting with Gemini trên deeplearning. Đây là khóa học cung cấp kĩ năng viết prompt để AI có thể làm việc với cả video, audio, ảnh, text…trên model gemini 1.5 pro.

Nếu bạn đã quen với việc prompt LLM, thì việc tiếp cận viết promtp cho AI đa phương thức (multimodal) cũng không quá khác biệt.
Điều làm gemini thực sự khác biệt, cũng như lý do chính khiến mình tham gia khóa này, nằm ở khả năng suy luận đa phương thức (cross-modal reasoning):
  • Kết hợp đầu vào từ hình ảnh, văn bản và công thức toán học
  • Mô phỏng cách suy luận của con người
  • Cho phép giao tiếp tương tác thời gian thực
Khả năng suy luận này của gemini cũng giống như con người khi giải quyết vấn đề sẽ tự nhiên tích hợp:
  • Hình ảnh chúng ta nhìn thấy
  • Ghi chép chúng ta đã làm
  • Công thức chúng ta nhớ
  • Cuộc trò chuyện chúng ta có
Đây chính xác là cách Gemini tiếp cận vấn đề, mở ra vô số khả năng cho:
  • Chatbot trở nên trực quan hơn
  • Trợ lý ảo thông minh hơn
  • Công cụ giải quyết vấn đề hiệu quả hơn

Mặc dù khóa chưa cập nhật cho model gemini 2.0 mới ra mắt, cũng như chưa có nội dung về viết prompt cho dữ liệu streaming video/audio, tuy nhiên khóa này cũng cấp nền tảng cần thiết để làm quen với multimodal nói chung và gemini nói riêng.

Highly recommend cho mọi người nhé. Link khóa học mình để tại comment, hoặc mọi người có thể vào deeplearning. ai để tìm kiếm

 

Leave a Reply

Your email address will not be published. Required fields are marked *