Video và hình ảnh
1. Sora của OpenAI: Rò rỉ bản beta
Một phiên bản “turbo” của mô hình tạo video Sora đã bị rò rỉ trên Hugging Face. Tuy nhiên, OpenAI đã nhanh chóng khóa quyền truy cập của các beta tester sau chưa đầy 3 giờ. Mình có thấy nơi đăng tổng hợp prompt của các artist đã tham gia test Sora ở trên Huggingface, ai quan tâm lấy về làm mẫu hoặc huấn luyện chatbot chuyên tạo video thì tham khảo nhé
2. Runway mở rộng khả năng chỉnh sửa video
Ứng dụng giờ đây cho phép người dùng điều chỉnh video sang các tỷ lệ khung hình khác nhau (9:16 hay 16:9) bằng cách tạo nội dung bổ sung xung quanh đoạn video gốc rất mượt.
3. Các công cụ tạo hình ảnh và video mới
– Luma Labs AI đã cập nhật DreamMachine với nhiều tính năng mới như duy trì tính nhất quán nhân vật, Tham chiếu và remix mọi thứ với nhau, hỗ trợ tạo prompt tăng cường giúp bạn dễ dàng viết prompt hơn rất nhiều, và tính năng Modify giúp bạn tạo ảnh hoặc video dễ dàng hơn.
– KLing ra mắt tính năng Virtual Try-On giúp thay quần áo cho mẫu dễ như ăn kẹo. Ngoài ra, KLing cũng đã có API cho tín đồ ComfyUI, giúp tạo ảnh, tạo video theo workfollow dễ dàng.
– GenmoAI giới thiệu fine tune LoRA mới cho model Mochi, open source
Âm thanh
4. ElevenLabs: Podcast cá nhân
Nền tảng ElevenLabs ra mắt tính năng tạo podcast cá nhân, mở rộng khả năng sáng tạo nội dung âm thanh. Cạnh tranh đẹp với NotebookLm ở tính năng tạo podcast này, vì có thể tạo đc nhiều thứ tiếng khác nhau, trong đó có tiếng Việt nhé.
AI Agent
5. H Company – 1 công ty của Pháp: Ra mắt AI Agent Runner H
Một AI Agent mới với khả năng thực hiện các nhiệm vụ thực tế một cách ấn tượng. Trong một ví dụ được trình bày, Runner H hoàn thành một tác vụ chỉ trong 8 bước, so với 33 bước của các đối thủ. Cụ thể là Runner H out trình Claude Computer Use
6. Maisa AI: Vinci KPU – Hệ điều hành AI mới
Maisa giới thiệu Vinci KPU, một hệ điều hành AI thế hệ mới với các đặc điểm:
– Giải quyết các nhiệm vụ đa hành động
– Thực thi công việc số thông qua các chức năng đám mây
– Khả năng ra quyết định và thực thi quy trình công việc một cách độc lập
– Đảm bảo truy xuất nguồn gốc đầy đủ
– Giảm thiểu các vấn đề ảo hóa
– Thiết kế độc lập với mô hình
Công cụ và nền tảng
7. Hume + Claude Computer Use: Điều khiển máy tính bằng giọng nói
Sử dụng giao diện giọng nói có cảm xúc của Hume kết hợp với API sử dụng máy tính của Anthropic, người dùng giờ đây có thể điều khiển máy tính chỉ bằng giọng nói. Nghe giống phim Her nhỉ
8. Windsurf AI và Cursor: Công cụ mới
– Windsurf AI bổ sung khả năng tải lên hình ảnh, giúp bạn tạo giao diện website chỉ từ phác thảo bằng tay
– Cursor ra mắt tính năng tạo công cụ tự động Cursor composer agent:
* Tự động kiểm tra và tạo các công cụ cho các nhiệm vụ cụ thể
* Khả năng sửa lỗi và tối ưu hóa các công cụ một cách độc lập
9. ComfyUI Desktop
Phiên bản beta của công cụ chỉnh sửa AI ComfyUI đã chính thức ra mắt.
10. Claude: Tính năng mới
– MCP: Cho phép tương tác với các hệ thống bên ngoài như Brave Search, đọc file từ máy tính của bạn,…
– Styles: Cho phép tùy chỉnh cách trả lời của AI theo văn phong của bạn
Mô hình học máy
11. Qwen ra mắt mô hình có khả năng suy luận QwQ
Một mô hình mở chỉ 32B với mục tiêu nâng cao khả năng suy luận AI, thậm chí vượt trội hơn so với các mô hình hiện tại trong các bài kiểm tra benchmarks như o1 mini và Sonnet 3.5.
Những tin đáng chú ý khác
12. OpenAI mở rộng hỗ trợ ứng dụng
Tính năng “Work with Apps” giờ đây cho phép ChatGPT tương tác với các ứng dụng như Visual Studio, Cursor và Windsurf,…
13. Các công ty công nghệ lớn tiếp tục đầu tư
– Microsoft giới thiệu LazyGraphRAG, một phương pháp hiệu quả về chi phí và chất lượng
– Google DeepMind nhấn mạnh xu hướng sử dụng AI trong nghiên cứu khoa học
Góc nhìn chuyên gia
14. Yann LeCun: Dự đoán về AI
Nhà khoa học hàng đầu của Meta dự đoán AI đạt trình độ con người trong 5-10 năm tới. Ông ưa sử dụng thuật ngữ “Trí tuệ máy học nâng cao” (AMI) thay vì “Trí tuệ nhân tạo tổng quát” (AGI).