DiffSensei: Công nghệ mới biến văn bản thành truyện tranh Manga tùy chỉnh

DiffSensei là một bước đột phá trong lĩnh vực tạo truyện tranh, kết hợp mô hình khuếch tán (Diffusion Models) với mô hình ngôn ngữ đa phương tiện lớn (Multi-modal LLMs). Công nghệ này không chỉ giúp tạo hình nhân vật và biểu cảm theo mô tả, mà còn tự động bố trí các hộp thoại và cảnh nền để kể một câu chuyện liền mạch và hấp dẫn.

Điểm nổi bật:

Tùy chỉnh ngoại hình, trạng thái, và hành động của nhân vật theo nội dung văn bản.

Bố cục linh hoạt, từ biểu cảm nhân vật đến vị trí hộp thoại.

Bộ dữ liệu MangaZero khổng lồ, chứa 48 series truyện tranh với 43,264 trang truyện và 427,147 khung hình được chú thích đầy đủ:Ghi chú chi tiết về khung truyện, nhân vật, hộp thoại và vị trí bố cục.
Được xây dựng từ các tác phẩm nổi tiếng từ năm 1974 đến nay, bao gồm cả các tựa truyện huyền thoại như Doraemon.

Thí nghiệm so sánh:

DiffSensei được thử nghiệm và đánh giá trên hai tập dữ liệu MangaZero và Manga109, đạt kết quả vượt trội so với các phương pháp hiện tại:

Đánh giá tự động: Các chỉ số như FID, CLIP, và DINO đều chứng minh DiffSensei tạo ra các trang truyện chất lượng cao với nhân vật được tùy chỉnh chính xác và tuân theo nội dung văn bản.

Nghiên cứu người dùng: Người dùng đánh giá cao DiffSensei trong các tiêu chí quan trọng như:
* Tính nhất quán nhân vật.
* Sự phù hợp giữa văn bản và hình ảnh.
* Chất lượng tổng thể của câu chuyện.