Gần đây, Alibaba đã gây chú ý trong cộng đồng công nghệ khi ra mắt Tora – một mô hình ngôn ngữ lớn AI chuyên về tạo sinh video. Điểm đặc biệt của Tora là khả năng tích hợp các yếu tố văn bản, hình ảnh và quỹ đạo một cách linh hoạt và hiệu quả.
Công nghệ đằng sau Tora
Tora được phát triển dựa trên nền tảng công nghệ biến áp khuếch tán định hướng quỹ đạo (DiT). Hệ thống này bao gồm ba thành phần chính:
- Bộ trích xuất quỹ đạo (TE): Sử dụng mạng nén video 3D để mã hóa các quỹ đạo thành mảng chuyển động không gian-thời gian có thứ bậc.
- DiT không gian-thời gian: Xử lý và tổng hợp thông tin từ các yếu tố đầu vào.
- Bộ tổng hợp dẫn hướng chuyển động (MGF): Tích hợp các bản vá chuyển động vào mô-đun DiT để tạo ra video mạch lạc theo quỹ đạo định sẵn.
Khả năng và ưu điểm của Tora
Tora nổi bật với nhiều tính năng ấn tượng:
- Hỗ trợ tạo video dài tới 204 khung hình với độ phân giải 720P.
- Kiểm soát chính xác nội dung video với các thời lượng, tỷ lệ khung hình và độ phân giải khác nhau.
- Tái tạo độ chân thực cao của chuyển động, mô phỏng chi tiết các quy luật chuyển động trong thế giới vật lý.
Tiềm năng ứng dụng
Với khả năng tích hợp văn bản, hình ảnh và quỹ đạo một cách linh hoạt, Tora mở ra nhiều cơ hội ứng dụng trong các lĩnh vực:
- Sản xuất hiệu ứng đặc biệt cho phim ảnh
- Phát triển ứng dụng thực tế ảo
- Tạo nội dung video cho marketing và quảng cáo
Tora đánh dấu một bước tiến quan trọng trong lĩnh vực AI tạo sinh video. Với khả năng mô phỏng chuyển động chân thực và kiểm soát nội dung video chính xác, Tora hứa hẹn sẽ mang lại những đổi mới đáng kể cho ngành công nghiệp giải trí và truyền thông trong tương lai gần.
Để hiểu rõ hơn về công nghệ đằng sau Tora, bạn đọc có thể tham khảo thêm tại: https://arxiv.org/pdf/2407.21705