Stable Diffusion hiện là một trong những mô hình khuếch tán hình ảnh tạo văn bản mã nguồn mở mạnh mẽ nhất, nhưng nó có nhược điểm lớn đối với các doanh nghiệp vừa và nhỏ cũng như các nhà phát triển cá nhân không có A100 hoặc H100, đòi hỏi chi phí đào tạo cao.
Để giải quyết điểm yếu này, mô hình nguồn mở Wuerstchen áp dụng kiến trúc kỹ thuật mới để đạt được mức nén tối đa 42 lần trong khi vẫn đảm bảo chất lượng hình ảnh. ** Lấy hình ảnh đào tạo có kích thước 512x512 làm ví dụ, Stable Diffusion1.4 yêu cầu 150.000 giờ đào tạo GPU, trong khi Wuerstchen chỉ cần 9.000 giờ và chi phí đào tạo giảm 16 lần**.
Ngay cả khi độ phân giải hình ảnh cao tới 1536, Wuerstchen chỉ cần 24.602 giờ và chi phí đào tạo vẫn rẻ hơn 6 lần so với Stable Diffusion.
Do đó, sản phẩm nguồn mở này có lợi cho các nhà phát triển không có khả năng tính toán lớn để thử mô hình phổ biến, đồng thời họ có thể khám phá các phương pháp đào tạo tốt hơn trên cơ sở này.
Địa chỉ nguồn mở:
Github:
giấy:
Giới thiệu ngắn gọn về Wuerstchen
Mô hình khuếch tán Wuerstchen áp dụng một phương pháp hoạt động trong không gian tiềm ẩn được nén ở mức độ cao của hình ảnh. Đây là một trong những lý do khiến chi phí đào tạo của nó thấp hơn Stable Diffusion.
Nén dữ liệu có thể giảm chi phí đào tạo và suy luận theo mức độ lớn. Ví dụ: đào tạo trên hình ảnh 1024×1024 chắc chắn đắt hơn nhiều so với đào tạo trên hình ảnh 32×32. Thông thường phạm vi nén được sử dụng trong công nghiệp là khoảng 4-8 lần.
Và Wuerstchen đã đẩy khả năng nén lên mức cao nhất thông qua kiến trúc kỹ thuật hoàn toàn mới, đạt được khả năng nén không gian gấp 42 lần, đây là một bước đột phá công nghệ chưa từng có! Bởi vì một khi độ nén vượt quá 16 lần, các phương pháp thông thường hoàn toàn không thể tái tạo được hình ảnh.
Nguyên tắc nén cực độ Wuerstchen
Phương pháp nén cực độ của Wuerstchen được chia thành ba giai đoạn: A, B và C: Giai đoạn A) thực hiện huấn luyện ban đầu và sử dụng mạng đối nghịch tạo ra lượng tử hóa vectơ (VQGAN) để tạo không gian tiềm ẩn rời rạc và ánh xạ dữ liệu tới một cài đặt trước Sự biểu diễn nhỏ gọn này của các điểm trong một tập hợp nhỏ hơn, được xác định giúp mô hình hóa tốc độ học tập và suy luận;
Giai đoạn B) nén thêm, sử dụng bộ mã hóa để chiếu hình ảnh vào một không gian nhỏ gọn hơn và bộ giải mã để cố gắng tái tạo lại biểu diễn tiềm ẩn của VQGAN từ hình ảnh được mã hóa.
Và một công cụ dự đoán nhãn dựa trên mô hình Paella được sử dụng để hoàn thành nhiệm vụ này. Mô hình này dựa trên cách thể hiện hình ảnh được mã hóa và có thể được huấn luyện bằng cách sử dụng số bước lấy mẫu nhỏ hơn, điều này giúp ích rất nhiều trong việc cải thiện hiệu quả năng lượng tính toán.
Giai đoạn C) sử dụng bộ mã hóa hình ảnh của A và B để chiếu hình ảnh vào không gian tiềm ẩn nhỏ gọn, huấn luyện mô hình khuếch tán tiềm ẩn điều chỉnh văn bản và giảm đáng kể kích thước không gian. Không gian tiềm ẩn riêng biệt này cho phép mô hình tạo ra các hình ảnh đa dạng và sáng tạo hơn trong khi vẫn giữ được các đặc điểm chất lượng cao của hình ảnh.
Kích thước hình ảnh mà Wuerstchen có thể tạo
Wuerstchen chấp nhận dữ liệu đào tạo hình ảnh với độ phân giải từ 1024x1024 đến 1536x1536 và chất lượng hình ảnh đầu ra rất ổn định. Ngay cả những hình ảnh không tương đương như 1024x2048 vẫn có thể đạt được kết quả tốt.
Các nhà phát triển cũng nhận thấy Wuerstchen có khả năng thích ứng rất mạnh với việc đào tạo hình ảnh có độ phân giải mới, việc tinh chỉnh dữ liệu dưới hình ảnh có độ phân giải 2048x2048 cũng có thể giảm đáng kể chi phí.
Wuerstchen tạo hiển thị hình ảnh
Theo trường hợp do Wuerstchen trình bày, khả năng hiểu văn bản của mô hình rất tốt và hiệu ứng chất lượng mà nó tạo ra có thể so sánh với các mô hình phổ biến nguồn mở mạnh nhất như Stable Diffusion.
Ảnh thật đại bàng khoác áo trắng
Hai người lính bão trong Star Wars đang ngồi trong quán bar uống bia
Những bức ảnh rất chân thực về những con ong ăn mặc như phi hành gia
Một con chuột mặc đồ đen lịch sự
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Chi phí đào tạo giảm 16 lần và mức nén cuối cùng là 42 lần! Mô hình hình ảnh tạo văn bản nguồn mở
Nguồn gốc: Cộng đồng mở AIGC
Stable Diffusion hiện là một trong những mô hình khuếch tán hình ảnh tạo văn bản mã nguồn mở mạnh mẽ nhất, nhưng nó có nhược điểm lớn đối với các doanh nghiệp vừa và nhỏ cũng như các nhà phát triển cá nhân không có A100 hoặc H100, đòi hỏi chi phí đào tạo cao.
Để giải quyết điểm yếu này, mô hình nguồn mở Wuerstchen áp dụng kiến trúc kỹ thuật mới để đạt được mức nén tối đa 42 lần trong khi vẫn đảm bảo chất lượng hình ảnh. ** Lấy hình ảnh đào tạo có kích thước 512x512 làm ví dụ, Stable Diffusion1.4 yêu cầu 150.000 giờ đào tạo GPU, trong khi Wuerstchen chỉ cần 9.000 giờ và chi phí đào tạo giảm 16 lần**.
Ngay cả khi độ phân giải hình ảnh cao tới 1536, Wuerstchen chỉ cần 24.602 giờ và chi phí đào tạo vẫn rẻ hơn 6 lần so với Stable Diffusion.
Do đó, sản phẩm nguồn mở này có lợi cho các nhà phát triển không có khả năng tính toán lớn để thử mô hình phổ biến, đồng thời họ có thể khám phá các phương pháp đào tạo tốt hơn trên cơ sở này.
Github:
giấy:
Giới thiệu ngắn gọn về Wuerstchen
Mô hình khuếch tán Wuerstchen áp dụng một phương pháp hoạt động trong không gian tiềm ẩn được nén ở mức độ cao của hình ảnh. Đây là một trong những lý do khiến chi phí đào tạo của nó thấp hơn Stable Diffusion.
Nén dữ liệu có thể giảm chi phí đào tạo và suy luận theo mức độ lớn. Ví dụ: đào tạo trên hình ảnh 1024×1024 chắc chắn đắt hơn nhiều so với đào tạo trên hình ảnh 32×32. Thông thường phạm vi nén được sử dụng trong công nghiệp là khoảng 4-8 lần.
Và Wuerstchen đã đẩy khả năng nén lên mức cao nhất thông qua kiến trúc kỹ thuật hoàn toàn mới, đạt được khả năng nén không gian gấp 42 lần, đây là một bước đột phá công nghệ chưa từng có! Bởi vì một khi độ nén vượt quá 16 lần, các phương pháp thông thường hoàn toàn không thể tái tạo được hình ảnh.
Nguyên tắc nén cực độ Wuerstchen
Phương pháp nén cực độ của Wuerstchen được chia thành ba giai đoạn: A, B và C: Giai đoạn A) thực hiện huấn luyện ban đầu và sử dụng mạng đối nghịch tạo ra lượng tử hóa vectơ (VQGAN) để tạo không gian tiềm ẩn rời rạc và ánh xạ dữ liệu tới một cài đặt trước Sự biểu diễn nhỏ gọn này của các điểm trong một tập hợp nhỏ hơn, được xác định giúp mô hình hóa tốc độ học tập và suy luận;
Giai đoạn B) nén thêm, sử dụng bộ mã hóa để chiếu hình ảnh vào một không gian nhỏ gọn hơn và bộ giải mã để cố gắng tái tạo lại biểu diễn tiềm ẩn của VQGAN từ hình ảnh được mã hóa.
Và một công cụ dự đoán nhãn dựa trên mô hình Paella được sử dụng để hoàn thành nhiệm vụ này. Mô hình này dựa trên cách thể hiện hình ảnh được mã hóa và có thể được huấn luyện bằng cách sử dụng số bước lấy mẫu nhỏ hơn, điều này giúp ích rất nhiều trong việc cải thiện hiệu quả năng lượng tính toán.
Wuerstchen chấp nhận dữ liệu đào tạo hình ảnh với độ phân giải từ 1024x1024 đến 1536x1536 và chất lượng hình ảnh đầu ra rất ổn định. Ngay cả những hình ảnh không tương đương như 1024x2048 vẫn có thể đạt được kết quả tốt.
Wuerstchen tạo hiển thị hình ảnh
Theo trường hợp do Wuerstchen trình bày, khả năng hiểu văn bản của mô hình rất tốt và hiệu ứng chất lượng mà nó tạo ra có thể so sánh với các mô hình phổ biến nguồn mở mạnh nhất như Stable Diffusion.
Ảnh thật đại bàng khoác áo trắng