在当前的AIGC浪潮中,扩散模型无疑是图像生成领域的绝对主力。我们熟知的 Stable Diffusion 等模型,大多在一种被称为“潜在空间”的低维数据空间里工作。这个潜在空间通常由一个变分自编码器(Variational Autoencoder, VAE)构建,其核心任务是尽可能无损地压缩和重建图像的像素细节。 与此同时,在计算机视觉的另一重要分支——视觉“理解”领域,像 DINO、CLIP ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com ...
港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。 VideoVAE + 模型大幅超过 ...