清华大学与智谱AI发布开源文本到视频模型CogVideoX

265次阅读

共计 569 个字符，预计需要花费 2 分钟才能阅读完成。

清华大学和智谱 AI 的研究团队近期发布了开源文本到视频模型 CogVideoX，这一技术突破可能改变 AI 视频生成领域的格局。CogVideoX 能够根据文本提示生成高质量、连贯的视频，最长可达六秒，其性能在多个指标上超越了现有的一些知名模型。

CogVideoX-5B 模型拥有 50 亿参数，生成 720×480 分辨率的视频，每秒 8 帧。尽管在技术规格上可能不及一些专有系统，但其开源性质为全球开发者提供了前所未有的机会。通过公开代码和模型权重，清华大学团队使得这一技术民主化，让更多开发者能够参与到 AI 视频生成的创新中。

研究人员通过实施 3D 变分自编码器（VAE）和开发“专家 Transformer”等技术创新，显著提升了模型的性能。这些进步不仅改进了视频和文本之间的对齐，还允许对文本提示进行更细致的解释和更准确的视频生成。

然而，随着这种强大技术的广泛可用性，也带来了深度伪造和误导性内容等伦理问题。AI 社区必须共同努力，确保技术的负责任使用。CogVideoX 的发布标志着 AI 视频生成领域的一个重要转折点，将权力平衡从大型参与者转向更分散、开源的开发模式。

随着技术的不断发展，政策制定者和伦理学家需要与 AI 社区紧密合作，建立负责任的发展和使用的指导方针。CogVideoX 的发布不仅开启了创造力和创新的新时代，也可能加剧关于错误信息和数字操纵的挑战。

正文完

发表至： AI应用大全

2024-08-28 08:06

0

转载提示：此文章非本站原创文章，若需转载请联系原作者获得转载授权。

Google Meet推出AI自动笔记功能

韦克斯福德郡商会领导力峰会：AI时代下的商业领导力