脑机接口与混合智能-新闻-NUWA再度升级！赋予视觉艺术无限创造力

NUWA(Neural visUal World reAtion)是微软亚洲研究院开发的多模态模型，通过自然语言指令，NUWA可以实现文本、图像、视频之间的生成、转换和编辑。近日，微软亚洲研究院公布了新的研究成果，在高分辨率、大图像的横向延展方面进行持续研究后，提出了NUWA-Infinity模型，可以生成任意分辨率的图像或长时间视频，弥补了NUWA模型在生成、编辑的图像和视频分辨率较低的缺陷。简单说，NUWA-Infinity会根据图像的不同层次内容扫描每一帧画面，不断渲染生成高像素、连续的大图。

接下来一起领略NUWA-Infinity的无限创造力吧。

比如让梵高的《星空》突破相框的限制。

亦或者让AI创造一副“新”的《清明上河图》。

也可以让静止的图片动起来。

NUWA-Infinity的研发初衷是希望降低高质量的视觉艺术创作的门槛，使创作者可以在一定程度上摆脱对专业设备的依赖、减少创作时间成本，让更多人可以更好地发挥自己的创意，拥有成为日常创作者的机会。与NUWA相比，这个全新升级的模型在分辨率和可变大小视觉艺术作品生成方面具有更优的性能，并支持五个高分辨率视觉任务的生成。

微软亚洲研究院研究员段楠说，“NUWA-Infinity从底层形成了一套全局自回归的生成机制，不仅可以对图片进行延展式的生成，也可以应用于视频预测创作，而这也是我们接下来要攻克的研究课题。”通过全局自回归建模视觉块之间的依赖关系和局部自回归建模视觉词之间的依赖关系，让NUWA-Infinity能够生成全局一致且局部细节丰富的高质量图像和视频。同时提出任意方向控制器（Arbitrary Direction Controller, ADC）来决定合适的生成顺序并学习顺序感知的位置嵌入。此外，模型还引入附近上下文池（Nearby Context Pool, NCP）进行局部生成图像的缓存。

NUWA-Infinity的模型概述

与其他多模态生成模型相比，NUWA-Infinity的优势在于可以从给定文本、图像或视频生成与之相关的任意形状、任意大小的高分辨率图像，以适配不同设备、平台和场景。更重要的是该模型还支持长时间视频的生成，比如图像动画的制作。NUWA-Infinity极大地弥补了市场上现有技术仅支持生成大小有限的视觉内容及创作成本高昂的不足。研发团队将继续推动NUWA的演进，在构思、美学、效率方面持续强化NUWA的能力。AI加持的视觉创作已经在影视、游戏、动漫等行业得到一定的应用，其发展趋势也会更加接近符合人类的审美和需求，NUWA-Infinity传递出一种信号：艺术无门槛，它会张开双手拥抱所有灵感。

链接：https://mp.weixin.qq.com/s/g-1EVy2LGQ8EBgqRPeExEw

演示页面：https://nuwa-infinity.microsoft.com/

参考文献

[1] Wu, Chenfei, Jian Liang, Xiaowei Hu, Zhe Gan, Jianfeng Wang, Lijuan Wang, Zicheng Liu, Yuejian Fang, and Nan Duan. “NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis.” arXiv preprint arXiv:2207.09814 (2022).

原文链接

https://www.scholat.com/teamwork/showPostMessage.html?id=12060