文/VR陀螺 WiZ
“现在短视频平台上好像都是虚拟人了。”
不知道从什么时候开始,短剧、直播间中的AI虚拟人比例开始上升了。去年8月,优酷上线独播剧《异人之下》,阿里大文娱数字人“厘里”在剧中扮演“二壮”一角,引发热议。
图源:优酷
以“二壮”为代表的AI演员的火热刮起了“人人都想做虚拟人”的旋风,一时间,各行各业都想着靠虚拟人装点脸面。只不过,个人想要打造虚拟人IP并不容易。
数据显示,虚拟人视频制作成本并不低。以抖音美妆达人“柳夜熙”为例,其制作企业创壹科技CEO梁子康曾透露,柳夜熙仅制作投入就在百万元级别。“超写实虚拟人视频每秒的成本都在万元区间。第一条柳夜熙短视频成本就要几十万元。”价格并不亲民。而市场上大部分的超写实数字人的成本至少也要到30万元左右。
在虚拟人直播、短视频需求高涨的当下,如何降低制作成本?2024年5月10日,VR陀螺受邀参加“魔珐科技Xmov Studio开放日”,这家在3D虚拟人领域深耕多年的公司,不仅形成了一套专业的虚拟人制作工业化流程,同时基于以往的积累,构建了3D虚拟人视频AIGC平台——魔珐有言,让超写实虚拟人短视频制作几乎降到0成本。
图源:魔珐有言
每月可制作200个虚拟人!魔珐科技搭建工业化流程
在“魔珐科技Xmov Studio开放日”上,我们体验了魔珐有言3D虚拟人的制作全流程。
从角色建模、表面渲染、动捕绑定、脚本制作、声音交互、镜头动画再到3D场景,3D内容制作的所有环节都围绕着“3D虚拟人直播”这一场景展开,最终的实际感受可以总结为一点:专业的人在干专业的事。
1、角色扫描、贴图建模
打造一个静态的3D虚拟人形象,是3D虚拟人从无到有的第一步。
这一阶段也被称为模型阶段。魔珐科技使用了2个摄影棚,超过120台高清摄像机完成从真实人体到3D模型的复制。
在人体扫描阶段,通过360°相机矩阵1秒获取人物80张多角度的照片,混合调整后就可以在20分钟内快速生成人像灰模。
而后的贴图扫描阶段,在无光环境30台高清摄像机的实时配合下,人物的皮肤肌理细节被扫描还原,包括雀斑、细纹等皮肤瑕疵都被力求精准重现,为的就是让最后的3D虚拟人形象更贴近真人。
值得注意的是,在最后的成品展示中,3D虚拟人形象不同于传统游戏3D建模,睫毛、发丝等人体毛发组织都清晰可见,而对于头发的还原正是在贴图过程完成(在人体扫描阶段应带头套排除头发干扰,本次体验只为还原脸部建模效果和速度,故灰模中的发丝并非最终效果)。
最后,将贴图扫描得到的皮肤材质贴合到人像灰模,就能得到最终的3D虚拟人形象。在魔珐科技的展示中,超写实虚拟人被用在时尚购物环境中。人物服饰同样能通过扫描获得,服装材质用料甚至是缝制针孔都清晰可见,用户不仅能随时更换虚拟人着装,同时还能更换发型、发色、配饰等,足不出户完成服装搭配。
发丝、皮肤纹理、服装材质都清晰可见
2、动作捕捉、绑定渲染
静态3D虚拟人的下一步是“注入生命”。通过动作捕捉技术将灵动的人物姿态映射到模型上,再通过渲染技术将3D模型转换成2D图像,并最终呈现在屏幕上。
通过场地以及动捕演员身上穿着的摄像传感装置,魔珐科技可以捕捉到人体的任何一个精细动作。而通过实时渲染、表情捕捉技术,在采集到动捕演员身上的点控信息后,便可以用空间定位技术重建演员骨骼、求解表情特征点,并完成3D形象的实时渲染。
在AI的全程介入下,渲染速度得以成倍提高,虚拟人直播可以做到实时驱动,同时还支持真人互动,绿幕下的真人主播可以与虚拟人主播互动,增强直播效果。
而在对虚拟人专业要求偏低的C端场景,也可以选择魔珐有言内置的素材、动作库。作为专业的AIGC生成平台,有言可以由AI根据需求自动匹配、生成专业动作,达到四两拨千斤的效果。
建模、动捕、渲染步骤完成后,一个完整的3D虚拟人就已基本完成构建。
最后再通过专业的场景技术生成舞台、灯光、道具、特效等3D虚拟环境元素,并配合镜头layout,专业、繁琐的3D虚拟人直播、视频制作被流程化。
据魔珐科技介绍,以上提到的PGC内容设备构成了一套完整的高标准建模流程,并最终集成到AIGC全链,公司已实现了从PGC到AIGC的跨越,打造出了3D虚拟人和全栈AIGC成熟产线。
因此,在如今3D虚拟人需求已经从专业的B端用户拓展至C端,个人需求暴增的情况下,高端3D虚拟人已不再是PGC专属,普通人不用经历繁复的模型生产流程就可以直接在有言等AIGC产品中体验PGC质量的3D内容。
视频制作成本几乎为0,魔珐有言用AIGC形式创作PGC内容
目前,有言的产品方向瞄准了市场需求更多的3D虚拟人短视频制作领域,虽然官方也有透露不久后将上线“3D虚拟人AIGC功能”,仅需要上传一张照片就能直接生成自己的可编辑3D虚拟人,但通过我们的实际体验,在补足AIGC虚拟人生成功能之前,有言的视频生成功能就已十分出色。
通过AI 驱动3D虚拟人,有言在生成直播短视频方向上已经形成了一套成熟的体系。
为了能让C端用户也能高效低成本生产虚拟人视频,魔珐科技推出了3D虚拟人视频AIGC平台“有言”,免去真人出镜和实景拍摄的麻烦,一键生成3D视频。
“就像把魔珐科技超百平的摄影棚搬回了家。”
动捕摄影棚
在内容方向上,魔珐有言将自身定位为短视频生成平台,以贴合时下的社交媒体短视频趋势。
过去,3D内容多以长视频形式出现,3D动画、3D电影动辄40分钟起步,背后则是一整个PGC制作团队。
如今,微信视频号、抖音、快手等视频媒体社交平台的出现推动了短视频生态的繁荣,一段几分钟甚至数十秒时间的影像就可以成为一个完整的表述单位,承担起信息传递、商品展示的重担。
而随着像魔珐有言这样主打UGC的3D内容制作平台的出现,3D内容的生产不再总是依赖于专业的特效制作团队,仅需通过生成内容、编辑镜头、视频包装三步操作,即可打造一个高质量的3D视频。
对于用户来说,短视频、魔珐有言其实都有一个共同点:制作成本、上手门槛低。
以往在需要虚拟人出镜的3D动画、3D电影制作时,整个制作流程都需要动画师使用专业动画制作软件,通过手工操作角色模型上的数百个动作节点控制角色行动,完成动画录制。
“在当前市场上,制作一个高质量高标准的超写实虚拟人需要3-5个月的工作量,且只有行业前1%的专业人员可以完成,每个3D虚拟人的成本在30-60万左右。”
这还只是制作虚拟人的成本,如果加上3D动画制作,根据粗略估计,一个中级动画师1天大约只可以制作2-3秒的动画,这极大拉长了动辄一小时起步的3D动画电影的制作节奏。
而即便是效率更高、效果更好的表演动画,对于普通用户来说也并非压缩成本的最佳选择,同时仍旧存在一定上手门槛,不利于C端创作。
因此,在C端创建虚拟人动画、视频的抓手最后还是回到了AIGC。
基于自研的全球首个商业场景文生动作大模型,以及几百小时的高质量的三维动画数据的积累,魔珐有言的AIGC三维动画生成的结果已经非常接近于真人表现。
图源:魔珐有言
高质量的3D特效制作成本中很大一部分占比在于渲染,这是整个过程中对算力需求较高的环节,刚需高性能显卡,而即便使用传统的云渲染产品,整个流程的成本费用也会在万元以上。仅仅只是3D场景的制作,从创意设计到最终效果呈现,市场报价就在数十万元左右,这还不算以月为单位计的制作时间成本。
那么有言呢?通过自研的AI渲染方案,有言将3D渲染的速度提升到了分钟级。“无论是B端用户还是C端用户,一分钟4K级视频现在的渲染等待时间只需要十分钟,对应的成本只需要几块钱。”
而在解决完画面建模的成本难题后,完成一个完整的3D虚拟人视频还需要以文字脚本和声音内容作为视频的骨骼串通全局。作为一站式AIGC视频生成平台,魔珐有言自然也内置了脚本创作和声音生成功能。
打开魔珐有言,只需要在脚本生成框中输入一个idea,就能快速生成全篇文案,若用户对于自身输入的提示内容不满意,还可以通过AI优化功能,让AI帮你写提示词。
一键脚本生成(来源:魔珐有言)
而在电商领域,前面提到,一场完整的虚拟人直播需要虚拟人对直播间信息做出反应,对于由动捕技术驱动的直播来说,只需要动捕演员就能完成,而对于完全由AI驱动的直播来说,AIGC文本、声音生成技术是完成这一必要条件的窍门。
在直播场景下,AI文字生成技术可用在弹幕回复粉丝提问上,当然,使用场景更多的口播交互则需要声音生成技术完成。
利用魔珐科技自研的深度学习TTS算法,用户只需要输入文本,就可以实时生成高自然度、高质量、可编辑的语音,生成的语音几乎与真人无异,在场景化表现、节奏感、音质等方面都表现出色。
在今年7月,魔珐科技还将推出定制IP人物音色的功能,届时用户只需要提供时长在10-20秒的音频,就可以生成高自然度的专属音色。
值得注意的是,魔珐有言生成过程中的AI脚本、3D生成、镜头优化等功能都需要消耗“言币”,实际体验下来,算上修改、预览等操作,体验版本600言币福利刚好能覆盖2-3个短视频的制作流程。而对于视频制作频率更高的用户,也可以购买个人版,以解锁更多AIGC创作权益。
图源:魔珐有言
目前,魔珐有言已经广泛应用于培训、电商、金融、快消、广电等各行各业。在直播领域,魔珐有言不仅能定制虚拟主播形象,也能定制包括大舞台、小舞台、演播室、室内空间、户外空间在内的多种表演场地方案场景设计。
不久后,用户无需自己设计,只要上传品牌素材,就能体验超过500种不同风格的3D场景,实现个性化、差异化的创意场景定制,高质量的商用3D资产制作也将任由C端用户自由使用。
AIGC内容结合VR/AR技术,人人都能抓住的时代红利
在开放日即将结束的时候,魔珐科技用苹果Vision Pro为我们打开了3D虚拟人应用的新场景。
在Vision Pro中,与虚拟人的面对面交互由屏幕过渡到空间,我们与虚拟人的“隔阂”消失了,取而代之的是可以手贴手互动的虚拟朋友以及360°全景3D空间。
在Vision Pro中观看数字人展示场景
“苹果Vision Pro推出后,我们发现有不少B端客户都有在Vision Pro展示虚拟人形象的需求,在虚拟空间中与虚拟人交互的体验是平面屏幕完全无法比拟的,Vision Pro带来的现实感太过强烈。”
魔珐科技CEO柴教授认为,在VR/AR有足够的能力去成为下一代的计算平台的情况下,对于3D内容的需求将会更多。每一个计算品类都需要相应的内容去填充应用生态。
而现在,3D内容正是Vision Pro急需填充的板块。
在Vision Pro上,用户可以通过前置摄像头扫描面部信息,并基于机器学习技术和编码神经网络生成Persona数字分身。当用户使用FaceTime通话时,数字分身还可以模仿用户的面部表情及手部动作。
图源:苹果
这个数字分身功能就相当于VisionPro自带的虚拟人形象,只不是苹果给数字分身的“限制”过多。
在最初版的Persona功能中,数字分身被局限于一个方形的浮动框内,与手机屏幕视频对话无异。
而后,在visionOS 1.1版本中,苹果激活了Spatial Personas功能,数字分身开始向空间角色概念过渡,Spatial Personas去除了原先虚拟人外围的浮动框,进一步提升了空间感。
图源:苹果
但仅从实际效果来看,空间感提升的同时灵异感也在增加,新的数字形象卸下了了浮动框却没有摆脱隐形的束缚,它不仅没有手臂、腿和脚,同时对于人体的“建模”也局限在正面,这使得数字形象更像是漂浮在空间中的幽灵,随随便便转个身都能直接导致边缘虚化。
这也导致数字形象真实感下降,同时形象被固定、无法编辑,这样的虚拟人似乎只能用在会议场景。
苹果为何要选择将空间角色塑造成这种形式?在对Spatial Personas的诸多讨论中,有一个观点得到了广泛认可:对于一个虚拟形象来说,当你赋予它越多的真实性,那么人类大脑对其真实性的要求就越高。
这也说明了超写实虚拟人的制作难度之大。“对于卡通人物,大脑并不会在意它有多少根手指,但面对超写实人类,大脑甚至都会注意皮肤上的光线反射细节。”
图源:魔珐科技
苹果选择用讨巧的方法降低数字人生成的真实感,这放在社交场景可以理解为“让用户时刻清楚自己身在MR空间中”,但放在需要诸如VR购物、VR文旅等需要清楚展示模型的场景是,不真实的人物细节会剥夺头显创造出的沉浸感。
不久前,国内电商门户淘宝宣布将推出适用于Vision Pro的购物原生应用。只要商家所售卖的商品有制作3D建模,用户就可以将其放置在自己所处的现实环境中的任意平面上,不仅可以1:1显示商品尺寸,还可以自由翻转从不同角度观察商品的细节。
图源:网络
虽然淘宝Vision Pro版目前只能展示商品的3D建模,但在Vision Pro应用、功能匮乏的当下,电商平台们的适配应用基本还是延续了手机时代的设计思路,大家都在摸着手机、PC的经验过河,现在大火的AI数字人直播大概率也会被搬上Vision Pro这一新的带货舞台。
还可以加入VR购物前的试衣环节
VR/AR作为新的计算终端,与手机、PC对比其核心差异在于信息呈现方式、交互方式发生了巨大变化,尤其是3D内容在这些终端中的表达达到了极致。
细化到虚拟人领域,未来3D虚拟人或将全面取代2D数字人,成为电商直播的主力,毕竟在Vision Pro空间中,2D数字人的表现相比初版的Persona数字分身差不了多少,谁又愿意在空间中还要盯着一块“屏幕”呢?
此外,3D虚拟人的火热也不只是在电商领域,在所有需要品牌营销的地方,3D虚拟人都是出圈的存在。从游戏角色到企业数字员工、产品代言人,各行各业几乎都有说的上名号的数字形象,可以说,3D虚拟人的繁荣是由市场、3D厂商、用户联手打造的。
火山语音数字员工小灿(图源:火山语音)
在市场层面,据《中国虚拟数字人影响力指数报告》显示,仅2023年一年全国就新增“数字人”“虚拟人”相关企业41.7万余家,开始在政府公共服务、健康医疗、教育培训等许多领域逐步取代一些重复性、机械性或解释性的人力劳动工作。
在厂商层面,以魔珐科技为代表的AIGC厂商推出了一系列3D视频生成方案,通过AI降低生成门槛,为3D内容爆发提供了前置工具。
而有了这些前置工具,创作者得以利用3D生成技术以AIGC形式创作出媲美PGC的内容,繁荣内容生态。更有甚者,当Vision Pro、Quest 3等设备适配应用、创作工具越来越多后,创作者还可以利用VR/AR的交互形式直接进行3D创作。
图源:网络
有了工具+终端的支持,决定创作者们效率的不再是生产工具,而仅仅只是一个灵感。
结语
AIGC时代,3D虚拟人创作平台的出现不只是多了一个创作工具那么简单。
VR行业起伏多年,许多人都将VR的失意归结为“稀缺的3D内容带不动刚需内容场景的虚拟现实”,3D内容制作成本过高,投入与产出不成正比。
正如魔珐科技所说,“做3D是很痛苦的事情,但3D内容是未来,这些事总要有人来做。”
6年来,魔珐科技投入了数亿资金研发,坚定不移的做高质量3D内容,笃定3D虚拟人赛道,一步步跨过3D内容AIGC的门槛,为虚拟世界的建立打造基础建设。
现在,3D内容高成本、高技术的壁垒已被有言打破,创作者手中有了新的革命性工具,不仅降低了传统虚拟人动画、视频中的人力成本与时间投入,还为创作者打开了通往全新叙事方式的大门。
图源:魔珐有言
智能辅助与创意共生的时代已来,在制作平台的积木底座搭建完成后,繁荣3D内容的下一棒就交给创作者们了。