数字化虚拟人物是一种具有数字化外形的虚拟人物,它不仅拥有人的外观和行为,还具有识别外界环境、并能与人交流互动的能力。这种类型的虚拟人物依赖显示设备存在,并且拥有类人的生理构造(模仿人的形象、肢体构造)、人的行为(能说话、能运动)以及人的思想(基本的逻辑能力、并可以出输出内容如书写、与人交谈)。

此外,根据视觉维度的不同,数字化虚拟人物可以分为2D型和3D型;根据技术的不同,虚拟人可分为算法驱动型(例如AI实时或捏脸等)和真人驱动型(例如动作捕捉)。在医学研究领域,虚拟数字人的目标是通过计算机图形学技术(Computer Graphic,CG)创造出与人类形象接近的数字化形象,并赋予其特定的人物身份设定,为人类带来更加真实的情感互动。

虚拟人物的应用

人工智能虚拟人物已经广泛应用于多个领域,具体如下:

  • 在游戏领域,虚拟数字人被用于提升游戏体验,实现人格化。
  • 在偶像文娱行业,虚拟主播和虚拟偶像等身份型虚拟数字人受到欢迎,它们多以虚拟偶像或虚拟IP形式呈现,背后的动作捕捉由真人进行实时驱动。
  • 新闻媒体行业也利用虚拟数字人技术,如新闻主播、记者等。
  • 在营销和电商领域,虚拟客服、销售员等服务型数字人能够打破时间和空间的限制,提供智能化的服务。
  • 社交领域中的虚拟朋友、聊天伴侣等,为用户提供日常陪伴和关怀。
  • 金融领域的虚拟理财顾问、金融分析师等,帮助用户更好地理解和管理财务。
  • 教育文旅领域中,我们可以有AI虚拟导师、虚拟导游、讲解员等,为基于VR/AR的场景式教育提供自适应/个性化的学习环境,以及为博物馆、科技馆、主题乐园等提供更加丰富和生动的参观体验。

技术调研

以SadTalker项目为例,其主要目标是通过一段音频驱动单张人脸图片的方式,生成一个声音与嘴型同步性高、整体画面流畅自然的视频。为了实现这一目标,它运用了深度学习和计算机图形学技术。

首先,SadTalker使用了一种被称为3DMM(三维形变模型)的技术来学习真实的3D运动系数,这些运动系数包括头部姿势和表情。3DMM的运动系数是通过解耦每种姿势的运动来学习的,这样可以降低不确定性。

其次,SadTalker引入了一个名为ExpNet的神经网络,用于从音频中生成逼真的表情系数。在训练过程中,Audio Encoder加载了Wav2Lip模型中的音频编码器预训练权重,然后多加了一层fc层,用于得到音频对应的表情系数。

最后,SadTalker利用这些学习到的运动系数和新的3D面部渲染器进行视频生成。在整个过程中,SadTalker致力于提高音频与嘴型的同步性以及整体画面的自然流畅度。

产品化

智能虚拟人物的产品化需要经历以下几个关键步骤:

首先,需要进行市场调研和需求分析,了解用户需求和市场趋势。然后,基于这些信息,确定虚拟人物的功能、特性以及应用场景。

接下来,是设计和开发阶段。在这个阶段中,涉及到建模、渲染和动作捕捉技术升级突破及自然语言处理、语音交互等人工智能技术的应用。例如,通过动作捕捉、三维建模、语音合成等技术高度还原真实人类,再借助AR/MR/VR等终端呈现出来的立体“人”。

随后,进行测试和优化,确保虚拟人物的稳定性和可靠性。此阶段可能面临硬件、图像技术、数据等方面的挑战。因此,需要不断优化和改进技术方案,提高产品的性能和用户体验。

最后,是发布和推广阶段。这包括制定营销策略、推广渠道以及售后服务等方面。例如,可以通过线上或线下收费的方式向用户提供服务。此外,还可以通过与知名品牌和公司的合作,提升虚拟人物的知名度和影响力。

在市场调研和需求分析阶段,可以通过既有的AI-Avatar产品生成特定内容的虚拟人物视频,投放和测试特定渠道。

基于市场调研和需求分析,在特定领域和渠道分层实现产品特性和产品功能。

产品形态可分为 1)可定制生成式数字人物平台,参考讯飞虚拟人产品,可定制人物形象;场景;导入文本或音频配音文件,并编辑配音停顿、换气、连续等属性;定制动作模式、语种及表情模式;定制视频格式和分辨率。2)直接运营最终生成的数字人物。

从渠道和产品特性上细分,可以实现虚拟个人IP类,营销类,教育类,智能助理等。

从技术实现和产品功能上分层,可以从简单的基于既有产品和服务、以文本或语音驱动的对口型头像短视频生成,到基于开源(商业license)版本(如SadTalker)的私有化部署的虚拟人物头像生成,到自有训练数据、自研网络架构模型的训练和生成、部署,再到成体系化(语音转写、情感识别、情绪识别、语音复刻、数字人物、对接NLP大模型)产品服务的开发运营。

市场调研

虚拟人物技术在目前市场中已经得到了广泛的应用。一方面,该技术被用于创造虚拟偶像,如来自Metaverse的虚拟数字人翎Ling,这是由Xmov魔珐科技与次世文化共同打造的虚拟偶像。此外,还包括一些知名品牌和公司的虚拟代言人,例如,华为的虚拟代言人Mate,以及腾讯的虚拟女演员夏妍妍等。

另一方面,虚拟人物技术也在客服领域发挥了重要作用。2D虚拟人根据真人形象建模,和真人相似度极高,主要应用有金融、医疗、保险,地产传统企业的客服等。通过这项技术,企业能够提供更为高效和人性化的服务。

此外,一些大公司也在积极布局虚拟人技术领域。例如,国内的阿里巴巴达摩院和网易等都在关注AI技术和硬件设备的应用层面,如落地虚拟店铺等。海外市场上,英伟达和Epic Games等也在进行相关的技术研发和应用推广。

其它

随着语音识别技术(ASR)的进步,以及ChatGPT等AI工具越来越多地应用于语言翻译,AI往往可以生成比机翻更准确、地道的翻译文本。

而声音克隆技术是AI歌手所依赖的核心。当下较为出名的声音克隆工具如Eleven Labs、微软的VALL-E等,均可以通过上传少量音频样本,生成与原音色极为接近的声音。

再通过TTS(Text To Speech)和口型同步技术,即可生成几乎完全覆盖原片、让人难辨真假的AI配音。

而且,目前的TTS技术已从通用TTS、个性化TTS向情感TTS发展。

相较前两者,后者依赖“情感意图识别”“情感特征挖掘”“自然语言处理”等AI技术,可以使AI配音更生动、富于情绪变化,以消除冰冷、不自然的机械感。

综上,结合人工智能领域中的自然语言处理、连接大语言模型接口,接收端通过音频转换,输出个性化、情感化TTS语音,通过数字化虚拟人物最终展现,在个人助理、运营与营销、情感陪伴等各种广泛的领域都将有越来越多的应用。

最后修改日期: 2023年12月30日

作者

留言

撰写回覆或留言

发布留言必须填写的电子邮件地址不会公开。