数字人是指通过建模等多种数字智能技术创建的数字智能体。它拥有人类外观形象、声音语言,能够模拟肢体动作,具备思维能力,并能在大模型支撑下实现学习、生成、互动等功能。
在技术和需求双轮驱动下,我国数字人产业生态日益完善,应用规模不断扩大,且产业链上下游的生产、运营、服务能力逐渐提升。
中国互联网协会发布的《中国数字人发展报告(2024)》(以下简称《报告》)分析,数字人应用场景目前初步形成媒介数字人、服务数字人、行业数字人三大类别。其中,媒介数字人是较为成熟的数字人应用形式。围绕媒介数字人产生的场景数量占比可达50%,其逼真的形象和流畅的语言表达,极大提升了信息传播的互动性与趣味性;服务数字人也实现了全面升级,具备更强的交互能力,场景数量占比达30%,广泛应用于政务、电商、金融等领域;行业数字人则开始萌芽,场景数量占比达20%,逐步在医疗、教育和企业管理中发挥作用。
数字人大致经历了从真人驱动到程序驱动,再到如今AI驱动的三个阶段。
“几年前,数字人可能会有唇形、表情不匹配,动作僵硬等问题。这是因为数字人本身对文本语义理解不到位,且表情和动作大多依赖有限的预设资源,无法与文本内容进行精准匹配。”科大讯飞数字人业务负责人郜静文说,随着大模型技术在数字人领域的深入应用,数字人产品性能已迈上新台阶。
科大讯飞发布的超拟人数字人,基于多模扩散生成大模型,能根据语音的节奏、语调和内容实时生成肢体动作,突破了动作预设模板限制,极大提升了数字人在动态场景中的表现力;腾讯发布的智影数字人能够实现“形象克隆”和“声音克隆”,用户只需上传少量图片、视频和音频素材,就能快速生成自己的数字人分身并定制音色;阿里巴巴的开源AI数字人EchoMimic,则能赋予静态图像生动的语音和表情。
“可能未来我们每个人都会有一个‘数字分身’,它可以协助我们处理工作,解答生活中的疑惑,成为我们的陪伴。”郜静文说。
来源:科技日报