点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

在2025年世界互联网大会乌镇峰会期间,百度“剧本驱动多模协同的高拟真数字人技术”项目获世界互联网大会领先科技奖。该项成果发布人百度首席技术官王海峰在接受光明网记者采访时表示,得益于大模型等技术突破,如今的数字人技术已实现从静态播报到动态交互,将为众多行业、领域注入新的动能。

百度首席技术官王海峰
王海峰表示,当前,大语言模型在理解、生成、逻辑、记忆等方面的能力不断增强,尤其在深度思考、自我规划与反思进化等方面表现不断提高。同时,多模态大模型也取得显著突破,例如本次获奖的“剧本驱动多模协同的高拟真数字人技术”,不仅涉及语言,还包括语音、视频等多个模态的生成。
“过去的数字人技术虽具备形象与声音,但在大幅动作、复杂交互以及语言、声音与动作的协调方面仍存在明显局限。”王海峰介绍,随着大模型技术的快速发展,当前数字人技术已能够流畅完成大幅度动作,并与其他物体和环境进行自然交互。而在表达特定内容时,若想做到语音、表情、口型、肢体动作与语义匹配,“多模协同”至关重要。
谈及应用前景,王海峰表示,该技术的普及将赋能众多行业、领域。在媒体行业,数字人主播能实现24小时持续工作,播报内容自然流畅;在教育领域,数字人教师可以与学生进行自然互动,创造寓教于乐的教学体验;在客服行业,数字人客服能够实时理解用户话语的含义,做出准确应答与高效交互,为用户提供更好的服务。
“比如在一场直播中,真人主播在同一时间只能回答一个人的问题,而数字人则可以同时响应多位用户的提问。”王海峰介绍说。
(拍摄:范子川、曾震宇、田津金 制作/撰文:赵鹏超 统筹:李飞 策划:李政葳)
