“我是怎么诞生的?我能理解我自己吗?”画面中,一个扎马尾辫、背红色双肩包的女生漫步在清华校园里。她叫“华智冰”,是我国首个原创虚拟学生。


“华智冰”成果发布会上公布的“华智冰”面貌。清华大学供图


今年6月,这名特殊的学生入学清华大学计算机系,“师从”清华大学计算机系长聘教授、系副主任唐杰,自此开启它的学习和研究生涯。

 

有容貌、有声音,会作诗、会画画、会跳舞……“华智冰”形象一经公布,引起大量关注。她由清华大学计算机系、北京智源研究院、智谱AI和小冰公司联合培养,也因此得名。据悉,华智冰还将具有一定的推理和情感交互的能力;她还拥有持续学习能力,能够逐渐“长大”,变得越来越聪明。这使她大大不同于一般的虚拟人物。

 

清华大学发布的“华智冰”宣传片中的镜头。清华大学供图


其实,“华智冰”背后是一个“智能数字脑”,她的脸部、声音都是通过人工智能模型生成。“我们教给华智冰,说话的时候不光要有口型和表情,还要有肢体动作;不光如此,我们还希望她能够跳舞。”清华大学计算机系长聘副教授、系党委副书记贾珈在研发团队中负责“华智冰”的外在形象及声音、表情、口型、肢体动作的生成。“希望下一次可以让大家看到‘华智冰’跳舞能够达到清华舞蹈队的水平。”

 

作为一个虚拟人,“华智冰”的言语能力也极为重要。清华大学计算机系长聘副教授黄民烈指出,今后还要解决更复杂的任务,比如让“华智冰”跟同学聊天,帮助处理部分心理辅导的任务。这就需要借鉴心理学理论,设定特定的情绪支持对话框架。

 

“华智冰现在的主要身份是‘学生’,不断‘学习’是她当前最重要的工作。”唐杰说,“我们期待,未来的‘华智冰’能够在多项认知智能上超过人类。或许到那时,她就可以毕业了。”

 

但“华智冰”的“人设”是如何定位的?她会有情感吗?她什么时候毕业、毕业之后将会做什么?带着这些疑问,新京报记者和“华智冰”的导师、清华大学教授唐杰及研发团队其他成员一起聊了聊。

 

制定三年学习计划,首年“遍读天下书”

 

新京报:“华智冰”是首个中国原创虚拟学生,“人设”为什么定位为一个本科生?

 

唐杰: 现在人工智能虽然已经取得很大成就,但距离认知AI还很远,从这个层面,把“华智冰”定位为小学生都可以。我们把她定位为一个非常聪明、但还没那么聪明、成长速度很快的角色。她的优势之一是可以一天24小时不断学习,所以成长速度非常快。

 

新京报: “华智冰”到目前拥有哪些技能?

 

唐杰:“华智冰”可以做自动问答,你给一个问题,她能够自动生成答案。另外,给定一个文字,她可以围绕其作诗,也可以画图。她还可以写短文、做音乐等。

 

“华智冰”创作的诗画作品。清华大学供图


新京报: “华智冰”的能力相当于人类多少岁的水平?

 

唐杰: 从记忆方面讲,她的数据规模已经达到几个T,甚至包罗了网上能找到的所有的网页数据、图片数据,所以“华智冰”记忆能力其实已经超过了人类;如果从推理、逻辑、计算能力上讲,可能她的能力只有几岁。所以如果和人相比,她的能力是参差不齐的。

 

新京报:“华智冰”还具有一定的情感交互的能力。机器人可能有情感吗?怎么体现?

 

贾珈:  情感计算是一个非常重要的研究方向。根据研究,情感是可计算、可量化的。我们希望“华智冰”是一个情商非常高的数字人,希望她能在语言生成过程中做合适的情感表达。我们教给“华智冰”的原始数据是2250万G,在国内规模比较大,覆盖中性情感和六类人类情感基本语料库。

 

新京报: “华智冰”接下来在清华大学计算机系有什么样的“学习”计划?

 

唐杰: 当下我们制定了短期的三年计划:第一年,我们希望她能泛读天下书,说白了就是要读全世界的数据;第二年做“精读”,理解能够更深刻。第三年,希望她可以有创造能力,创造出全新类型的东西。

 

新京报:“华智冰”是否会有一个整体形象?

 

唐杰:  我们有计划做2D和3D建模。至于很多人关注的是否要把她做成实体机器人,这是个有争议的问题。对于实体到底能提供多少智力上的改变或增量,我们还在探讨,要不要去做这件事还没有得出100%的结论。

 

大批团队成员凭兴趣“自带干粮”加入

 

新京报:“华智冰”的诞生用了多久?过程中最难的是什么?

 

唐杰: 清华的团队很早就在做相关积累,我们实验室大概做了25年的知识工程相关研究。“华智冰”项目本身做了大概一年多。

 

过程中难点还挺多的。去年大家看到美国AI实验室Open AI发布了大规模预训练模型GPT-3,当时我们也想做一个大模型,但我们面临的问题是:没数据、没算力、没有人。

 

后来,我们跟很多数据公司合作,通过共享方式获得新数据。为解决人力问题,我们找了很多老师,问“你有没有兴趣来免费做这个事儿”,后来很多老师自愿、自带干粮参与进来,全凭情怀和兴趣,这些老师有校内的、也有校外的。没有算力怎么办?我的学生有好几个团队,在一个CPU的基础上重新开发底层,他们那段时间“轮流熬夜”,慢慢才把程序写出来。“华智冰”也得到了学校、系里各位老师同学的大力支持。

 

新京报: 研发过程是否有清华大学学生参与?

 

唐杰: 有非常多的学生参与,我们整个团队大概有一百多人,其中大概有七八十个学生,当然也有很多年轻老师、博士生参与到这个团队中。这次用到的超大规模的数据、超大规模的算力、超大规模的智力集群,对团队所有人包括我自己都是很好的成长和锻炼。

 

新京报:“华智冰”未来将应用于哪些场景?

 

唐杰:“华智冰”已经开始探索多种相关应用,比如在招生等方面的应用。未来,在养老、人机陪伴方面,应用可能最广泛。还可以把人工智能技术应用到传统行业中,比如物流、金融等。可能未来某一天,你的理财顾问就是一个数字人,用人机交互的方式做推荐,推荐精度比人还要高。

 

新京报记者 冯琪 校对 柳宝庆