新京报贝壳财经讯(记者韦英姿)4月26日,在2024中关村论坛年会平行论坛“数据安全治理与发展论坛”上,北京智源人工智能研究院(简称智源研究院)副院长兼总工程师林咏华表示,从语言模型演进到多模态文生视频模型,对模型训练数据所需要的数据量提出了十倍、几十倍甚至上百倍的发展需求。


她认为,大模型的训练数据,不仅要求数量更多、质量更高,也要求思考如何推动数据尤其是中文高质量数据、行业数据的共建共享。


北京智源人工智能研究院副院长兼总工程师林咏华。图/主办方供图


在活动中,林咏华发布了超过500G的中文文本数据集——“中文互联网语料库CCI (Chinese Corpora Internet)2.0”。她表示,该语料库既包括智源研究院大模型“悟道”的数据集,也包括全国20多家互联网和其他企业的数据贡献。


最后,她还宣布上线面向数据贡献团队的积分共享数据平台,该平台包含的数据集超过58个,数据总量约213TB,支撑大多数人工智能训练场景。


国内大模型发展面临着高质量中文语料资源短缺的问题。第十四届全国人大会议通过的政府工作报告提出,要深化大数据、人工智能等研发应用,大力推动数据开发开放和流通使用。


编辑 岳彩周

校对 吴兴发