新京报贝壳财经讯（记者韦英姿）4月26日，在2024中关村论坛年会平行论坛“数据安全治理与发展论坛”上，北京智源人工智能研究院（简称智源研究院）副院长兼总工程师林咏华表示，从语言模型演进到多模态文生视频模型，对模型训练数据所需要的数据量提出了十倍、几十倍甚至上百倍的发展需求。

她认为，大模型的训练数据，不仅要求数量更多、质量更高，也要求思考如何推动数据尤其是中文高质量数据、行业数据的共建共享。

北京智源人工智能研究院副院长兼总工程师林咏华。图/主办方供图

在活动中，林咏华发布了超过500G的中文文本数据集——“中文互联网语料库CCI （Chinese Corpora Internet）2.0”。她表示，该语料库既包括智源研究院大模型“悟道”的数据集，也包括全国20多家互联网和其他企业的数据贡献。

最后，她还宣布上线面向数据贡献团队的积分共享数据平台，该平台包含的数据集超过58个，数据总量约213TB，支撑大多数人工智能训练场景。

国内大模型发展面临着高质量中文语料资源短缺的问题。第十四届全国人大会议通过的政府工作报告提出，要深化大数据、人工智能等研发应用，大力推动数据开发开放和流通使用。

编辑岳彩周

校对吴兴发

我要评论

直播