科技公司通过收集大量数据训练人工智能程序日益引发全球关注。近日，美国科技公司Meta的一份内部会议纪录流出。该纪录显示自2023年起，公司高层曾讨论收购美国出版巨头西蒙与舒斯特，希望获取更多书籍来训练旗下的人工智能产品。

电影《人工智能》（2001）剧照。

近日，《纽约时报》曝光了来自美国知名科技公司Meta（原名Facebook）的一份内部会议纪录。据这份纪录显示，2023年3月至4月期间，Meta高层管理人员、律师及内部程序架构人员几乎每天都会组织会议，讨论如何获取更多数据来训练人工智能模型。其中一则录音资料称，与会者曾讨论过收购美国出版商西蒙与舒斯特公司（Simon & Schuster），尽管最终未能成行。

西蒙与舒斯特公司是英文世界的主要出版商之一，与企鹅兰登、哈珀柯林斯、阿歇特和麦克米伦并列出版“五巨头”。旗下的长期作者包括斯蒂芬·金、科琳·胡佛、鲍勃·伍德沃德等知名作家。

2020年3月，西蒙与舒斯特母公司派拉蒙宣布有意出售该出版商。2022年10月，另一家出版巨头企鹅兰登曾出价21.75亿美元，但该交易最终被美国联邦法院否决，担心导致出版行业垄断。直到2023年8月，派拉蒙同意以16.2亿美元将其出售给私募股权公司KKR。

出乎人们意料的是，出版界轰动一时的收购案背后，曾有科技公司也对此虎视眈眈。据这份录音称，Mata的生成人工智能副总裁艾哈迈德·达赫勒（Ahmad Al-Dahle）曾在会议期间透露，公司几乎使用了互联网上可用的所有英文书籍、诗歌和文章来训练人工智能，且还在寻找新的训练材料。有参会员工当时表态，他们愿意冒着被起诉的风险，在未经许可下使用更多文本。有律师就知识产权提出担忧，但遭到噤声。部分参会者提出，考虑通过“为新书支付每本书10美元，以获得完整的许可权”。

美国出版商协会主席玛丽亚·帕兰特（Maria A Pallante）认为，西蒙与舒斯特不可能同意这样的收购。“Meta试图收购美国历史上最重要的出版社之一，以获取其令人艳羡的人工智能利润目录，这一事实即使对于大型科技公司来说也存在争议”，她说。“Meta是否在计划通过纯粹的权力，践踏西蒙与舒斯特公司的主要使命以及其与长期作者的合同伙伴关系？”

纪录显示，参会者还讨论了在非洲聘请第三方来汇总小说和非小说的文本摘要，其中包含受版权保护的内容，“因为我们不得不这么做”，Meta的一位高层当时在会议中说。书籍出版物也并非人工智能训练资料的全部来源。据文化媒体Lithub报道，部分科技公司正在转向通过“合成数据”来训练人工智能。这一行为引发网民更多的担忧。Lithub一篇评论文章就直接指出，这种剥削只会导致更多的剥削。积极推动这项技术落地的老板们，相比其他任何东西而言，显然对股东价值更感兴趣，而人们也将因为这些合成数据而失去他们的工作。

目前，相关法律法规仍处于模糊地带。2023年11月，美国加州联邦法官驳回了一起与此相关的版权诉讼，喜剧演员莎拉·席佛曼（Sarah Silverman）等人曾指控Meta未经许可使用其作品训练人工智能。

参考链接：

1.How Tech Giants Cut Corners to Harvest Data for A.I.

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

2.Meta‘discussed buying publisher Simon & Schuster to train AI’

https://www.theguardian.com/books/2024/apr/09/meta-discussed-buying-publisher-simon-schuster-to-train-ai

3.Meta considered buying Simon & Schuster to build its AI.

https://lithub.com/meta-considered-buying-simon-schuster-to-build-its-ai/

编译/申璐

编辑/王菡

校对/王心

1049 +1