就在几天前,李彦宏放话说要和谷歌PK,但这热身赛第一回合,就让创客小表妹大吃一惊。

  昨天上午,有网友称,在百度和谷歌输入相同的关键词,搜出来的结果大相径庭。

  例如,输入“嫩滑”、“鲜嫩”、“女佣”、“三点透视图”等字眼,谷歌搜索出来的都是食物、女佣照片、设计图等“正经”图片,但是百度搜索结果里,充斥着着装暴露的女性、性感泳装照片等“大尺度”图片。

  然而,几小时后,这些搜索结果画风突变。昨天下午,小表妹在百度里搜索上述关键词时,相关图片已经不再显示。有消息称,百度第一时间对搜索结果进行了“优化”。不过,当小表妹搜索“泳装”时,出来的居然是身着泳装的卡通人物,真是让人哭笑不得。

  “如果Google决定回到中国,我们非常有信心再PK一次,再赢一次。”这是百度创始人李彦宏在谷歌被传回归中国、舆论唱衰百度的背景下,公开向谷歌立下的战书。

  抛开战略层面的竞争不谈,小表妹和几位技术从业者聊了聊,尝试分析一下这次“画风突变”事件背后的技术原理。

  隐晦关键词里藏着大秘密

  在小表妹的认知中,“鲜嫩多汁”毫无疑问是一个形容菜品或水果的词,但在百度搜索的语境中,这些词被赋予了更多含义。

  根据用户晒出的截图,在百度和谷歌分别输入“鲜嫩多汁”,谷歌一本正经的给大家展示各式的美食,而百度页面中显示的是一众性感女郎的照片。

  同理,“嫩滑”在谷歌中显示的是蛋挞、布丁等美食,但百度上显示的是着装暴露的美女。

  

  谷歌搜索“三点透视图”,显示的是学术气息浓厚的三维立体设计图形,百度显示的却是身着各式内衣的美女。这画风,小表妹都忍不住要捂眼睛。

  除此之外,“胸膜”、“女佣”、“波涛汹涌”等词汇,当中文的博大精深和用户的想象力结合后,便在百度搜索呈现出千姿百态的景象,请大家自行脑补。

  这一消息出来后,百度反应非常迅速。

  昨天下午,当小表妹在百度搜索上述关键词时,已看不到此前出现的美女“大尺度图片”,取而代之的是满屏的鸡蛋豆腐和大鱼大肉,这些菜的成色甚至比谷歌搜索出来的还要鲜美,而且菜的丰富程度似乎要胜过搜狗搜索和360搜索——当然,这两个搜索引擎也没有出现美女图。

  值得一提的是,当小表妹搜索“嫩滑”、“雪白”、“鲜嫩多汁”等关键词时,百度页面首栏增加了一行“温馨提示”,提示用户可对搜索出的色情内容进行举报投诉。

  除此之外,当小表妹在百度中搜索“泳装”图片时,排在前列的居然是卡通人物身着泳装的形象……

  这着实出乎小表妹意料。要知道,用搜狗和360搜出来的,都是人穿泳衣的照片啊……看来在该关键词下,百度已经过滤掉了大部分它不想让用户看到的内容。

  你看到的就是你想要的?

  经历了贴吧事件和魏则西事件后,百度在商业模式和价值观上遭到广泛质疑,但从技术的角度而言,究竟是什么导致百度出现“大尺度图片”?

  某大型互联网公司的技术负责人介绍,“搜索引擎实际上是最早的大数据+人工智能技术,因为有海量的网页数据,通过内容分析等智能技术,实现了根据关键词指令进行内容推送。”

  在百度等搜索引擎中,关键词是触发内容推送的关键环节,系统会根据设定的关键词,自动向用户推送相关内容。

  “搜索本质上是在解释用户的意图。搜索引擎搜出来什么东西排在前面,很大程度上跟用户本质上要找什么内容是相关的。在中文现有的语境中,大部分用户搜索关键词的意图就是去找擦边球的图片,而不是去找食品图片。”他表示。

  根据他介绍的原理,在搜索引擎的世界里,从用户需求来看,他们看到的,就是他们想要看的内容,在这背后体现的是用户需求的差异。

  所以,这个锅该甩给用户?

  也不是,因为除了机器算法,人工干预在搜索引擎的结果展现中也起到了非常重要的作用。

  “有些词汇是机器无法识别和理解的,还有一些是因为政策原因需要屏蔽的,比如明显涉黄或赌博等词汇,这就需要进行人工干预。”一位从事搜索引擎技术开发的创业者说。

  他指出,百度在政策要求下,引入了大量的人工干预,确保内容不会触及政策底线,再通过长期的内容识别和中文语义分析,形成了一套能理解中国网民语义的搜索能力,所以一些偏门的、含有特殊含义的关键词,就会在百度搜索中触发弹出特殊的推送结果。

  按照上述原理,当用户在百度中搜索“嫩滑”,机器会统计点击量的分布情况。当大部分人点击了含有美女的图片,只有很少数人点击食品图片时,机器就会记住该用户对该关键词的搜索偏好。

  他表示,中国网民特别擅长用各种隐晦、诡异的关键词去找自己想要的内容,因为正常的词汇触发的内容已被搜索引擎自动屏蔽。这就需要人工干预去不断矫正机器的识别水准。

  “百度是可以对大尺度图片进行人工干预的,但这会对流量造成影响,也会影响工程师的KPI。”他说。这也能很好的解释为什么百度搜索会“画风突变”。

  百度比谷歌更懂中国人

  同为搜索引擎的谷歌,为什么没有出现“大尺度”图片的情形?

  上述技术负责人指出,“搜索的准确性,极度依赖巨大的搜索词的积累,谷歌在中文的数据积累要比百度少太多。谷歌在中文搜索领域的识别技术,应该是落后于百度的。”

  一名业内人士认为,“在中文语境下,百度搜索更懂中国人。”

  他透露,国内的搜索引擎公司,都有专门的运营团队,他们会根据每日的Top Query进行数据分析,比如搜索“泳装”,100个人搜索如果出现90个人都点击一类图片时,会有人工干预,比如为图片打标签等,让图片识别引擎获得新的训练以找到更多同类图片。而谷歌由于中文数据量不够,无法对机器进行充分的训练。

  在他看来,这体现了百度对流量的渴求,如果满足流量就是它的价值观,那技术就只是手段而已。“所有的企业都要迎合用户需求,去做设计、开发和运营。”

  对于事件后期进展,上述技术负责人说,“风浪平息后,人工干预的程度会下降,百度搜索还是会回归到原始,因为用户搜的就是这些东西,毕竟真会去点击豆腐图片的人是极少数。”

  记者 / 黎明

  编辑 / 魏佳