在通用大模型百花齐放的今天,AI技术正加速从“实验室惊艳”走向“产业落地”。近日,金山办公AI应用算法负责人孙亚博在上海携Monkey大模型亮相2026奇点智能技术大会,系统分享办公领域多模态大模型的探索实践。作为WPS AI的“视觉中枢”,Monkey模型让AI不再局限于处理纯文本对话,而是具备了跨越屏幕、识别万物的多模态交互能力。
金山办公为何坚持自研文档解析模型,而非直接调用通用大模型?孙亚博给出清晰答案,通用大模型是 “通才”,但文档解析需要 “专才”。办公场景中的财务报表、合同协议、发票票据、学术论文等,版式逻辑与语义结构高度复杂,通用模型仅能 “读懂文字”,却难以 “看懂版式、理解结构”。金山办公38年深耕所沉淀的核心壁垒,正是对文档底层结构的深度理解 —— 内容、表格、关联数据等关键信息的精准识别,这是通用模型无法替代的核心能力。

金山办公AI应用算法负责人孙亚博技术分享
孙亚博在演讲中直指行业三大困境:通用大模型在标准测试集表现惊艳,却在办公实际场景中频频失效。首先,模糊扫描件文字丢失、极密财报精度不足、折痕合同版式复杂,通用模型面临感知失效;其次,高清文档处理触发算力黑洞,Token数量指数级暴涨;再者,传统OCR采用 “俄罗斯套娃” 式多模型串联,前级1%偏差就可能会导致后级100%失败,误差累积难以控制。

MonkeyOCR v1.5突破多模态文档解析性能上限
面对三大核心痛点,金山办公坚持从办公场景出发、为办公场景而生,两年内完成Monkey 模型四次技术跃迁。值得一提的是,MonkeyOCR v1.5在全球权威文档解析评测榜单OmniDocBench V1.5中拿下93.01分的成绩,获得综合性能全球第一。
针对文档解析这一办公AI核心难题,MonkeyOCR首创SRR三元解析范式,以结构解析、内容识别、逻辑关联三步,彻底告别多模块串联架构。孙亚博强调:我们要给大语言模型装上眼睛,像人一样先看整体版式,再做局部精读。3B轻量参数实现英文性能超越Gemini 2.5 Pro,推理速度0.84页/秒,远超行业主流水平。v1.5版本更搭载视觉一致性强化学习,无需大量人工标注即可自我迭代,复杂表格、公式识别精度全球领先。
技术最终要扎根业务泥土。孙亚博分享,多模态进化不是盲目抛弃传统,而是传统模型与 VLM的深度融合。基于MonkeyOCR打造的图片翻译能力,覆盖52种语言互翻,历经图像超分、文本识别、回填渲染九大步骤,端到端平均耗时仅2秒,在复杂背景、艺术字体、多语种兼容场景表现远超其它产品。
据了解,Monkey模型是由金山办公联合华科发布。华中科技大学教授、博士生导师刘禹良表示,文档解析与理解是多模态AI的核心赛道,华科在计算机视觉、自然语言处理领域有深厚积累,而金山办公在文档格式理解、复杂信息抽取方面有38年的工程积淀。这种“学术前沿+工程落地”的互补,是双方合作的基础。
目前,Monkey模型已全面接入WPS AI、WPS 365全系产品,深度应用于文字表格智能粘贴、稻壳简历智能提取、拍照扫描高精度解析等核心办公场景,以原生AI能力提升用户办公效率,用户反馈在真实办公中提效高达80%,复杂表格、扫描件等非结构化文档的解析准确率从此前的不足60%提升至90%以上。