施其明:以出版业为切口,求解中文AI语料困局
AI产业的竞争焦点正从算力、参数的上半场,转向数据、语料的下半场。高质量语料,正在成为定义下一代智能高度、构筑国际AI竞争壁垒的核心要素。
3月28日至29日,在郑州举办的2026中国网络媒体论坛“善用善治:AI内容规范发展”主题论坛案例分享环节上,AI数据与语料领域资深专家施其明发表主题演讲,系统阐述了构建高质量中文AI语料供给体系的核心路径。
作为国家新闻出版署出版融合发展重点实验室总工程师,施其明曾作为技术骨干参与多项国家科技支撑计划及国家重点研发计划项目,在人工智能与出版融合领域积淀深厚。同时,他在人工智能底层技术研发领域功底扎实,带领团队荣获国家专精特新“小巨人”、福布斯中国人工智能科技企业50强、世界独角兽企业、国家可信数据空间创新发展试点等多项资质荣誉。十余年跨领域技术深耕,让他对数据价值挖掘、AI产业发展底层逻辑有着精准且独到的理解。
01 产业变局:从“拼算力”到“拼语料”
在施其明看来,当前全球AI产业已迎来关键转型期。中国大模型技术虽跻身全球第一梯队,但传统“堆算力、拼参数”的发展模式已遭遇明显瓶颈——顶级模型训练成本攀升至数亿美元,互联网公开数据近乎耗尽,这一模式的边际收益持续递减。
这一趋势背后,是数据需求的爆发式增长。国家数据局最新数据显示,截至2026年3月,我国日均token调用量已超过140万亿,相比2025年底增长超40%。全球最大AI模型聚合平台数据也显示,中国AI大模型周调用量达到4.69万亿token,连续第二周超越美国。数万亿token级别调用量的背后,是金融、电商、游戏、短视频等行业的深度应用,也意味着高质量语料的供给已成为AI产业发展的关键命脉。
如今,合成数据与高质量数据清洗治理成为全球顶尖团队的核心攻关方向。垂直领域的高质量语料,正成为决定模型能力上限、能否在各行业实际场景落地应用的关键变量。
基于对全球AI技术竞争格局的深度分析,施其明判断:未来国际AI竞争的核心,不在于单一模型的参数高低,而在于谁掌握了高质量、高价值密度的语料供给体系。这一体系,将直接决定一个国家在AI产业中的核心竞争力。
02 现实困局:中文语料的“有数据难流通”
与此同时,中文AI语料的发展现状却面临多重现实瓶颈。
施其明坦言,当前中文高价值语料家底薄弱,开源数据集普遍存在高重复率、低信噪比问题;深层语义标注、知识图谱构建等前沿语料加工技术与国际领先水平存在差距;语料市场缺乏健康的流转机制,版权、安全、商业模式的缺位,造成“有数据难流通、有需求难满足”的行业困局。构建自主可控的中文AI语料体系,已成为国产AI高质量发展的当务之急。
03 破解之道:以出版业为切口
立足多年技术研究与产业实践,施其明率先找到破解中文语料困境的关键突破口——以出版业为切口,打造标准化、可复制的高质量语料生产模式。
他指出,高质量语料的核心特质在于高可信度、完整逻辑链与高价值密度。出版语料恰好具备这些特质:一本书从选题到出版历经数十道专业程序,从源头上规避语料“污染”;区别于碎片化网络文本,图书的系统化知识体系是训练大模型长文本理解、复杂推理能力的核心原料;出版业横跨360行、覆盖全知识层次,是垂类大模型急需的纵深数据富矿。
更值得关注的是,出版业8万余名专业编辑队伍,是尚未被充分激活的“高质量语料加工国家队”。其内容鉴别力、规范执行力、领域理解力与语料加工需求高度契合,日常编校工作本质上就是最高标准的语料加工。这意味着,出版业的数据加工具有独特的“零成本”优势——编辑工作本身就在进行语料加工,无需额外投入即可产出高质量数据。
这一价值已被全球AI市场验证。据科技媒体《The Information》报道,OpenAI每年向出版商支付的许可费用预计在100万至500万美元区间。考虑到Google、Meta等AI巨头都在积极寻求数据许可协议,整个AI行业为出版业数据支付的总金额预计在2026年将达到数十亿甚至百亿美元级别。
04 技术验证:从理念走向现实
在理论探索之外,施其明带领团队完成了一系列关键技术实践突破,让这一语料生产模式从理念走向现实。
2025年,依托国家新闻出版署重点实验室平台,他主导打造了出版融合数据流通完整生态。同时,联合化学工业出版社、长江少年儿童出版社、崇文书局等多家出版机构,成功跑通编辑语料加工全路径——从语料测评、筛选、加工到结算的全流程标准化落地,充分验证了该模式的技术可行性与可复制性,让“由最懂内容的出版人,做最专业的语料加工”成为现实。
施其明表示,若全国580多家出版社的编辑队伍充分参与,将产出海量高质量中文语料,彻底改变中文语料供给格局。
05 未来图景:构建“1+N”语料生态
作为AI语料领域的技术先行者,施其明的研究与实践始终着眼于国产AI产业的整体发展。他提出“1+N”高质量语料共建生态的长远规划——以出版业验证的语料加工技术体系为核心基座,将成熟模式向高校、科研院所、各行业知识生产阵地复制,构建跨领域、人机协同的语料精加工技术体系,打通从知识创新到AI产业应用的价值闭环,最终打造自主可控、安全合规、全域覆盖、标准统一的国家级中文语料库。
施其明强调,高质量语料体系是国家AI新基建的核心组成部分。十余年的技术深耕让他坚信,中文世界积淀的海量优质知识资源,通过标准化、智能化的技术转化成为高质量语料后,将成为国家智能竞争力的核心资产。
未来,他将继续推动以出版为切口的语料生产模式向多领域复制落地,让中文AI语料供给从“单点突破”走向“系统重构”,为我国AI强国建设筑牢底层技术基座,让高质量语料成为国产AI技术迭代、产业升级的核心燃料。







