建立认知主权下的全球数据战略与安全新范式

本部要闻来源：中译语通日期：2025-09-04浏览次数：12098

图片1.png

于洋在2025数博会“数据安全筑防”论坛上的发言

2025年1月8日，美国司法部正式发布《防止受关注国家获取美国敏感个人数据和政府相关数据的规定》，以落实美国前总统拜登于2024年2月28日签发的第14117号行政令。该最终规则于2025年4月8日正式生效，限制或禁止美国敏感个人数据和政府数据流向中国、俄罗斯等六个受关注国家及其相关涵盖主体。涉及的敏感数据包括六类：身份验证信息、个人财务信息、个人健康数据、生物识别数据、人类基因组数据与精准地理位置信息。这意味着中美在科技与数据领域的脱钩，正从“技术出口管制”进一步延伸至“个人数据防火墙”的建立。

2024年诺贝尔化学奖公布，一半共同授予德米斯·哈萨比斯和约翰·M·詹珀，“以表彰他们在蛋白质结构预测方面的成就”；另一半则授予大卫·贝克，“以表彰在计算蛋白质设计方面的贡献”。基于庞大的生物信息数据，在大模型与超级算力的支撑下，基因测序分析、基因突变识别、药物特性预测、靶点和药物发现、临床前实验设计、老药新用等多个方向的研究获得了极大提升。

美国卫星公司MAXAR拍摄了0.3m精度的伊朗福尔多核设施图像，该设施曾被美国B-2轰炸机打击。此外，合成孔径雷达还拍摄了伊朗纳塔兹核设施的卫星图像。在伊以冲突中，美西方在高精度的卫星数据支撑下实现战场上的“单向透明”。Airbus公司也通过0.3m精度卫星拍摄了位于智利的太空望远镜高清图像。这些案例体现出，地理空间数据在国防军事、国家安全、应急救援、智慧城市等诸多领域具有广泛而重要的应用潜力。

根据新摩尔定律，互联网数据总量每12个月翻一倍。而AI智能体的超级摩尔定律，在过去的六年中，其完成任务能力每7个月就会提升一倍。预计未来几年，这一增速还将以更惊人的幅度持续提升。中译语通就是一家每日与这些数据、相关机构、这些领域的用户深度合作，并已连续四次被美国国防部列入“中国涉军企业”的大数据和人工智能的企业。

2023年，美国防部发布《国防部数据战略》，明确将数据定位为战略资产，提出“使国防部成为以数据为中心的机构，通过智能计算资源快速、规模化地使用数据，以获取作战优势和提高效率”的发展愿景。2025年7月23日美国白宫发布《赢得竞赛：美国人工智能行动计划》，提出“美国将主导建设全球最大、质量最高的人工智能适用科学数据集，以加快构建美国人工智能的竞争优势”。毋庸置疑，数据是战略资产，是增强作战准备度的战略资产，是增强科技研发效率的战略资产，是加速新药创新的战略资产。数据也是战略武器。战略数据已经成为大国博弈的新疆域，关乎国家安全。高质量的战略数据资源，也将重构大国间人工智能竞争的格局。在此背景下，我们应高度重视并加快推进中国自主的战略数据储备体系建设。

在这种复杂的国际博弈环境下，我们主张建立认知主权下的全球数据战略与安全新范式——即在尊重各国数据主权的前提下，通过自主、安全、深入地理解与运用跨域数据，构建决策智能新范式，以应对数据跨境流动、主权争议和安全威胁等日益严峻的问题，真正使数据成为国家竞争力、企业价值与个体权益的核心要素。

2015年中译语通就提出了“跨语言大数据”的概念。这也是该词汇首次在互联网上出现。历经十余年发展，我们逐步构建起从数据采集到可视化分析，从数据分析到知识图谱、从机器翻译到语音识别、从计算机视觉到AIGC、从大模型再到智能体的全栈技术与数据能力。我们努力跨越语言障碍，探寻数据的关联，在多模态数据中寻找复杂数据世界的逻辑。认识到，复杂数据问题本质上是治理问题，不是技术问题。

在数据能力方面，这些年来，我们已经形成了千亿级高质量数据集、覆盖全球200多个国家或地区、120种语言，超过200万独立数据源的数据挖掘能力。基于大模型技术，我们还形成了将数据转化为可理解、可推理的语义网络的能力，发布了“格物”大模型。在昨日召开的“国防科技智能体应用研讨会”闭门会议上，我们正式发布了GTCOM AIP平台。该平台是一个驱动大模型进化、赋能智能体协同的动态、可计算、可演化的认知系统和数据融合中台，通过为人工智能赋予“知识”与“规则”，使其认知和行为变得可解释、可控制和可互操作。

掌握数据主权的关键并非数据本身，而在于数据处理和应用的核心“大脑中枢”，即大模型驱动能力。当前，仅依赖数据训练的大模型仍面临幻觉频出、认知层次浅、复杂任务执行成功率低等问题。因此，我们需要一个新的认知层来为AI提供结构化的世界模型。具体可以总结为认知感知与萃取层、本体构建与演化层、智能体赋能与协同层三个层次。认知感知与萃取层负责精准抽取实体、关系、事件、动作等核心本体要素，破除语言与语义壁垒，并解析图像、音频、视频中的多模态信息，将其对齐至统一的语义本体表征空间，从而产出源源不断的、经过初步结构化的“认知流”。接收到“认知流”后，大模型动态驱动构建、维护和演化全局知识网络，即本体，进而形成一个活的、持续成长的结构化世界模型，成为所有推理与交互的“事实来源”。最后，将本体作为“行动纲领”，为每个智能体注入本体知识，定义复杂的任务流程和智能体角色，自动触发并协调多个智能体协同完成一项宏任务。我们努力地在“高质量数据集+本体+大模型+智能体”深度融合的基础上，构建可信任、可解释、可协同的智能体生态。

当我们拥有高质量的数据集和战略数据储备，建立起可信数据空间，有了高性能的智能体之后，我们仍需清醒地认识到：数据的价值在于流动。除了中文数据，还有规模更为庞大的全球数据。例如，在大宗货品交易中计算大豆数据时，我们不仅需要中国的数据，还需要美国、巴西、澳大利亚等多国数据的支撑。当我们进行生命科学和药物研究的时候，中国以外的数据我们还缺少很多很多。宝贵的高质量数据资源是中国的是世界的。我们应在“一带一路”框架下积极推进“全球可信数据空间”建设，践行认知主权新范式，不断提升我国在全球数据治理中的话语权。

在全球数据战略及安全新范式下，我们应在各参与方的数据源之上，共同构建一个关于“深度应用”的认知本体。该本体以跨语言、跨标准的方式，明确定义每一项关键里程碑指标，如同为使用不同语言的人士提供一个通用的“世界语”来讨论专业问题。我们倡导“可信计算”而非简单数据共享。例如，不同区域的模型算法可通过平台以加密查询的方式，“请教”位于其他区域的本体层。系统在本地执行计算，将脱敏后的模型参数或统计结果安全地返回给请求的系统。整个过程确保原始数据不出域，实现“可用不可见”，完全符合数据主权的规定。我们推行“智能治理”而非人工标注。所有数据交互行为均被本体自动记录，形成不可篡改的数据血缘。监管机构可随时审计，确保每一次数据访问都符合预设治理规则。这各机制为建立跨国间的监管互信提供了坚实的技术基础。

我们倡议在“认知主权”与“全球数据信任之网”的理念下，共同建设数据信任生态的发展愿景。在“一带一路”框架下，我们愿以“GTCOM AIP”的能力为基础，与全球的开发者、标准化组织及企业开展合作，共同定义并丰富各个行业的“认知本体”。从国防工业到金融风控，从供应链韧性到智慧城市，从新药研发到地理空间研究，我们通过编织一张张垂直领域的“信任之网”，应对全球性挑战，为全球数字经济发展贡献中国智慧与中国技术。

建立认知主权下的全球数据战略与安全新范式

于洋在2025数博会“数据安全筑防”论坛上的发言

联系我们