本部要闻 来源:中译语通日期:2025-09-04浏览次数:72
2025年1月8日,美国司法部正式发布《防止受关注国家获取美国敏感个人数据和政府相关数据的规定》,以落实美国前总统拜登于2024年2月28日签发的第14117号行政令。该最终规则于2025年4月8日正式生效,限制或禁止美国敏感个人数据和政府数据流向中国、俄罗斯等六个受关注国家及其相关涵盖主体。涉及的敏感数据包括六类:身份验证信息、个人财务信息、个人健康数据、生物识别数据、人类基因组数据与精准地理位置信息。这意味着中美在科技与数据领域的脱钩,正从“技术出口管制”进一步延伸至“个人数据防火墙”的建立。
2024年诺贝尔化学奖公布,一半共同授予德米斯·哈萨比斯和约翰·M·詹珀,“以表彰他们在蛋白质结构预测方面的成就”;另一半则授予大卫·贝克,“以表彰在计算蛋白质设计方面的贡献”。基于庞大的生物信息数据,在大模型与超级算力的支撑下,基因测序分析、基因突变识别、药物特性预测、靶点和药物发现、临床前实验设计、老药新用等多个方向的研究获得了极大提升。
美国卫星公司MAXAR拍摄了0.3m精度的伊朗福尔多核设施图像,该设施曾被美国B-2轰炸机打击。此外,合成孔径雷达还拍摄了伊朗纳塔兹核设施的卫星图像。在伊以冲突中,美西方在高精度的卫星数据支撑下实现战场上的“单向透明”。Airbus公司也通过0.3m精度卫星拍摄了位于智利的太空望远镜高清图像。这些案例体现出,地理空间数据在国防军事、国家安全、应急救援、智慧城市等诸多领域具有广泛而重要的应用潜力。
根据新摩尔定律,互联网数据总量每12个月翻一倍。而AI智能体的超级摩尔定律,在过去的六年中,其完成任务能力每7个月就会提升一倍。预计未来几年,这一增速还将以更惊人的幅度持续提升。中译语通就是一家每日与这些数据、相关机构、这些领域的用户深度合作,并已连续四次被美国国防部列入“中国涉军企业”的大数据和人工智能的企业。
2023年,美国防部发布《国防部数据战略》,明确将数据定位为战略资产,提出“使国防部成为以数据为中心的机构,通过智能计算资源快速、规模化地使用数据,以获取作战优势和提高效率”的发展愿景。2025年7月23日美国白宫发布《赢得竞赛:美国人工智能行动计划》,提出“美国将主导建设全球最大、质量最高的人工智能适用科学数据集,以加快构建美国人工智能的竞争优势”。 毋庸置疑,数据是战略资产,是增强作战准备度的战略资产,是增强科技研发效率的战略资产,是加速新药创新的战略资产。数据也是战略武器。战略数据已经成为大国博弈的新疆域,关乎国家安全。高质量的战略数据资源,也将重构大国间人工智能竞争的格局。在此背景下,我们应高度重视并加快推进中国自主的战略数据储备体系建设。
在这种复杂的国际博弈环境下,我们主张建立认知主权下的全球数据战略与安全新范式——即在尊重各国数据主权的前提下,通过自主、安全、深入地理解与运用跨域数据,构建决策智能新范式,以应对数据跨境流动、主权争议和安全威胁等日益严峻的问题,真正使数据成为国家竞争力、企业价值与个体权益的核心要素。
2015年中译语通就提出了“跨语言大数据”的概念。这也是该词汇首次在互联网上出现。历经十余年发展,我们逐步构建起从数据采集到可视化分析,从数据分析到知识图谱、从机器翻译到语音识别、从计算机视觉到AIGC、从大模型再到智能体的全栈技术与数据能力。我们努力跨越语言障碍,探寻数据的关联,在多模态数据中寻找复杂数据世界的逻辑。认识到,复杂数据问题本质上是治理问题,不是技术问题。
在数据能力方面,这些年来,我们已经形成了千亿级高质量数据集、覆盖全球200多个国家或地区、120种语言,超过200万独立数据源的数据挖掘能力。基于大模型技术,我们还形成了将数据转化为可理解、可推理的语义网络的能力,发布了“格物”大模型。在昨日召开的“国防科技智能体应用研讨会”闭门会议上,我们正式发布了GTCOM AIP平台。该平台是一个驱动大模型进化、赋能智能体协同的动态、可计算、可演化的认知系统和数据融合中台,通过为人工智能赋予“知识”与“规则”,使其认知和行为变得可解释、可控制和可互操作。
掌握数据主权的关键并非数据本身,而在于数据处理和应用的核心“大脑中枢”,即大模型驱动能力。当前,仅依赖数据训练的大模型仍面临幻觉频出、认知层次浅、复杂任务执行成功率低等问题。因此,我们需要一个新的认知层来为AI提供结构化的世界模型。具体可以总结为认知感知与萃取层、本体构建与演化层、智能体赋能与协同层三个层次。认知感知与萃取层负责精准抽取实体、关系、事件、动作等核心本体要素,破除语言与语义壁垒,并解析图像、音频、视频中的多模态信息,将其对齐至统一的语义本体表征空间,从而产出源源不断的、经过初步结构化的“认知流”。接收到“认知流”后,大模型动态驱动构建、维护和演化全局知识网络,即本体,进而形成一个活的、持续成长的结构化世界模型,成为所有推理与交互的“事实来源”。最后,将本体作为“行动纲领”,为每个智能体注入本体知识,定义复杂的任务流程和智能体角色,自动触发并协调多个智能体协同完成一项宏任务。我们努力地在“高质量数据集+本体+大模型+智能体”深度融合的基础上,构建可信任、可解释、可协同的智能体生态。
当我们拥有高质量的数据集和战略数据储备,建立起可信数据空间,有了高性能的智能体之后,我们仍需清醒地认识到:数据的价值在于流动。除了中文数据,还有规模更为庞大的全球数据。例如,在大宗货品交易中计算大豆数据时,我们不仅需要中国的数据,还需要美国、巴西、澳大利亚等多国数据的支撑。当我们进行生命科学和药物研究的时候,中国以外的数据我们还缺少很多很多。宝贵的高质量数据资源是中国的是世界的。我们应在“一带一路”框架下积极推进“全球可信数据空间”建设,践行认知主权新范式,不断提升我国在全球数据治理中的话语权。
在全球数据战略及安全新范式下,我们应在各参与方的数据源之上,共同构建一个关于“深度应用”的认知本体。该本体以跨语言、跨标准的方式,明确定义每一项关键里程碑指标,如同为使用不同语言的人士提供一个通用的“世界语”来讨论专业问题。我们倡导“可信计算”而非简单数据共享。例如,不同区域的模型算法可通过平台以加密查询的方式,“请教”位于其他区域的本体层。系统在本地执行计算,将脱敏后的模型参数或统计结果安全地返回给请求的系统。整个过程确保原始数据不出域,实现“可用不可见”,完全符合数据主权的规定。我们推行“智能治理”而非人工标注。所有数据交互行为均被本体自动记录,形成不可篡改的数据血缘。监管机构可随时审计,确保每一次数据访问都符合预设治理规则。这各机制为建立跨国间的监管互信提供了坚实的技术基础。
我们倡议在“认知主权”与“全球数据信任之网”的理念下,共同建设数据信任生态的发展愿景。在“一带一路”框架下,我们愿以“GTCOM AIP”的能力为基础,与全球的开发者、标准化组织及企业开展合作,共同定义并丰富各个行业的“认知本体”。从国防工业到金融风控,从供应链韧性到智慧城市,从新药研发到地理空间研究,我们通过编织一张张垂直领域的“信任之网”,应对全球性挑战,为全球数字经济发展贡献中国智慧与中国技术。