海量科技大数据知识资源
垂直领域神经网络机器翻译技术
多语言多模态数据处理能力
算法训练引擎
知识图谱技术
跨语言智能语义检索技术
面向领域的大语言模型
核心技术
汇聚1.4亿全球专利数据,范围覆盖130多个国家(地区和组织);整合全球1.6万家上市企业数据;融合国内全量工商数据、产业数据、科技资讯数据和投融资信息相关数据。 全量数据源跨界融合。
基于亿级精选语料训练科技信息翻译模型。 机翻技术涵盖神经网络、术语、词典以及规则统计。 最大化提升科技信息机器翻译质量,构建企业级科技领域专业翻译能力。
100亿句对机器翻译语料。 基于神经网络机器翻译技术、多语语音识别和文字识别技术,高效处理文本、图像、语音、视频等多种模态信息。 通用机器翻译模型语种高达80+。覆盖欧美、一带一路沿线、南亚东南亚、东北亚、台海以及中国少数民族。 为军事、金融、科技等多个专业领域提供精准、专业语言能力支撑。
算法训练引擎基于规则、机器学习、深度学习等基础方法和主流的AutoML、终身学习、跨语言迁移等技术搭建。 根据不同应用场景训练包括文本分类、情感分析、观点抽取、热点聚类、自动摘要、实体抽取等不同自然语言处理算法。 支持中、英、俄、日、越、缅、泰等数十个语种,为机器翻译、大数据处理和知识图谱构建提供算法能力。
依托全球海量跨语言科技数据,综合运用知识抽取、实体归一、知识计算与推理等技术,构建科研领域知识图谱。 为知识发现、科技探索、学术画像和智能评估等应用提供核心数据支撑。
从科技信息技术关联性出发,智能计算各个科技信息文本实体间相似度,高精度、高效率获取与该技术文本信息强相关的其他技术文本信息。 通过对海量科技文本信息的智能语义计算,获取技术全景拓扑关系。 为科技信息的智能发现、精准检索提供技术支持。
利用自身积累的海量数据,深度学习平台、跨语言多模态语言处理能力。 开发面向垂直应用领域的大语言模型,为包括科技、能源、知识产权、教育等领域,提供专业、高效、高性能、高可靠的专业领域服务。