校园招聘信息
请以中国出版集团的校招通知为准
全站>新闻中心> 详情

要闻 | 中译语通发布大模型高质量数据集,亮相2023服贸会·通用人工智能算力论坛

本部要闻 来源:中译语通日期:2023-08-29浏览次数:1420



2023年8月28日,作为2023中国国际服务贸易交易会先导论坛,通用人工智能算力论坛在北京举办。论坛上,北京市人工智能大模型高质量数据集(第二批)发布,其中包含中译语通科技股份有限公司(简称“中译语通”)的“多语种双语平行语料数据集”“生成式对话大模型精调语料”以及“跨语言行业知识图谱三元数据组库”三组高质量数据集。

1-发布仪式.png

2-发布图-语通logo.png


中译语通发布大模型高质量数据集



会上发布了北京市人工智能大模型高质量数据集(第二批),由16家单位涵盖医学、生物、农业、金融、政务、互联网、智慧城市、自动驾驶、科技服务、商业分析、产业研究、市场营销等不同领域的41个数据集组成,数据总量规模约112TB,为通用大模型和行业大模型训练及应用落地提供了坚实有力的“资源”保障。中译语通的“多语种双语平行语料数据集” “生成式对话大模型精调语料”以及“跨语言行业知识图谱三元数据组库”三组高质量数据集入选。中译语通围绕构建高质量数据,为人工智能学术研究和企业级研发提供训练数据和测试数据支撑,大幅提升模型的能力和效益,进一步赋能企业在科技服务、国防安全、金融、医疗等多个垂直领域的产品,为其在数据智能化发展浪潮中创造更多的商业机会。

依托以上高质量数据集,中译语通自主研发的“格物-多语言生成式对话大模型”已在多语言知识图谱端到端生成、社交媒体行为生成、领域报告写作等应用场景实现了落地应用,同时针对全球防务安全、科研数据分析、智慧城市和全球战略数据研究等领域进行全方位技术革新。同期,公司研发的“格物-多语言机器翻译超大模型”,达到千亿级参数的超大规模,从根本上提升了低资源多语种机器翻译的基础性能。该模型入围2021年工信部新一代人工智能产业创新重点任务揭榜,技术成果入选中国人工智能产业发展联盟《2022大规模预训练模型优秀应用案例》。在前不久召开的2023中国算力大会上,中译语通还发布了“西部AI语料库与大模型”,其成果将落地位于宁夏中卫的中国联通智算中心训推一体枢纽节点,立足于宁夏作为“一带一路”和中阿合作重要窗口的政策优势,支持西部政务、商贸、文旅等行业应用。

历时 10 年,中译语通构建了数据领域的全链条业务能力,形成了多维度的数据标签资源和面向政务、科技、工业等多个业务领域的大规模数据集。以大模型为核心,公司研发了覆盖机器翻译、语音识别、自然语言处理、自然语言生成和知识图谱等关键领域的人工智能平台,以最前沿科技支撑最全方位的智能化技术服务,为客户提供模型集成、模型训练、模型发布和模型评测等大模型服务,深度赋能安全和行业企业应用,服务智能决策。


3-会场图.png


2023服贸会·通用人工智能算力论坛

本次论坛由北京市石景山区人民政府,北京市经济和信息化局,北京市科学技术委员会、中关村科技园区管理委员会联合主办。北京市政府副秘书长许心超,中央网信办中国网络空间研究院院长夏学平,国家工业信息安全发展研究中心副主任李丽,北京市经济信息中心党委书记、主任李红,石景山区委书记常卫,区委副书记、区长李新出席论坛。中国工程院院士沈昌祥,中国科学院、中国工程院院士李德仁,中国工程院院士张宏科分别围绕《开创安全可信算力新生态》《论数据、算法与算力》《算力网络的研究与探索》等主题作演讲。


扫描二维码分享到微信

联系我们