校园招聘信息
请以中国出版集团的校招通知为准
全站>新闻中心> 详情

中译语通NLP核心技术布局后发先至

本部要闻 来源:中译语通日期:2018-08-09浏览次数:3409

在中国科技公司发展进程中,BAT (百度、腾讯和阿里巴巴)具有风向标式的指引作用。从移动互联网向人工智能时代转型已经成为科技行业的共识。在人工智能时代,自然语言处理(NLP)将是AI领域中重要的底层技术。为此BAT,分别成立了百度云自然语言处理平台、腾讯文智中文语义平台、阿里云自然语言处理。

作为深耕大数据和人工智能领域的新生科技企业,中译语通专门成立2020认知智能研究院,从事机器学习、深层神经网络、自然语言处理、语义计算、语音识别、计算机视觉、大数据分布式计算等技术研究和价值转化。其中,多语言自然语言处理(NLP)是中译语通持续深耕的方向之一。

接下来我们以BAT在NLP算法方面的发展为参照,来解读中译语通在自然语言处理方面的独特之处。


布局NLP:BAT和中译语通技术速览

从算法服务种类方面来看,中译语通2020认知智能研究院及算法云平台可对外提供53种算法服务;百度云自然语言处理平台可提供10种算法服务;腾讯文智中文语义平台可提供6种算法服务;阿里云自然语言处理可提供7种算法服务。

从语种支持方面来看,中译语通支持中文、英文、法语、德语、日语等10种语言,百度及腾讯仅支持中文,阿里支持中文、英文及泰文。

从时间方面来看,中译语通平台于2016年12月正式上线,略晚于腾讯,而早于百度和阿里。

具体为:

1.jpg


我们都一样:中译语通和BAT同类算法介绍与对比

经过对比发现,中译语通和BAT的同类算法为:分词及词性标注、关键词提取、文本分类、命名实体识别、词向量、情感分析及文本相似度。

本次,以“关键词提取、文本分类”这2种算法为例具体进行介绍与对比。在开始前,我们从新华网随机选取一篇题为“天津:良好营商环境助力中小企业扬帆远航 http://www.xinhuanet.com/politics/2018-06/06/c_1122945252.htm”的文章作为实例。

01关键词提取


【关键词提取】关键词提取算法用于文本主旨的提取,帮助用户快速获取核心内容。

实例1

为进一步支持企业家创业,天津市鼓励建设创业孵化基地,根据吸纳大学生创办企业的数量,给予30万元至500万元的资金支持。近日,天津市对已出台的《关于营造企业家创业发展良好环境的规定》进行了修改完善,惠企政策措施由原来的13条扩大到40条。新的实施方案增加了“引导企业实现高质量发展”6条措施,“优化行政审批,规范行政执法”6条措施,“优化涉企服务”15条措施,致力于打造有利于企业发展的“政策洼地”,真正做到帮助企业“迈坎”。

中译语通关键词提取

2.jpg

百度文章标签

3.png

腾讯关键字分析

4.png

……

小结:从实例中,我们可以观察到,中译语通算法平台提取出“政策、创业”等关键词,百度平台仅提取出“创业”相关词汇,腾讯平台未能提取出有效关键词。

02文本分类


【文本分类】文本分类算法能将非结构化信息按照给定分类体系,是海量数据应用和管理的基础,应用场景十分广泛。

实例2

2015年,华鸿科技改制、新三板挂牌共计获得政府补助220万元。在参与“专精特新”“重点新产品”等项目过程中,公司也获得了累计近100万元的补助。“免二减三的税收优惠,也很大程度上会帮助初创期的公司减轻负担。”王永生口中的“免二减三”指符合条件的在津企业可以享受前两年免征所得税,后三年减半的政策。

中译语通文本分类

5.png

百度文章分类

6.png

腾讯分类分析

7.png

小结:研究院与百度算法体系略有差异,该实例属于政经类新闻,百度分类结果为“财经”,中译语通分类结果为“政治”,分类结果有所区别且均可视为正确,腾讯未能得出分类分析结果。

我们不一样:不同的背景,不同的选择

在自然语言处理方面,即便对中国的BAT科技巨头来说,仍然存在很多未知且需要不断探索。不同的公司文化,不同的技术体系,不同的业务结构,不同的产业背景等,决定了在人工智能布局上差异。如百度拥有依存句法分析、中文DNN语言模型、词义相似度、短文本相似度、评论观点抽取等算法; 腾讯拥有句法分析、纠错/同义词等算法;阿里拥有商品评价解析算法。

中译语通凭借自身的优势和拥有的行业背景,在自然语言处理方面拥有可提供的算法较多、支持的语种较丰富、介入的时间较早等优势。此外,除上文提到的七种算法,中译语通还进行了文本摘要、语种识别、敏感性判定、文本质量评估、事件要素提取、关系抽取等算法的自主研发。

通过综合对比,我们发现在自然语言处理方面,中译语通的平台确实拥有在行业立足的底气。具体如下:

算法试用及体验

· 中译语通2020认知智能研究院官网及算法云平台:全部13种算法均支持在线演示。

· 百度云自然语言处理平台:全部10种算法中,5种支持在线演示;2种仅支持特定实例演示;3种不支持在线演示,需按用户指引中方法注册、下载并在计算机本地搭建完整开发环境后可试用算法,无图形可视化效果。

· 腾讯文智中文语义平台:全部6种算法均支持在线演示。

· 阿里云自然语言处理:全部算法均未提供在线试用。

·

多语言支持

2020认知智能研究官院网及算法云平台:各算法支持语言方向如下:

8.png

百度云自然语言处理平台及腾讯文智中文语义平台:仅支持中文。

阿里云自然语言处理:多语言分词算法支持中文、英文及泰文,其余算法仅支持中文。

9.jpg

通过对比我们不难发现,作为科技公司BAT和中译语通殊途同归,都是在新的技术革命机遇面前积极布局,在NLP技术领域为行业发展提供各自有价值的核心智慧。

近期,图灵奖获得者、卡内基梅隆大学计算机学院教授Raj Reddy在演讲中表示,下一代人工智能系统就是数据驱动的人工智能系统。以“语言连接世界,数据驱动未来”的中译语通,面对人工智能发展带来的新机遇、新挑战,将凭借自身的大数据积累及人工智能技术优势,提供一份中译语通独有的全球化信息处理解决方案。


扫描二维码分享到微信

联系我们