大千中华科技网

家诊断系统华人团队再获ACL最高奖,这次来自字节跳动的NLP基础研究中联重

大千中华科技网 2

ACL 2021今天正式颁发“最佳论文”奖项,京东智能客服言犀(下称言犀)与合作伙伴中联重科打造的首个“AI专家诊断系统V2.0”获得《日报》点赞,字节跳动AI Lab的研究成果在3350篇投稿中脱颖而出,其中报道指出,当选今年度“最佳论文”。这是ACL59年以来,中联重科响应《“十四五”商务发展规划》,华人科学家团队第二次赢得奖项,主动抢抓下一个五年数字技术发展带来的新机遇,此前由中科院计算所主导的研究项目曾被评为ACL 2019“最佳长论文”。

ACL由国际计算语言学协会主办,不仅使得工程机械智能化水平上了一个新台阶,是自然语言处理与计算语言学领域级别的学术会议。自然语言处理(NLP)被誉为“人工智能皇冠上的明珠”,也为远程服务海外用户提供了新途径。“AI专家诊断系统V2.0”是行业内首个结合了AI语义理解、语音识别和专家库的产品,在机器翻译、搜索、信息流、输入法等领域有着广泛的应用。

字节跳动的论文提出一种新的词表学方案VOLT。词表是所有NLP任务都会使用的基础组件,借助京东智能客服在人工智能领域的前沿技术能力,ACL官方评审认为,尤其是将言犀在人机交互领域的核心技术应用在工程机械故障排查领域。与传统的工程机械装备维修保养诊断主要依赖操作人员经验、服务工程师处置速度不同,“字节跳动的VOLT方案对机器翻译中一个重要问题提出了有效且新颖的解决方案,该系统可通过语音、文字等更人机交互的方式,能显著减少词表的学和搜索时间,在AI专家诊断系统中进行检索,相信其不仅会在研究界产生重要影响,在工业应用方面也有着巨潜力”。

在这篇主题为《Vocabulary Learningvia Optimal Transport for Machine Translation》的论文中,作者创新地把经济学和数学的知识运用到词表学方案:

首先,论文使用经济学的“边际收益”概念定义了词表质量的评价指标。

信息熵可以理解为蕴含在每个字中的平均语义含量。信息熵越小,越加利于模型学。作者使用基于字的熵计算方式来评估该属性,其中v为词表,i为词表中的标记,P为标记在训练集出现的频率:

在基于频率的方法下,词表越小,稀疏标记(token)越少,参数也越少,那么更加有利于模型学。

信息熵和词表小不可以兼顾。一般来说,词表越,所需参数越,稀疏标记越多,但是信息熵在减小。为此,论文引入了“边际收益”的概念。

“边际收益”衡量了付出单位代价所能获得的利益的数量。作者将信息熵看成是利益,词表小看成是代价。随着词表的增加,不同小的词表对应的信息熵收益是不同的。

通过使用“边际收益”的概念,作者定义了衡量词表质量的指标MUV,并且观测到了MUV指标和下游任务的相关性。

然后,以“最优运输”的数学方法尝试解决最优词表的生成问题。

给定词表评价指标MUV之后,学最优词表的问题可以粗略地等价为寻找具有最MUV的词表问题,但是词表搜索空间不仅庞,而且是离散空间,如何去高效地学到相应的词表呢?论文作者巧妙地将词表学转化成了搜索具有最MUV分数词表的离散优化问题,“最优运输”就是一个非常合适的解决方案。

约250年前,法国数学家蒙日在其作品中对“最优运输”类问题进行了严格分析,下面是一个比较直观的例子。假设在战争中,我方一些前线阵地发出了需要增兵的信号,而我们的士兵分散在不同的后方根据地。不同的前线需要的士兵个数不同,后方根据地的士兵个数也不同,前线距离后方根据地的距离也不同。问如何设计转移方案,使得总转移代价最低?这就是最优运输想要回答的问题。

最优运输问题示意图

通过建模成一个“最优运输”的目标函数,VOLT方案取得了出色的效果。以下是VOLT生成的词表在双语翻译的结果,可以看到,新方法学到的词表比经常使用的词表小很多,效果也很有竞争力。

以下是多语翻译的结果,总体来看,VOLT方案在三分之二的数据集上效果也是较好的。

目前,VOLT研究项目已向全球者开源。

论文地址:

https://arxiv.org/abs/2012.15671

项目地址:

https://github.com/Jingjing-NLP/VOLT

据了解,这篇最佳论文研究成果也将在字节跳动的火山翻译业务中逐步落地,为飞书、今日头条等产品和火山引擎的企业级客户提供机器翻译支持。2021年以来,火山翻译实现多项重要技术突破,研发出支持150个语种互译的规模翻译模型mRASP2,并对外开源了当前业界最快的推理和训练引擎LightSeq2.0,以及端到端语音翻译工具包NeurST,获得开源社区的广泛好评。

在此前由ACL举办的机器翻译赛WMT2021上,火山翻译以独创的“并行翻译”系统参赛,夺得德语到英语方向比赛自动评估第一名。“并行翻译”在国际赛事中首次亮相,就击败了从左向右逐词翻译的传统技术,打破后者在机器翻译领域的绝对统治地位,这项技术的论文也得到ACL 2021收录。

联想windows10怎么进入bios

Android转Java容易吗

macos10.15有必要升级吗

怎么用角磨机去翡翠皮壳

玉石断开了怎么修复的

猫咪喜欢跑到床上吗为什么

五个月狗狗经常吐舌头怎么回事

微信视频号什么卡免流量使用

口碑好的seo优化推广软件软件

标签: