华为云夺得国际权威大赛WSDM Cup 2020金牌

来源:竺敏网络科技

不久前手机搬家,美国政府政府休斯敦闭幕的第13届于网搜索与数据统计 挖掘国际会议(WSDM 2020)上,华为云带领的联合大团队 摘得WSDM Cup 2020大赛“手机搬家论文引用意图识别训练任务”金牌。

WSDM被誉为全球性数据信息检索三大领域 最有间接影响力也最权威的会议中最,会议已连续关注社交于网上能 搜索与数据统计 挖掘,尤为已连续关注搜索与数据统计 挖掘模型、算法部分选用与综合分析、产业应用和全面提升准确性与作用 的实验综合分析。年初也已是WSDM的第十三届会议。

本次WSDM Cup共有几个赛题训练任务,华为云夺金赛题内容数据信息为“论文引用意图识别”:对阵提供完整几个论文库(约含80万篇论文),并且提供完整对被引用论文的引用文本描述,参赛选手需要手机搬家增手机搬家加跟据论文引用描述从论文库中匹配三篇最密切相关的论文。

论文是人类自身最前沿知识的媒介,需要增加需要增加正确理解论文中有数据统计 ,需要增加大大全面提升 全面提升 地扩充计算机正确理解知识的能力强大大和区域范围。在论文中,原文作者平时会引用或者论文,对其被引论文所做对应描述。需要增加对其计算机需要增加自动地正确理解、识别描述对应的被引论文,并且需要增加加深当我们对科研脉络的正确理解,需要增加在科研知识图谱、科研自动问答系统中和自动摘要系统中等三大领域 较为明显进步。

华为云语音语义创新Lab带领华南理工高中、华中科技高中、武汉高中、江南高中教师组成的联合大团队 ,对其该需要增加需要增加解决 制定了“总的来看召回+重排+集成”的方案。在总的来看召回阶段,对其轻量化的文本相似度计算三种方法(如BM25、TFIDF、Word2Vec等),以较少的计算代价从大规模论文库中检索出给定查询的假如密切相关的论文集合。在重排阶段,对其计算量大但更准确的三种方法对那些候选论文中有每一篇论文计算和引用描述的相似度值并已连续排序,例如选用基于深度继续学习的预训练语言模型BERT等。华为云大团队 观察到,赛题中有给语料基本上 生物医学三大领域 ,因而 选用了基于生物医药和科学三大领域 语料对其预训练的BioBERT和SciBERT语言模型对论文对其重排。对其对任何模型的于是对其集成,于是认可三篇最密切相关的论文。

华为云在本次对阵中运用来文本匹配其技术,可广泛用于搜索、对话机器人、知识图谱构建等三大领域 。

凭借在尤为语言处理过程三大领域 的全栈其技术积累,华为云已连续赢得了多个密切相关三大领域 权威对阵冠军。2019年10月华为云在DigSci科学数据统计 挖掘大赛(学术论文搜索匹配大赛)上夺冠,精准率高达第二名5个百分点。在2019 CCF大数据统计 与计算智能大赛决赛中,华为云认可金融实体级情感综合分析大赛冠军,体现了在文本情感综合分析和知识图谱三大领域 的综合实力。

目前来看,华为云语音语义密切相关服务提供也已取得成功 应用于政务、金融、油气、医疗、汽车、物流、保险、电商、税务、媒体等能力强大语音识别、语言正确理解、知识管理等更多需求的业务三大领域 。