近日,在国际顶尖人工智能竞赛第九届对话系统技术挑战赛(DSTC9)中,滴滴语音和 NLP 技术团队参与端到端多领域面向任务型对话系统任务荣获世界第一,充分彰显滴滴公司在自然语言对话领域的创新能力。

对话系统技术挑战赛(DSTC)旨在解决时下最前沿、最具挑战性的对话系统技术问题,在对话领域具有极高的权威性,迄今已举办九届。本届 DSTC9 由微软、Google、IBM 研究院、Amazon、CMU、清华大学等联合举办,吸引了业界和学术界各路顶尖团队纷纷参与。滴滴参与的端到端多领域面向任务型对话系统(End-to-end Multi-domain Task Completion Dialog)赛道共吸引全球 60 多支团队参赛。

多领域面向任务型对话系统指通过人机对话旨在帮助用户完成实际具体的任务,比如在连续对话中完成订酒店,机票、餐厅等多项任务。此次比赛所用的 MultiWoz 公开数据集共跨七个领域,每个对话平均 13 轮。该比赛要求系统不仅要从人类复杂多变的表达中快速理解意图,还能在多领域中穿插切换,给予准确合适的回答,最终完成任务。这也对现有任务型对话系统提出更高要求。

在比赛中,滴滴使用了 HybridDTA 模型,采用领域自适应(Domain Adaptive)以及任务自适应学习(Task Adaptive)混合技术,通过大规模 domain 数据预训练、任务分阶段多目标学习、领域自适应去词化预处理和后处理等,让模型可跨领域学习任务型对话系统的推理过程。

滴滴 HybridDTA 模型框架图

而为了让系统回答更加智能接近人类,滴滴模型在端到端 GPT2 模型基础上加入基于对话领域的数据预训练,并采用一系列容错后处理矫正机制改进最终结果。最终取得人工评测任务成功率(Average Success Rate)世界第一,相对 DSTC8 同任务提升了近 9 个百分点,其中人工评测系统回答合适分数相较 DSTC8 提升了 3.8%,意味着人机对话的理解力和回复能力在多领域任务达到新的高度。

目前,这一语音对话系统已在滴滴广泛使用,如智能客服对话、车机系统语音交互、司机端内语音交互等。除积极探索技术前沿,滴滴也持续推进对话交互能力的开放,除去年 8 月,开源基于深度学习的自然语言平台 DELTA,进一步降低开发者创建、部署自然语言处理系统和语音模型的难度之外,上周,滴滴还联合天津大学、杜克大学开放了大规模数据库,提供由超过 6000 名说话人专门录制的近 800 小时的语音数据和注音标注。