编者按:本文来自于微信公众号 “量子位”(ID:QbitAI), 动点科技经授权发布。

在初高中英文阅读理解这件事上,普通人类已经不是 AI 对手了。

这就是 AI 最新获得的成就。

在 CMU 语言技术研究所发起 RACE 数据集上,全球豪强纷纷一展身手。

最终,依然由中国军团雄霸天下。

而且一位高中生,甚至单枪匹马力压腾讯和康奈尔联队。

此外,第一二名争夺也异常激烈且颇富戏剧性。

微信 AI 和云从交大,上演了一出生死时速的好戏。

怎样一回事?

中国 AI 军团雄霸全球竞赛

此次比赛所用数据集 RACE,全称:Large-scale ReAding Comprehension Dataset From Examination,是一个从初中和高中试题中收集的大型英文阅读理解数据集。

2017 年正式对外推出,主要考察 AI 模型在英文阅读理解方面的学习能力。

从推出至今,总共有 13 支全球豪强来试过身手。除了前面提到的微信 AI、云从、腾讯 AI Lab 和康奈尔之外,OpenAI、微软研究院、IBM 研究院也都参与其中。

但 2 年以来,还没有哪支团队的 AI 模型真正实现超越人类水平。

但就在今年 1 月,中国公司云从科技和上海交大联队,首次在高中生数据集部分实现了 AI 模型水平对人类超越,该排名也一度占据榜首 50 多天。

如此成绩,云从自然应该庆祝一番。

不过熟料战况异常激烈,万万没想到,在云从刷榜通告发出后不久,中国另一代表队——微信 AI 提交最新成绩,并成功实现超越,且还是对人类水平的全面超越。

这年头,庆功都不允许雍容款款了。

微信第一,BERT 称王

那么微信 AI 模型,究竟有何独到之处?

在 RACE 中,微信 AI 模型整体正确率 73.5%,超过了普通人类的 73.3%。

其使用的是选项比较网络(OCN),模仿人类完成阅读理解任务的做法,在单词级别上对各个选项进行比较,以识别其中的相关性,来帮助推理答案。

不过,在这个竞赛中,更大的赢家却是 BERT。

微信 AI 使用的模型,正是基于 BERT。

不仅仅是微信 AI,榜单二三名,也都是基于 BERT。

目前排名第二的选手,上海交大与云从提出的双协同匹配网络(DCMN),可以模拟段落、问题和答案之间的双向关系,来进行更好的推理。在 RACE 数据集高中题目上拿下了 69.8% 准确率,超过普通人类表现。

BERT 的成绩,并不会让人太过意外。

这个于 2018 年 10 月由谷歌推出模型,刚一问世便交出了一份惊人的成绩单。

在机器阅读理解顶级水平测试 SQuAD1.1 中,全面超越人类表现,并在 11 种不同 NLP 测试中创出最佳成绩。

现在,SQuAD 2.0 榜单已经被 BERT 垄断,前 30 名之中都很难见到不用 BERT 的选手。

在我们今天要讲的 RACE 竞赛中,借 BERT 上榜的还有一名高中生。他来自新加坡立化中学,也是中国人。

他的模型,比腾讯 AI Lab 和康奈尔大学提出模型成绩还要好。

高中生力压腾讯 AI Lab+康奈尔

这位高中生名叫司程磊,初中就读于合肥市第五十中学,2015 年被新加坡立化中学录取。

他的这项研究并不复杂,只是基于 RACE 数据集对预训练好的 BERT 模型进行调参。

司程磊在 GitHub 页上声明自己的成果是基于 BERT 的 PyTorch 实现。但作为一名高中生,已经开始上手调参炼丹,的确比不少同龄人要超前了不少。

还在高中就读的司程磊展现出了对计算机科学的浓厚兴趣,他的 GitHub 页上显示他正在自学斯坦福大学的 NLP 课程 CS224N,还在 Coursera 上自学加州大学圣迭戈的算法课程。

另一方面,他也在关注 NOI(全国信息学奥林匹克竞赛)、ACM 竞赛。

司程磊可不仅仅把这些停留在简单的关注上,每门学过的课程,他都认认真真地在 GitHub 上编写习题的代码。

言归正传,司程磊根据模型的精细程度,将结果分成基本 BERT(BERT_base)和大型 BERT(BERT_large)两部分。BERT_large 的 batch size 更小,学习率更低,因此在测试结果上优于 BERT_base。

不过,腾讯 AI Lab 被超越,也是情理之中。

他们上次提交成绩,还是在 2018 年 10 月。

当时,他们基于 Transformer 的模型,在多个阅读理解数据集上都实现了最优结果。

但现在已经是 2019 年了,BERT 已经开源,成了各个 NLP 模型中的核心。

而 2017 年推出的 RACE,也因此迎来革命性时刻。

RACE:让 AI 做高考题的数据集

RACE(Large-scale ReAding Comprehension Dataset From Examination),由两位来自中国的博士生提出,是一个从初中和高中试题中收集的大型英文阅读理解数据集。

RACE 一共收集了 28,130 篇文章,包含了 98,432 个问题。 数据集又分为 RACE-M(初中)和 RACE-H(高中)两个部分。

RACE 由中学教师设计,用于测试学生的阅读理解技能。要想选出正确答案,不能直接从原句子中寻找,而是需要找到相关的上下文,还需要逻辑推理并运用社会、数学、文化等方面的常识进行分析。这对 AI 是个很大的考验。

关于 RACE 数据集的文章曾被 EMNLP 2017 收录,当时最先进的机器阅读理解模型也只能获得 42.3% 的正确率,而在亚马逊的众包平台 Turkers 上,人类的平均正确率达到了 73.3%,上限成绩是 94.5%。

△数据集作者用 Sliding Window 和 Stanford AR 两个模型的测试结果与人类对比

显然最先进模型与人类表现之间存在显着差距,RACE 很适合作为机器阅读的测试标准。

开发这个数据集的,是卡内基·梅隆大学的两位在读博士赖国堃和谢其哲,他们都曾都在微软亚洲研究院实习过。

除了阅读理解外,这两位还提出过英文完型填空的数据集 CLOTH。他们去年 12 月用 BERT 模型超越了人类得分。

谢其哲毕业于上海交大 ACM 班,目前正在攻读 CMU 博士学位,已有多篇论文被 ACL、EMNLP、NIPS 等顶会收录。

他的本科导师俞凯,是苏州思必驰信息科技有限公司首席科学家,同时也是上海交通大学苏州人工智能研究院执行院长。

也是名师出高徒的又一例证。

后生可畏

当然,现在各大全球 AI 竞赛被中国军团霸榜,早已见怪不怪了。

远的不说,2018 年的国际顶级口语机器翻译评测大赛 IWSLT 上,搜狗第一,讯飞第二,阿里巴巴第三,承包了 Baseline Model 赛道前三。

还有 COCO+Mapillary 2018 物体识别联合挑战赛上,中国团队包揽全部六项赛事的第一名,其中旷视团队获得 4 项冠军,商汤、北邮和滴滴团队分别获得 1 项冠军。

然而与之前种种霸榜事件相比,这次大有不同,毕竟此次中国军团中,还有崭露头角的高中生——此外测试标准本身,也由两名中国留学生提出。

真是一个后生可畏的年代啊!

如果你也关注近期 AI 顶会的论文,还会发现各路本科生、实习生大展神威。

中国 AI 的年轻一代,正在源源不断走到前台。

看来未来 AI 工程师退休,都不用拖到 35 岁高龄了。(手动狗头)

传送门

RACE 榜单地址:
http://www.qizhexie.com/data/RACE_leaderboard

RACE 论文地址:
https://arxiv.org/pdf/1704.04683.pdf

RACE 数据集地址:
http://www.cs.cmu.edu/~glai1/data/race/

微信 AI 论文地址:
https://arxiv.org/pdf/1903.03033.pdf