印象2021｜人工智能风起云涌

如今，人工智能经过几年的发展，再也没有当初的神秘感。回顾2021年，无论是人工智能技术还是产业有很多值得称道的研究和落地成果。AI基础理论研究逐步深入，多模态、机器学习、自然语言处理、计算机视觉、芯片和基础科学等领域都有不错的研究引发热烈讨论。如果你还把目光停留在语音识别、图像识别、智能阅片、病毒测序……那么下面这些前沿的技术和产业研究相信你会感兴趣。

DeepMind机器学习框架帮助发现两个数学新猜想

英国《自然》杂志12月1日发表了由人工智能公司DeepMind开发的一个机器学习框架，该框架已经帮助发现了纯数学领域的两个新猜想。这项研究展示了机器学习可以支持数学研究，这也是计算机科学家和数学家首次使用人工智能来帮助证明或提出纽结理论和表示论等数学领域的复杂定理。

纯数学研究工作的关键目标之一是发现数学对象间的规律，并利用这些联系形成猜想。从20世纪60年代起，数学家开始使用计算机帮助发现规律和提出猜想，但人工智能系统尚未普遍应用于理论数学研究领域。

此次，DeepMind团队和数学家一起建立了一个机器学习框架，用于协助数学研究。团队还表示，他们的框架能鼓励未来数学和人工智能的进一步合作。

索尼发布感存算一体化设计近光学传感器AI-ISP芯片

随着物联网、零售、智慧城市等产业的发展，在相机产品中搭载AI处理能力的需求快速增长。边缘端芯片的AI处理能力能够解决只在云计算系统中出现的问题，如延迟、云端通讯、处理开销，以及隐私问题等。当前市场对边缘端智能相机要求包括小型、低功耗、低成本、易部署等，但目前传统的CMOS图像传感器只能输出原始图像数据。因此，在设计具有AI能力的智能相机时，将图像信号处理器(ISP)、神经网络处理能力、DRAM等结合在一起十分重要。

在2021 IEEE国际固态电路会议(ISSCC)上，索尼发布了其背照式堆叠型CMOS图像传感器芯片，芯片能耗比达到4.97TOPS/W。通过将图像传感器、CNN处理器，以及ISP、DSP、内存等子系统进行堆叠设计，在单芯片上实现完整的AI图像处理能力。

TRFold引领国内计算生物学突围

2021年7月，DeepMind公开了AlphaFold2的源代码，并在顶级科技杂志Nature上发表论文阐述了AlphaFold2的技术细节。同一天DavidBaker也公开了RoseTTAFold的算法，并将研究成果经Science刊出。

这次开源在生物学界掀起了巨大的波澜，意味着生物学家有机会摆脱先进设备的掣肘，而这些设备往往都非常昂贵，只有经费充足的大学或研究机构才有条件配置。此后，那些小型团队或者个人研究者也能参与到蛋白质的研究中来。

中国人工智能企业天壤自研的深度学习蛋白质折叠预测平台TRFold在基于CASP14(2020年第14届国际蛋白质结构预测竞赛)蛋白质测试集的企业内测中，获得82.7/100的成绩(TM-Score)，已经超过来自华盛顿大学的生物学家DavidBaker团队研发的RoseTTAFold81.3/100的成绩，仅次于AlphaFold2的91.1/100的成绩。在400个氨基酸的蛋白链预测时，TRFold仅耗时16秒。这是目前国内所有公开蛋白质结构预测模型中取得的最好成绩，它标志着中国计算生物学领域的表现已经处于世界第一梯队。

在新冠肺炎疫情大流行的背景下，全球生命科学领域正面临转型，AI+生命科学元年正在开启。相信在未来几年内，将有大量的机构和公司加入到技术创新与生命科学研究的热潮中。

DeepMind发表语言模型社会危害评估论文

2021年12月，DeepMind发表论文，研究预训练语言模型带来的伦理和社会危害。研究者主要探究了模型在六大方面的不良影响，并谈到两个伦理和社会影响方面需要研究者持续关注。一是当前的基准测试工具不足以评估一些伦理和社会危害。例如，当语言模型生成错误信息，人类会相信这种信息为真。评估这种危害需要更多与语言模型进行人机交互。二是对于风险控制的研究依然不足。例如，语言模型会学习复现和放大社会偏见，但是关于这一问题的研究仍处于早期阶段。

MIT-IBM 联合实验室基于果蝇大脑构建神经网络学习NLP任务

2021年3月，MIT-IBM 联合实验室的研究者基于果蝇大脑中的成熟神经生物学网络模体(Motif)，将结构进行数学形式化后构建神经网络。该网络可以学习语义表征，生成静态的、依赖于上下文的词嵌入。根据实验，该网络的性能不仅可以与现有NLP方法相媲美，内存占用率也更小，需要的训练时间更短。在上下文单词任务中，果蝇网络的表现比GloVe高出近 3%，比Word2Vec高出6%以上。

OpenAI提出大规模多模态预训练模型DALL·E和CLIP

在大数据、大参数和大算力的支持下，预训练模型能够充分学习文本中的表征，掌握一定的知识。如果模型能够学习多种模态的数据，在图文生成、看图问答等视觉语言(VisionLanguage)任务上具有更强表现。

2021年1月，OpenAI同时发布了两个大规模多模态预训练模型——DALL·E和CLIP。DALL·E可以基于短文本提示(如一句话或一段文字)生成对应的图像，CLIP则可以基于文本提示对图片进行分类。OpenAI表示，研发多模态大模型的目标是突破自然语言处理和计算机视觉的界限，实现多模态的人工智能系统。

谷歌提出多任务统一模型MUM

2021年5月，谷歌在2021IO大会上公开了多任务统一模型(MultitaskUnifiedModel，MUM)的发展情况。MUM模型能够理解75种语言，并预训练了大量的网页数据，擅长理解和解答复杂的决策问题，并能够从跨语言多模态网页数据中寻找信息，在客服、问答、营销等互联网场景中具有应用价值。

华为诺亚实验室等研究者提出动态分辨率网络DRNet

深度卷积神经网络通畅采用精细的设计，有着大量的可学习参数，在视觉任务上实现很高精确度要求。为了降低将网络部署在移动端成本较高的问题，近来发掘在预定义架构上的冗余已经取得了巨大的成果，但对于CNN输入图像清晰度的冗余问题还没有被完全研究过，即当前输入图像的清晰度都是固定的。

2021年10月，华为诺亚实验室、中国科学院大学等机构研究者提出一种新型的视觉神经网络DRNet(DynamicResolutionNetwork)。基于每个输入样本，该网络可以动态地决定输入图像的清晰度。该网络中设置了一个清晰度预测器，其计算成本几乎可以忽略，能够和整个网络共同进行优化。该预测器可以对图像学到其需要的最小清晰度，甚至能够实现超过过去识别准确率的性能。实验结果显示，DRNet可以嵌入到任何成熟的网络架构中，实现显著的计算复杂度降低。例如，DR-ResNet-50在实现同样性能表现的前提下可以降低34%的计算，相比ResNet-50在ImageNet上提升1.4个点的性能同时能够降低10%的计算。

澜舟科技等研发中文语言模型“孟子”

2021年7月，澜舟科技-创新工场团队与上海交通大学、北京理工大学等单位联合研发了中文语言模型“孟子”，参数规模仅10亿，在CLUE中文理解评测的总排行榜，以及分类排行榜和阅读理解排行榜均位列榜首。其中，总排行榜分数突破84分，逼近人类基准分数(85.61)。

北京大学团队提出模拟灵长类视网膜中央凹编码机理的脉冲视觉模型

深度学习支撑机器视觉在过去十年取得了巨大进步，但与生物视觉相比还存在巨大差距，例如对抗攻击脆弱、计算复杂度随分辨率线性增长等。近来，北京大学团队提出了模拟灵长类视网膜中央凹编码机理的脉冲视觉模型，推翻了沿用近两个世纪的相机和视频概念，专利获得中美日韩欧授权，研制了比人类视觉和影视视频快千倍的脉冲视觉芯片和相机，用普通器件实现了高铁会车、瞬态电弧、风洞激波等高速物理过程的连续成像，并结合脉冲神经网络，在笔记本算力条件下实现了超高速目标的实时检测跟踪和识别，在硬件和算力相当的情况下将机器视觉性能提升了三个数量级。

团队还深入研究了生物视网膜编码复杂动态场景的神经网络结构和信号编码机理，提出并实现了一种基于卷积循环神经网络(CRNN)的视网膜编码模型，能够高精度地预测大规模视网膜神经节细胞对动态自然场景的响应，可学习出视网膜神经节细胞感受野的形状及位置，模型结构更接近生物视网膜，可以使用更少的参数学习出精度更高的编码模型。还提出了评估刺激时空复杂度和感受野时空规律性的定量指标，实验结果揭示了网络的循环连接结构是影响视网膜编码的关键因素，这一模型不仅具有生物学价值，而且对设计新一代脉冲视觉模型、芯片乃至研制视网膜假体都具有重要意义，论文已在《细胞·模式》(Cell·Patterns)发表。

注：部分内容参考自北京智源人工智能研究院《智源人工智能前沿报告》

印象2021｜人工智能风起云涌

你可能会喜欢

苹果也坐不住了，据称其正全球物色 AI 芯片公司

澳大利亚设立国家 AI 办公室，出台新规限制数据中心资源消耗

解决“最后一公里”痛点，波士顿动力测试机器狗自主送货系统

别被防沉迷骗了：半数社交平台儿童保护功能只是“面子工程”