xu li sensetime

今年 7 月,火热的人工智能行业诞生了新的融资纪录,位于北京的商汤科技完成 4.1 亿美元的 B 轮融资。商汤是一家计算机视觉(Computer Vision, CV)算法层技术公司,帮助企业客户快速接入计算机视觉技术。近日,动点科技也对商汤科技 CEO 徐立博士进行了专访。

据了解,在计算机视觉技术中,计算机模拟人的视觉系统,从背景中识别目标对象及其行为。计算机视觉的应用非常广泛,包括基于人脸识别的身份认证、人像美颜,行人车辆识别,图像识别,文字识别,图像视频编辑等。

计算机视觉在图像编辑方面的应用之一,图片去雾。
计算机视觉在图像编辑方面的应用之一,图片去雾。截图来自商汤科技官网

通常来讲,像商汤科技这样的公司面临两个选择。一是基于第三方开源平台进行开发,在 Caffe、Torch、以及谷歌的 TensorFlow 等平台上开发深度学习模型。这样做的好处是建立模型的速度很快,而缺点是在功能、性能、扩展性方面面临不同程度的局限。另一类是独立于现有平台,自主开发原创的深度学习框架,它的特点与前一种相反。商汤选择了第二类独立开发的模式,而这也是它的核心竞争力所在。

“使用开源平台毕竟是在利用别人训练的大脑。我们坚持走原创技术路线,一方面技术的发展方向可以自主把握,不受别人控制,另一方面一旦做好,就可以在长线的竞争当中建立优势。比如,在去年的 ImageNet 2016 期间,商汤实现了 1207 层神经网络,是当时最深的网络,而这套网络无法正常在 TensorFlow 上运行。” 徐立博士在采访中告诉动点科技。

商汤科技成立于 2014 年,当时商汤科技创始团队开发的人脸识别技术首次在非受控环境下超越了人眼的准确率,这家公司认为这意味着人脸识别技术具备了大规模应用的基础。

而坚持自主研发的难点,据徐立介绍,在于人才和计算能力。商汤的优势是拥有最早投入深度学习研究的华人团队、亚洲最大的深度学习研究团队。计算能力方面,商汤科技建设了大规模 GPU 计算集群,由近 3000 块 GPU 的计算芯片组成。

原创技术给商汤带来的竞争力在于,能够生产独特的产品,换句话说是高效率并且稀缺的产品。“以金融领域为例,如果做到亿分之一、十亿分之一的误识率,就能够比现在十万分之一的误识率高三到四个数量级,这就是技术上的差异化。我们涉及的安防、金融,甚至是智慧城市,对安全的准确率要求是很高的,它考验的是核心算法。” 徐立解释说。

另外,自有平台提升了算法效率,降低了硬件门槛,让各个客户接入计算机视觉技术更加容易。

今年 5 月,商汤在 NVIDIA(英伟达)的 GPU 技术大会上展出了 SensePose,这是一个单目摄像头动作估计解决方案。传统的动作捕捉解决方案受算法的限制需要使用更加复杂的设备,比如双目摄像头、红外线摄像头、关节处佩戴的传感器等传。相比之下,SensePose 大幅降低了动作捕捉设备的制造成本。

目前,商汤的技术已经在人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等应用层技术落地,有银行、手机厂商、机器人厂商等超过 400 家的客户,包括中国移动、银联、华为、小米、微博等。

智能相册中的按照照片人物分类功能使用了计算机视觉的人脸识别技术。
智能相册中的按照照片人物分类功能使用了计算机视觉的人脸识别技术。截图来自商汤科技官网。

正如文章一开始所说,商汤科技在 7 月份宣布了多达 4.1 亿美元的 B 轮融资,本轮融资分两次完成,B1 轮由鼎晖投资领投,万达集团、IDG 资本和 StarVC 跟投;B2 轮由赛领资本领投,中金公司、基石资本、招商证券(香港)、华兴私募股权基金、晨兴资本、光际资本、尚珹投资、中平资本、东证资本、华融国际、东方国际、TCL 资本、盈峰控股、著名投资人梁伯韬等近 20 家投资机构、战略伙伴参投。

目前,国内计算机视觉行业的领先初创企业还有旷视、依图、触景无限等。这些企业都为企业客户提供智能服务,赋予他们的产品人脸识别、图像识别等能力。而徐立表示商汤独特的策略在于,“坚持原创,我们需要潜下心来围绕真正的原创技术做功课,而不是仅仅在商业应用场景上与其他企业 PK。”

另外,在快速推动国内业务发展的同时,商汤科技也已经开始了国际化,分别在 2015 和 2016 年建立了京都和东京分部。商汤科技目前正在与东京大学、大阪大学和京都大学洽谈合作,希望在学术上和技术人才上给商汤提供更多的支持。 之所以选择日本,徐立解释说,是因为日本的汽车行业和工业制造业比较完善。

AI 企业在做的事,在徐立看来,可概括为两个阶段:超越普通人能力、以及超过专家能力。他认为现在的人工智能正处于超越大众的阶段,通过标注帮助机器学会普通人拥有的知识,比如识别交通信号灯、路上的行人等等。如果说要超越专家,比方机器可以像专业的医生那样通过患者的 X 光片诊断病情,由于这一部分的数据属于稀缺资源,换算下来大概需要 800 年的时间才能够完成完成机器学习所需的这样一个数据量。

“现在的算法框架不能解决这个问题,可能需要对算法的突破、数据的突破、以及各种领域的知识的结合,才能够做到超越专家。” 徐立说。

题图由商汤科技提供