shutterstock

计算机视觉技术到今天已经历经一个甲子。虽然这段历史跌宕起伏,但基于该技术的以图搜图目前已经得到广泛应用,如百度识图、微信扫一扫、淘宝拍立淘和京东拍照购等。而如今,随着直播和视频的快速发展,以图搜视频也成为一些用户的诉求。图麟科技便把《速度与激情 7》上的 “天眼” 系统带下了现实,即通过图片就可在海量视频中检索到自己所需的目标视频。

“以图搜图就像挠痒痒,能企及用户用文字搜索达不到的痒点,会逐步成为用户的刚需,但目前该领域已有诸多巨头布局,所以我们在此基础上还多加了一项新技术——以图搜视频。” 图麟科技 CEO 魏京京告诉动点科技。

魏京京在 2002 年便开始接触图像识别技术,他既做过导弹导航系统,又曾任职过投资总监。为何兜兜转转最后还是看上了计算机视觉项目呢?对此,魏京京表示,计算机视觉是个大方向,并且是个高技术壁垒产业,刚好近几年大数据的逐步完善和超强计算机能力的出现,可以给该产业带来很多想象空间。

于是在 2014 年, 他就从中科大找来了一些有着多年交情的技术大佬,组建了 6 人核心团队,创立了这么一家专注于计算机视觉的公司——图麟科技,目前已获得同创伟业的 1000 万 Pre-A 轮投资。
tulin据了解,基于计算机视觉和深度学习技术的研究,图麟科技已研发出了自己的海量图像/视频搜索、大规模视觉识别、智能分析处理等核心技术。主要提供三个方向的服务方案及产品:视频和图像搜索、图像处理云服务和工业机器视觉。魏京京告诉动点科技,该方案可广泛应用于广告媒体、视频网站、安防监控、互联网应用、大数据分析、工业级影像处理等领域。

在海量视频图像检索方面,图麟科技实现以图搜图、以图搜视频、以视频搜视频三项功能。我们都知道,目前在以图搜图中普遍采用的是通过机器扫描到图片,记录每帧图片的特征点,并转化为描述性的数据来实现识别。而这些数据就包括像素矩阵,颜色、纹理、梯度、形状分布等。整体而言,其数据的体量还是相对较大的。而一秒钟的视频大约相当于 25-30 张图片。那么采用以图搜视频和以视频搜视频,其数据特征体量的难点之大也就可想而知,并且由于大量的数据在识别的效率和精度上也会大打折扣。因此这就需要一个非常好的方法来把这些图像序列的特征进行快速有效的融合,来实现视频搜索。

图麟采用的做法是从视频级,而不是以图搜图的帧级来组织数据库。魏京京解释道,一个 100 个小时的视频,如果数据库是存储单帧的,这样总共有 100*3600*25 帧,数据库是非常大的,检索起来耗时且精度下降。而以视频内容来分级,可能只有几个独立的视频剪辑,这样数据体量就小很多,而且检索的效率和精度也更高。

tunicorn
安防检索结果展示

另外在图像处理云服务上,其包括了一般物体识别、人脸识别、场景识别、运动跟踪检测等。就拿警察用 “天网” 视频寻找线索举例,以前可能要连续看上一两个月的监控视频,才能基本找到所包含目标汽车的监控图像。而现在使用图像识别技术,只要依靠一张样本,就可以准确、迅速的找到目标汽车,并定位到车的具体位置。

当然以图搜视频技术会因为视频质量对结果有影响。魏京京补充道,在这方面未来将继续优化机器深度学习技术,并根据硬件需要再加入一些传感器进行辅助配合,实现更好的优化检索、识别。

他还认为,只有软硬件的结合才能更快地助力技术的发展。所以在给工业视觉提供解决方案的同时,他们也提供一些镜头、光源、相机等等硬件产品。目前在图像识别领域,机器已经超越了人的认知,并且机器不会因为疲劳而造成认知错误,所以在工业领域,图像识别技术的应用还是易于普及的。

tulin

在实际应用上,最典型的场景莫过于移动电商,但在该领域与有着海量大数据积累的 BAT 巨头相比显然还是有差距。魏京京认为,图麟要面向的是多渠道的 B 端市场。只有通过一个开放式的服务平台,才能在增加自身数据积累的同时,增强用户的粘合程度。目前图麟的产品已有十几家企业在试用。

另外,魏京京还表示,视频检索将可能是最快的爆发点,而视觉识别也是个从感知到认知的过程,未来会加大深度学习的投入,从简单的识别,到深层的理解。除了在技术层面,应用领域里他们将来也可能会往医疗和机器人方向拓展。