“我们希望能够解决 AI 大规模落地的最后一块拼图问题。”ZILLIZ 的创始人兼 CEO 星爵说道。

那么,什么才是 AI 大规模落地的最后一块拼图?“海量数据的处理。” 星爵继续解释道。众所周知,AI 与数据拥有千丝万缕的联系,如从开始基于海量数据的模型建立,到落地应用时对数据的处理。目前,关于模型建立,市场上已经有了比较丰富、成熟的答案。在海量数据的处理方面,大量企业也正在探索新路径,ZILLIZ 就是其中之一。

ZILLIZ 是研发面向人工智能的新一代数据处理和分析平台 ,其主要是为应用型企业提供底层技术。ZILLIZ 研发的 GPU 加速的 AI 数据中台解决方案 Mega,其中包括数据 ETL 系统 MegaETL、数据库系统 MegaWise、面向 Hadoop 生态的模型训练系统 MegaLearning 和特征向量检索系统 Milvus,可满足传统的加速数据 ETL、加速数据仓库和加速数据分析的场景和需求,面向各类新兴的 AI 应用场景,可应用于金融、电信、安防、智慧城市和电子商务等行业。

值得一提的是,据星爵介绍,从技术层面看,Milvus 是全球首款 GPU 加速海量特征向量匹配和检索引擎。Milvus 依托 GPU 加速,提供极速特征向量匹配以及多维度数据联合查询(特征、标签、图片、视频、文本和语音等联合查询)功能,并且支持自动分库分表和多副本,能对接 TensorFlow、Pytorch 和 MxNet 等 AI 模型,可实现百亿特征向量的秒级查询。

简单来说,Milvus 是一种海量非结构化数据的搜索引擎,“搜索正在从结构化数据向非结构化数据搜索迈进,我们希望定义下一代的搜索的引擎。” 星爵表示。他认为,以百度、谷歌等为代表的上一代互联网搜索引擎,主要是基于文本等结构化数据的处理逻辑。机器对于结构化数据的交互很友好,但是不擅长与非结构化数据打交道。而人类与世界交互的方式非常多样化,如视觉、听觉、数字文字等。而且显然,我们现实生活中的非结构化的数据如图片、声音、视频等,总量远超过结构化数据。

如果想让 AI 更加流畅、且智能地应用与实际生活,让机器能够处理非结构化数据的搜索以及定位则非常有必要。如抖音、快手等短视频网站,每天的生产海量数据,如何在这庞大的视频数据库里检索、定位需要的信息,进行相关的管理或者应用。

Milvus 的诞生就是旨在解决这样的问题。其利用深度学习的神经网络把图片、视频等变成特征向量,而特征向量本质上就是结构化数据。其实逻辑就是首先把非结构化数据结构化。基于特征向量,系统能够提炼出语义,更好的理解然后检索,而不是基于大数据搜索关键词,或者实现以图搜图等应用。此外,通过搜索,也可以形成用户画像。一个用户的特征其实就是高维度的特征向量,系统也可以帮助更好地做特征向量的分析聚类,形成千人千面,或者个性化推荐。

“很多 AI 公司也在做这样的处理与转换,但是我们是通过海量的特征向量去搜索。在找到对应的特征向量以后,再搜索到对应的非结构化数据,如一张图片里面有车、人、花、包包,通过这张图片就可以搜到相似的包包,人、花等等的图片。” 星爵表示,Milvus 很大的特点是基于海量复杂的非结构化数据中的检索。“所以,我们可以为各行各业提供很多新的应用能力。” 他具体介绍了几个主要的应用方向:

视频网站中的广告定向投放:视频网站的商业变现之一就包括 “网红带货”,网红带货方式是在推销商品的同时,视频界面上贴出链接或者二维码。传统方式是需要人工去标注视频里出现的商品,但是随着视频容量的激增,人工标注越来越难。如果视频网站应用 Milvus,就可以通过算法检索到哪些视频中出现了哪些产品,然后进行标注,再进行相应的广告投放。

版权保护:即利用语义检索分析查重。很多洗稿想要骗过计算机时,往往会打乱语序、更改用词等。在此种情况下,基于结构化的检索方式就无法查重。但用深度学习的方式把整篇文章作为非结构化的数据去处理的话,除了用词以外,Milvus 还可以深度挖掘语义的相似性来判断查重率。此外,在音乐、视频影片等方面都可以应用。

工业互联网:用声音来判断零部件的损坏程度。一般来说,机械运转会发出声音,ZILLIZ 可以帮助设备检测公司建立海量的零部件在各种运行状态下的声音库,如某一种零件有故障时会发出非常尖锐的声音。通过传感器的部署,就可以实现机器的 24 小时故障监控,如果机器有什么异常声音,这种声音经过特征比对后,系统即可预测零件损坏的程度,以及作出处理分析。

此外,在医疗影像方面,Milvus 也可以支持 AI 影像辅助系统,如眼部疾病筛查,通过眼底照片的特征对比来分析检测。

“我们走技术驱动的路线,可以给业务端企业提供底层技术,也可是百度开放平台的一部分。” 星爵表示,作为一家技术研发型公司,ZILLIZ 最大的挑战如何是不断在技术上突破自我。不过,其核心成员来自于 Oracle、Pivotal、Cisco、IBM、Morgan Stanley、华为、腾讯和百度等科技公司,所以,丰富的技术经验可以保证 ZILLIZ 的研发动力。从产品形态方面来看,该公司私有化部署与云产品两种模式,其目前已经和大概 20 多家头部客户建立合作。

ZILLIZ 已经完成了 A 轮融资,共计融资获得来自多家著名投资机构的上亿元人民币投资。