01

2014 年,手机淘宝上线 “拍立淘” 功能,通过手机拍照或上传图片,即可找到淘宝或天猫上的同款商品。据淘宝官方数据,2015 年双 11 期间该功能曾吸引上千万人使用。

在前几天的全球计算机视觉顶级会议 CVPR 2017 上,一位 Google 工程师来到阿里巴巴展台体验 “拍立淘” 功能。他先是对着阿里工程师上半身各种拍摄,然后突发奇想,蹲着对该工程师的脚 “拍立淘”,淘宝仍能精准无误的找到同款鞋子。“拍立淘” 由此引发国内媒体追捧

阿里的人工智能:“从场景当中长出来的”

不过,阿里巴巴的机器视觉技术早已名声在外。IEEE Fellow 华先胜和前亚马逊最高职位华人科学家任小枫搭档,被圈内认为是 “天团级别” 的人才配置。

在 CVPR 演示 “拍立淘” 的研发人员来自阿里数据科学与技术研究院(iDST),被外界称为 “阿里最神秘的部门”。iDST 由阿里巴巴集团首席技术官王坚博士最初构思,可以看作是和 Google X、微软亚洲研究院等同类的企业内部顶尖科研机构。

但是,iDST 相对同行比较不那么 “务虚”,它的技术研发布局一般有明确的业务需求推动,与类似机构天马行空,毫不设限的研发形成对比。阿里云人工智能科学家闵万里说,阿里的人工智能是 “从场景当中长出来的”。

所有这些研究机构无一例外地将图片识别和搜索视为其中一个重要的研究热点,由此,每年一度的 ImageNet 竞赛也成为机器学习领域含金量最高的赛事之一(今年以后它不再独立举行,改为和 Kaggle 合并)。图像识别和搜索的应用也多种多样,比如谷歌和百度都有实际投入应用的 “以图搜图” 功能。微软小冰则以各种识花认脸的卖萌小工具展现它们的技术实力。

“拍立淘” 的技术原理:5 个算法模块

相对于面向通用情景的 “以图搜图”,“拍立淘” 针对商品搜索做了专门优化。这必然让人联想到亚马逊 2014 年 6 月推出的 Firefly 功能。Firefly 随着亚马逊并不成功的 Fire Phone 首发并作为主打功能,宣称可以识别 “1 亿种物体”。“拍立淘” 在 Firefly 发布前后立项,年底即在手淘上线,一年多就成为成熟可靠的业务形态,无疑体现了阿里技术团队的执行力。

根据亚马逊发布会介绍,Firefly 最擅长识别的同样是商品图像,不过它主要通过条形码、二维码扫描、OCR 文字提取、声音搜索(帮助识别电视广告推荐的商品)实现。至于图像识别,亚马逊当时宣称对上百万种商品进行了图像和文字标识的训练。

阿里搜索事业部技术团队博客介绍,“拍立淘” 绝大部分依赖的还是图像识别算法,而不是如 Firefly 一般通过多种搜索方式的 “组合拳” 来实现,是该技术的独创性所在。产品共分 5 个算法模块,分别是类目预测,主体检测,图像特征提取,检索索引和排序。

02

在类目方面,“拍立淘” 有 10 多个大类,涵盖上万个叶子类目(2016 年初)。“主体检测” 则是将搜索目标从图像中提取出来的过程。今年 CVPR 2017,阿里巴巴人工智能实验室一篇入选论文即为研究 “显著性目标检测”,说的就是帮助计算机发现图片中最吸引人注意的区域。图像输入后采用 CNN(卷积神经网络)提取高层特征,再加一层提取局部特征,最后发送请求查询结果。

亚马逊曾设想 Firefly 会推动自身手机业务实现类似 iPhone 一样对行业的颠覆,但最终 Fire Phone 销量惨淡,未能如愿。Firefly SDK 还向所有手机开放,意图收集大数据训练模型,但也无济于事。

近来,谷歌制作了 Project Tango,其感知能力和 AR 显示无缝衔接;苹果也在最近的 WWDC 推出了 ARkit。但是,这些技术或界面都需要配备相应机能的手机支持。相比之下,淘宝直接使用手淘客户端作为功能入口,让技术应用 “立等可取”,也最大限度地收集了海量的基础数据,对算法的自我进化贡献良多。

通用搜索的潜力:淘宝到底有多 “万能”

“万能的淘宝” 是中国网民约定俗成的说法,但已经有更多人发现了淘宝在 “刷脚” 以外的更多潜力,这可不是官方指定的淘宝打开方式。

在知乎寻找淘宝鲜为人知的使用技巧,可以看到以下奇妙的发现:

淘宝就是真人百科全书,什么东西不知道,直接上淘宝找卖差不多的东西的卖家,基本上 3 家之内就有卖家给你详细解释那是什么东西了。”

“比如你在街上看到一样很有趣的东西,但是你不知道它叫什么。你可以上淘宝搜。比如你在银行排队的时候会有那些分割队伍的类似警察用的警戒线的东东。你上百度搜 ‘银行 排队’ 是搜不出来的,但你上淘宝搜,立马就有了。”

“画画的表示,可以当素材库找参考图使用。比如想画美腿就搜索 ‘丝袜’。物品的拍摄角度都非常齐全,比图鉴书还强。”(来自用户 Chie

甚至,居然还有人用淘宝做物理题——方法是找一个卖水泵的,对他询问:“您好,我需要一台水泵,在一分钟内可以将 5 吨水从地下 9 米处抽上来需要买多大功率的?”——卖家的答案是 100KW。(来自微博用户 @奸胸

03

只要你会用,淘宝可以成为比想象中还要完美的搜索引擎。尽管卖家可能存在货不对版之类的问题(也已经不多见了),但是任何卖家,不管是不是奸商,都是带着一颗想让用户信任自己的心——这让他们在产品说明、导购和任何售前服务方面都有动力做到 “童叟无欺”。小二们具备比单纯的网络搜索更完善的解读,甚至可以让真人客服一对一沟通(上面说过了,你不用非得买东西)。

淘系产品还能解决的另一大显著的问题,就是搜索过程中的信任问题。这其实也是通用搜索最核心的问题。支付宝几天前上线了一个 “找药” 功能,可以查询某款药品在网上登记的零售价。该功能推出后当然有不少人想到百度,但是正如一位 cnBeta 网友说的:“百度搜出来的药,你敢用吗?

作为众多国民 “钱包” 的支付宝,其本身就是淘宝成长过程中的衍生品,而蚂蚁金服下面的芝麻信用,又是国内应用最广泛的互联网信用体系。各种 “敢赔” 确立了阿里系产品与传统搜索巨头区别明显的信用基因。

下一代入口的争夺:技术背后是资源

7 月 5 日,阿里人工智能实验室在北京揭开了神秘面纱,这是和 iDST 平级的阿里内部顶尖的科研机构。而伴随这一揭幕而来的是阿里智能音箱天猫精灵 X1。再一次,阿里和亚马逊选择了几乎一样的载体作为它们眼中的下一代互联网入口。

没有人会否认亚马逊 Echo 音箱在探路方面的先行意义,它的诞生曾是亚马逊实验室内部一个副产品,还曾被搁置数年。而搁置 Echo 的原因,正好就是为上文提到的被亚马逊寄予厚望却折戟沉沙的 Fire Phone 让路。

阿里和亚马逊连续两代概念产品都 “巧合” 地惊人一致,这更是体现了两家公司在基因上的高度相似。而两家的研发人员则沿着各自不同的开发道路,用不同的方法实现了同样的目的。

不管是用摄像头,还是用语音,未来搜索肯定不是正襟危坐或紧盯手机,用打字的方式输入关键字,已经成为至少是阿里和亚马逊的共识。而 Facebook、微软和最近的苹果都把 VR、AR 作为另一个突破口。不使用传统的搜索框搜索意味着更大的可能性,人工智能年代的新互联网入口将和我们原本想象的大为不同。

04

从诺基亚到雅虎,先驱变 “先烈” 的多个例子说明,在范式切换的关键时刻,传统巨头往往多有掣肘,不愿放弃过去的荣耀,而没有历史包袱的进化会更彻底。百度肯定也深知这一点,所以在近期的转型当中大刀阔斧地抛弃了很多历史包袱——但还不够多;而且与此同时,放弃自身造血功能的冒险也带来更大的不确定性。在 BAT 三巨头的相对比较中百度正处于暂时落后的局面,它全都要看这次破釜沉舟的转型结果如何,才能决定它未来的命运。

但凡事并不是只有决心就能做到的,时势的变化可能是更关键也更不可逃避的因素。一个最大的改变是,至少在中国互联网,当初百度草创时期的 “草莽英雄” 年代已经不复存在,变成了巨头分而治之,“阶级固化” 的生态环境。

在当今网络生态日渐 “围墙花园” 化的现实中,谁家的自身生态能拥有更多信息,搜索就能做到更精准。而生态圈是百度相比阿里和腾讯一直以来的短板。百度以搜集和梳理信息见长,它却没有更多属于自己的信息。一旦未来因竞争而以邻为壑,百度的基础搜索体验都会受到波及。

技术背后的资源储备,是微信 “搜一搜” 初露头角之后马上引发高度关注的理由,同时也是阿里切入通用搜索背后的坚实依据:阿里大文娱提供的线上内容资源,支付宝口碑、到位提供的线下资源,高德、飞猪提供的物流出行信息,以及阿里应用分发提供的应用信息,都是可供利用的宝贵资源,假如能全部整合,可以基本覆盖中国网民全天候生活的各个角落。

如果 “拍立淘” 和天猫精灵等产品能帮助阿里确立一个互联网入口的身份,它在下一代互联网竞争中的胜算将大大增加。百度、阿里等现在的巨人初创之时,还允许一家只有技术的公司,利用开放的互联网资源获取竞争优势,而现在则更多是带上家底的比拼。在我们畅想谁会成为下一个互联网入口的时候,这是我们不得不考虑的问题。