Doug Cutting

据了解,大数据开源框架Hadoop之父Doug Cutting十年前创建Hadoop架构的时候,仅仅只是为了使得网络搜索更快更完整。但由于其创造性地实现了多运算设备的分布式计算,不仅运算性能得以大幅度提升,更使得系统的成本得以大幅度降低,并适应当今大数据乃至人工智能时代下的海量数据技术需求,该技术也逐渐被各行各业所采用。比如,它帮助Facebook分析其每月超过16亿的用户流量,帮助Visa发现了数十亿美元的金融欺诈等。

由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera,甚至连Hadoop之父Doug Cutting本人也加入了这家公司担任首席架构师职务。近日,我们对他进行了采访。

Hadoop+人工智能,大有可为

“因为AI本身就是一种大数据的应用。特别是在对于AI的系统进行训练的时候,使用的数据越多,AI系统就越先进。”因此,Doug Cutting认为Hadoop和AI之间是非常适合、非常匹配的一项技术。

虽然深度学习随着大数据的红利消耗殆尽,其天花板日益迫近(深度学习的局限性尤其体现在依赖大规模标注数据和难以有效利用先验知识等方面),以至于很多人开始认为知识图谱将成为人工智能发展的关键。比如Google为了让人们网络搜索更加完整,早在2012年便已经推出了知识图谱项目,并且越来越受行业认可。

对此,Doug Cutting坚持认为,在推动人工智能的过程中,知识图谱的方法没有统计学方法(即深度学习)那么成功。“人工智能在当今取得的成功,主要依靠的是统计学的方法,也就是基于巨量数据的各种模型的训练,而不是通过知识工程的方式。知识工程在八十年代就已经非常流行了,在我还当学生的时候知识工程就很流行。”

虽然Doug Cutting并不认为知识图谱的方式永远不会成功,但他也强调“目前的现状当中(知识图谱)的确不如统计学的方法更加有效”。

开源能使生态更加繁荣和兼容

据了解,得益于技术的开源性,Hadoop并不是某一个单独的技术,而是基于多种技术组成的系列家族,整个技术系列是在不断发展和演进之中,按照Doug Cutting的说法那就是:“围绕着Hadoop现在已经形成了非常强大的生态系统,Hadoop整体生态系统的演进和发展并不受制于其中的任何一种组成的技术。”这就意味着生态更加兼容。

比如,Hadoop虽然最初只是针对搜索引擎而开发的,在如今AI与IoT物联网领域也已经出来了各种各样的更具针对性的性能也更佳好的开源软件,这些新的开源软件是否会取代Hadoop?Doug Cutting的答案是不会!“因为在开源的世界当中,竞争的逻辑是不一样的,没有哪个公司是拥有开源的技术。每当开源的技术有了新的发明或进展,开源群体的每一分子都会受益于其中。比方说如果在有一些领域会出现新的技术,在某些方面会优于Hadoop,那Cloudera也会毫无疑问去采纳这样的技术放到我们的解决方案当中去交付给客户。”Doug Cutting如此表示。

这里最明显的一个例子便是加州大学伯克利分校 AMP 实验室所开发的Spark,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,尤其是2014年10月他们完成了Peta sort的实验,这标志着Spark越来越接近替代Hadoop MapReduce了。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。实际上Cloudera也已经将Spark纳入到了他们的服务之中了。

Doug Cutting强调,“新的技术的涌现,能够使得开源的整个生态系统进一步得到发展和改进,这对于整个开源的生态系统来说是一件好事。”

另外Doug Cutting还表示,他们也在构建更多基于Spark机器学习的工具,与之相关的有一个项目叫Apache Spot,它是一个网络安全的能力,帮助的客户保护他们的网络安全,免遭黑客的攻击,“这是我们在Hadoop和Spark基础上进一步的推进。”Doug Cutting表示。

开源软件另一巨大优势就是低成本

Doug Cutting认为对于企业而言,成本永远都是他们不能不考虑的事情,而开源则在成本上有着天然的优势。“首先我们的软件是开源的,而且我们所有解决方案能够使用普通的商用硬件,所以和上一代相比成本有大幅度降低。而且我们认为今天这种低成本的架构是可以去运行很多其他的应用,只不过有很多其他的应用暂时还没有用上低成本的架构,还有进一步降低成本的潜力。”

Doug Cutting发现目前除了在云环境下,亚马逊、微软和谷歌的云平台之上会有一些用户,他们的大数据应用使用的是专有的商用软件服务。“但是我认为假以时日,这些客户会再次认识到在云中使用开源的大数据解决方案,具备成本更低、质量更高的优势,因为使用开源的解决方案使客户可以在不同的云环境之间自由迁移。”Doug Cutting如此表示:“迄今为止,这些在大数据领域的商业或者专有软件给Cloudera带来的威胁,我认为并不是一个严重的威胁。”

云模式将越来越高,但不可能达到90%

目前在Hadoop的部署方面,业内已经越来越倾向于云模式了,Doug Cutting也认为云计算、云模式使得客户在使用Hadoop的方式上具有了更大的灵活性,“如果他们把Hadoop用本地安装运行的形式来使用的话,他们往往是建一个单个很大的集群来支持各种不同的应用,并且拥有一个统一的数据拷贝。如果在云环境当中来运行Hadoop,他们的数据会在亚马逊存储之类的系统当中,云环境供应商已经帮助他们管理了数据的拷贝。与此同时,在云环境当中使用Hadoop,在这样的使用场景中,客户可以针对不同的应用创建应用不同的集群,而这样的集群开关或者是规模的伸缩,都可以按需进行,这样对于客户来说,他们对于应用有了更好控制的同时也增加了灵活性。”

另外,“由于有云计算使得一个公司当中非IT部门,例如运营、制造、市场营销部门都能够自行采购一些服务并且加以运行,他们的控制能力和灵活性都大大增加了。”Doug Cutting认为云计算也是促进了IT和数据由过去那种集中化的模式向分散化、自助化转变的进程。

而Cloudera大概在3年之前顺应趋势推出了相关的云服务,“就Cloudera而言,我们目前的业务以云模式做的占到了15%到20%,这肯定会增长。我预计将来会达到40%到60%,但是不会到90%。”Doug Cutting认为云端部署与闲暇实体部署在未来若干年当中会长期共存下去。

“比方说对于一些数据量非常之大,而且本身企业的处理资源很强的客户来说,很多的工作负载特别是像需要全天候永续运行的工作负载是放在本地的物理机上运行,经济实用性更强,扩展性也更强。另外对于其他一些类型的工作负载,包括对于一些刚刚起步的企业来说,可能放在云环境当中运行更加合适。还有一些工作负载或者是数据的处理,由于受制于法律上的要求,规定必须要放在本地的物理机当中来运行的。”Doug Cutting建议。