Hadoop 之父 Doug Cutting:Hadoop 天然契合 AI 发展需求

Doug Cutting

据了解,大数据开源框架 Hadoop 之父 Doug Cutting 十年前创建 Hadoop 架构的时候,仅仅只是为了使得网络搜索更快更完整。但由于其创造性地实现了多运算设备的分布式计算,不仅运算性能得以大幅度提升,更使得系统的成本得以大幅度降低,并适应当今大数据乃至人工智能时代下的海量数据技术需求,该技术也逐渐被各行各业所采用。比如,它帮助 Facebook 分析其每月超过 16 亿的用户流量,帮助 Visa 发现了数十亿美元的金融欺诈等。

由于 Hadoop 深受客户欢迎,许多公司都推出了各自版本的 Hadoop,也有一些公司则围绕 Hadoop 开发产品。在 Hadoop 生态系统中,规模最大、知名度最高的公司则是 Cloudera,甚至连 Hadoop 之父 Doug Cutting 本人也加入了这家公司担任首席架构师职务。近日,我们对他进行了采访。

Hadoop+人工智能,大有可为

“因为 AI 本身就是一种大数据的应用。特别是在对于 AI 的系统进行训练的时候,使用的数据越多,AI 系统就越先进。”因此,Doug Cutting 认为 Hadoop 和 AI 之间是非常适合、非常匹配的一项技术。

虽然深度学习随着大数据的红利消耗殆尽,其天花板日益迫近(深度学习的局限性尤其体现在依赖大规模标注数据和难以有效利用先验知识等方面),以至于很多人开始认为知识图谱将成为人工智能发展的关键。比如 Google 为了让人们网络搜索更加完整,早在 2012 年便已经推出了知识图谱项目,并且越来越受行业认可。

对此,Doug Cutting 坚持认为,在推动人工智能的过程中,知识图谱的方法没有统计学方法(即深度学习)那么成功。“人工智能在当今取得的成功,主要依靠的是统计学的方法,也就是基于巨量数据的各种模型的训练,而不是通过知识工程的方式。知识工程在八十年代就已经非常流行了,在我还当学生的时候知识工程就很流行。”

虽然 Doug Cutting 并不认为知识图谱的方式永远不会成功,但他也强调“目前的现状当中(知识图谱)的确不如统计学的方法更加有效”。

开源能使生态更加繁荣和兼容

据了解,得益于技术的开源性,Hadoop 并不是某一个单独的技术,而是基于多种技术组成的系列家族,整个技术系列是在不断发展和演进之中,按照 Doug Cutting 的说法那就是:“围绕着 Hadoop 现在已经形成了非常强大的生态系统,Hadoop 整体生态系统的演进和发展并不受制于其中的任何一种组成的技术。”这就意味着生态更加兼容。

比如,Hadoop 虽然最初只是针对搜索引擎而开发的,在如今 AI 与 IoT 物联网领域也已经出来了各种各样的更具针对性的性能也更佳好的开源软件,这些新的开源软件是否会取代 Hadoop?Doug Cutting 的答案是不会!“因为在开源的世界当中,竞争的逻辑是不一样的,没有哪个公司是拥有开源的技术。每当开源的技术有了新的发明或进展,开源群体的每一分子都会受益于其中。比方说如果在有一些领域会出现新的技术,在某些方面会优于 Hadoop,那 Cloudera 也会毫无疑问去采纳这样的技术放到我们的解决方案当中去交付给客户。”Doug Cutting 如此表示。

这里最明显的一个例子便是加州大学伯克利分校 AMP 实验室所开发的 Spark,Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,尤其是 2014 年 10 月他们完成了 Peta sort 的实验,这标志着 Spark 越来越接近替代 Hadoop MapReduce 了。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。实际上 Cloudera 也已经将 Spark 纳入到了他们的服务之中了。

Doug Cutting 强调,“新的技术的涌现,能够使得开源的整个生态系统进一步得到发展和改进,这对于整个开源的生态系统来说是一件好事。”

另外 Doug Cutting 还表示,他们也在构建更多基于 Spark 机器学习的工具,与之相关的有一个项目叫 Apache Spot,它是一个网络安全的能力,帮助的客户保护他们的网络安全,免遭黑客的攻击,“这是我们在 Hadoop 和 Spark 基础上进一步的推进。”Doug Cutting 表示。

开源软件另一巨大优势就是低成本

Doug Cutting 认为对于企业而言,成本永远都是他们不能不考虑的事情,而开源则在成本上有着天然的优势。“首先我们的软件是开源的,而且我们所有解决方案能够使用普通的商用硬件,所以和上一代相比成本有大幅度降低。而且我们认为今天这种低成本的架构是可以去运行很多其他的应用,只不过有很多其他的应用暂时还没有用上低成本的架构,还有进一步降低成本的潜力。”

Doug Cutting 发现目前除了在云环境下,亚马逊、微软和谷歌的云平台之上会有一些用户,他们的大数据应用使用的是专有的商用软件服务。“但是我认为假以时日,这些客户会再次认识到在云中使用开源的大数据解决方案,具备成本更低、质量更高的优势,因为使用开源的解决方案使客户可以在不同的云环境之间自由迁移。”Doug Cutting 如此表示:“迄今为止,这些在大数据领域的商业或者专有软件给 Cloudera 带来的威胁,我认为并不是一个严重的威胁。”

云模式将越来越高,但不可能达到 90%

目前在 Hadoop 的部署方面,业内已经越来越倾向于云模式了,Doug Cutting 也认为云计算、云模式使得客户在使用 Hadoop 的方式上具有了更大的灵活性,“如果他们把 Hadoop 用本地安装运行的形式来使用的话,他们往往是建一个单个很大的集群来支持各种不同的应用,并且拥有一个统一的数据拷贝。如果在云环境当中来运行 Hadoop,他们的数据会在亚马逊存储之类的系统当中,云环境供应商已经帮助他们管理了数据的拷贝。与此同时,在云环境当中使用 Hadoop,在这样的使用场景中,客户可以针对不同的应用创建应用不同的集群,而这样的集群开关或者是规模的伸缩,都可以按需进行,这样对于客户来说,他们对于应用有了更好控制的同时也增加了灵活性。”

另外,“由于有云计算使得一个公司当中非 IT 部门,例如运营、制造、市场营销部门都能够自行采购一些服务并且加以运行,他们的控制能力和灵活性都大大增加了。”Doug Cutting 认为云计算也是促进了 IT 和数据由过去那种集中化的模式向分散化、自助化转变的进程。

而 Cloudera 大概在 3 年之前顺应趋势推出了相关的云服务,“就 Cloudera 而言,我们目前的业务以云模式做的占到了 15%到 20%,这肯定会增长。我预计将来会达到 40%到 60%,但是不会到 90%。”Doug Cutting 认为云端部署与闲暇实体部署在未来若干年当中会长期共存下去。

“比方说对于一些数据量非常之大,而且本身企业的处理资源很强的客户来说,很多的工作负载特别是像需要全天候永续运行的工作负载是放在本地的物理机上运行,经济实用性更强,扩展性也更强。另外对于其他一些类型的工作负载,包括对于一些刚刚起步的企业来说,可能放在云环境当中运行更加合适。还有一些工作负载或者是数据的处理,由于受制于法律上的要求,规定必须要放在本地的物理机当中来运行的。”Doug Cutting 建议。


初创公司报道

这家成立于2014年3月的公司,构建了一套NR人岗匹配评测模型,该模型通过1000个维度的建模精准匹配候选人,让适合东家的人选和适合求职者的岗位从茫茫的数据海中脱颖而出,告别全选群发和批量操作造成的信息泛滥和信息忽略。