big date

据IDC研究报告统计,到2020年全球数据总量预计会达到40ZB,相当于平均每人拥有5247GB的数据。“目前全世界有 80%以上的数据都属于非结构化数据,而这些非结构化的数据对技术人员来说都难以阅读和识别。”互利科技创始人林坦表示。

虽然看似杂乱无章,但实际上隐藏着巨大的价值,比如利用Web日志数据,可以查询并修补网站漏洞,进行用户画像分析等。不过,由于数据量太过巨大,超出了很多分析系统和分析人员的能力,传统的分析方式很难从海量的机器数据中快速获得有效结论。

既然市场上有痛点,那就必然会有创业者出来试图解决这个问题。在国外,Splunk算是大数据处理行业内的典型企业,它是纳斯达克第一家大数据领域上市公司,估值已经近百亿了。而在国内,类似创业公司还不算多,由于看好中国的市场,2015 年初,曾在亚马逊总部负责全球交易系统以及存储系统的工程师林坦开始回国创业,成立北京互利科技并上线了一个名叫HOOLI的实时数据分析平台,主要帮助企业用户实现数据集中管理,包括为服务器日志,业务日志,网络数据,传感器数据等提供实时索引统计、实时告警、准确探测潜在漏洞及洞察用户行为等服务。

image002

林坦表示,由于现在服务器等设备广泛采用了分布式设计,想要在这种分布式数据中定位问题所在非常困难。因此,互利科技首先会将分散在各机器上的机器数据收集起来统一管理,再将非结构化的数据结构化,抽取有意义的字段,并用实时数据处理技术对这些数据建立索引,用户可以根据任意关键字去搜索相关信息,让非结构化的数据搜索变得像使用搜索引擎一样简单。除此之外,HOOLI还提供数据的可视化展示、多维度的数据关联统计、实时监控告警等功能。

安全检测、运维诊断和数据洞察是HOOLI最典型的三个应用场景:

安全监测

企业为保证信息的安全性,会部署大量的防火墙、入侵检测系统、虚拟专用网等安全设备,这些设备产生大量的机器数据,包含各种可疑行为,通过对这些信息的分析和挖掘,将为网络安全的防御、检测和响应提供重要帮助。

HOOLI可以采集各个安全设备的数据,并通过统一的接口整合输出,帮助安全管理人员从全局的角度分析整体安全态势,并对这些数据持续监控和自动分析,从多维度发现APT攻击等异常状况并提供告警。

比如利用HOOLI可以快速审计“字典攻击”(黑客利用一些自动执行的程序猜测用户名和密码):

  1. 将各个安全设备数据集中接入HOOLI数据分析中心,HOOLI自动对上传的大量数据进行解析并建立索引。
  2. 按短语查询“failed password”(代表用户输错密码),观察视图并检查存在异常的搜索结果,比如“failed password”事件在某一时间段内集中发生,或者在非工作时间发生的“failed password”事件等,根据观察的结果缩小搜索时间范围。
  3. 在视图界面选择关键字“clientip”(代表客户端IP),实时掌握该时间段攻击者IP。

运维诊断

如今的企业在IT信息处理方面面临比以往更加复杂的局面,服务器等网络设备运行中不断生成机器数据的速度已经远远超过人类分析的速度。而且,高容错性也使得在处理分布式数据时无法或者很难定位问题所在,开发运维效率低下。因此,在系统异常时,查找原因速度慢,可能会给企业带来巨大的损失。林坦为此还举了个例子:2015年,亚马逊一次20分钟的交易系统故障便造成了375万美元的损失。

为此,HOOLI为用户提供了数据传输和高速接入服务,实时处理多类型海量数据,并对其做出多纬度指标分析统计和监测,从而保证故障快速定位和及时响应,提升问题解决效率和企业对用户的服务质量。

比如,在HOOLI平台上可以这样跨服务器检查网路访问异常:

  1. 将多台服务器产生的日志数据集中接入HOOLI。
  2. 以“400”错误(由于语法格式有误,服务器无法理解此请求)为例,根据“session_id”(服务器ID)和“status:400”过滤日志信息。
  3. 在字段表选择“request”字段的所有值,检查在过滤后得到的结构化日志信息里,哪些URI存在语法错误。

数据洞察

用户画像分析对商品的改进与产品的精准化营销方面至关重要,而通过Web日志挖掘便可以实现用户画像分析。

网站服务器接收到请求后会建立一条Web日志,记录内容包括:远程主机名(或者是IP地址)、登录名、登录全名、发请求的日期、发请求的时间、请求的详细(包括请求的方法、地址、协议)、 请求返回的状态、请求文档的大小。通过分析这些数据,从而发现Web用户的访问模式和兴趣爱好等。

而通过HOOLI平台,网站管理员可以通过简单的搜索,查询访问来源、新增访问用户、访问者地域分布、当日活跃用户等信息生成可视化报表等。“相对于市场上其他产品,HOOLI更加专业,可以提供个性化的查询结果。”林坦还举例表示,“我们可以提供比如某地的、使用某客户端的新增用户的数据分析等。”

目前,HOOLI对TB级别的数据量可以在秒级返回解析结果,比较于传统的数据分析方案效率提升了几十倍。

融资方面,互利科技于去年年底完成天使轮融资,投资方为华兴资本。目前团队规模约20人,客户来自大型电商,也有通讯、政府、咨询等行业。