奇简 Terark:数据压缩存储方面,我们超越了 Facebook、Google | 创业

如今,人类已然进入了大数据时代。

根据 IDC 于 2012 年提供的数据,2011 年全球数据总量仅为 1.8ZB,预计到 2020 年,全球数据总量将涨至 35ZB。不过,IDC 当时的预测似乎还是太过保守了,其目前最新的报告已经将 2020 年全球数据总量预测值提升到了 44ZB(1ZB=1 万亿 GB)。

而数据量如此大幅度的增长将对 IT 行业带来极大的压力!

奇简 Terark 联合创始人郭宽介绍,在数据量越来越大的同时,用户对网络服务的体验要求也在不断提高,这就对企业的数据存储效率、服务响应速度都提出了越来越高的要求。虽然硬盘等存储介质在降价,但数据增长的速度更快,这将导致 IT 企业的综合成本继续上升。

既然找到了行业痛点,那就要尝试解决问题。郭宽认为,行业急需“为企业节省大量存储成本(也间接降低运维成本)”的技术,于是,2015 年底,他与另一个联合创始人雷鹏一起成立了这家专注于数据压缩存储和数据检索的 奇简 Terark

性能秒杀 Facebook、Google 同类产品

据了解,奇简研发了他们的杀手级产品——核心存储引擎 TerarkDB。从其对外公布的资料看,TerarkDB 的性能已经超越 Facebook、Google、Berkeley 的同类产品,不但占用空间更小,而且检索更快,压缩率可达到同类产品的 5~10 倍,能为大数据应用提高 10 倍性能,同时成本更是可以降低 50% 以上。

具体来说,800G 的 TPC-H 数据,利用 Terark 技术压缩后仅为 47.9G。显然,TerarkDB 的诞生对大数据技术领域具有极其重要的意义。

根据市场预测,2020 年中国大数据的市场容量会超过 8000 亿美元,届时将成为全球第一大数据中心,数据压缩不单意味着成本的节约,甚至可能成为限制其能否规模化发展、在激烈竞争中为最终用户提供优质服务的瓶颈。因此,郭宽认为未来中国乃至世界市场对数据压缩技术有着刚性需求,而 Terark 正好处于迎接风口的极佳位置。

“我们的技术核心优势是压缩率和随机读性能,目前我们在全球范围内还没有发现和我们类似的算法。”郭宽表示,“当然,其他算法也在不断优化更新,我们需要做的就是尽快让更多的生态接纳我们,从生态上构建壁垒。”据悉,在生态构建方面,Terark 曾为猎豹、新浪等早期客户提供服务,现为阿里云核心数据技术供应商,以及京东 OCR 技术供应商。

另外,郭宽还强调 TerarkDB 作为一个存储引擎,可以嵌入 MongoDB、MySQL、SSDB 等现有的存储系统中,也可以直接作为独立的存储系统进行使用。因此,其并不是传统存储系统的竞争对手。

不可小觑的研发实力

据介绍, Terark 团队成员主要来自于 Yahoo、Google、Microsoft、Baidu 等知名企业,技术专家占比 85%,具有技术发展前瞻性与强大的技术研发能力。 其中,郭宽本人是前谷歌与百度的软件工程师。

在技术储备上面,Terark 已拥有自主发明的可检索压缩 SeComp 技术、索引技术、手机检索技术等六项国内、国际专利。陆续发布了应用于云、数据库、手机等领域的 Terark 存储引擎、数据库、多正则匹配引擎、移动端检索引擎产品。

值得一提的是,正是因为 Terark 对大数据时代将要面临的问题有清晰的认知,并找到了解决问题的关键办法,去年 1 月,作为中国本土技术创业公司,Terark 获得了仅有千分之一通过率的美国硅谷著名孵化器 Y Combinator 的严格评估筛选,成功加入 YC 训练营。

关于未来规划,郭宽表示他们将继续关注于商业存储引擎的研发,不断为更多产品提供底层引擎和算法的支持,并在短期内不会涉及上层应用。

而既然 Terark 具有高性能的数据搜索技术,那其是否会考虑进军搜索引擎市场呢?

对此,郭宽表示,Terark  的技术和搜索引擎并无直接关系,但搜索引擎的部分数据,可以存储在我们的存储引擎上以获得更好的性能。“未来如果资本充足,我们不排除切入一些能够充分发挥我们优势的领域,但短期内还是专注于存储引擎和存储算法。”

据悉,2016 年,Terark 获得了 500 万人民币的天使轮融资,由合力投资与道合资本合投,且去年已基本实现盈利。

相关阅读:《A Chinese company is making the cloud 200x faster》

 

注:题图来自 123RF