如果说大数据是 人工智能 时代的石油,你想好如何提炼了吗?

 
人工智能时代,全球每天产生的数据量呈指数级增长。据IDC统计,到2020年,全球数据总量将达到44ZB(十万亿亿字节),中国的数据量将达到8060EB,占全球总量的18%。同时,企业希望通过数据分析的结果增强自身的运营能力,这就要求数据分析速度更快、更高效。
 
尽管市面上现有的大多数基于 CPU 的大数据解决方案已经能处理海量数据,但由于CPU 处理器更新迭代的速度未能呈现如摩尔定律预测的定期翻倍,不能完全满足企业实时分析、高性价比的数据处理需求。
 
“各行各业日益增长的AI数据处理需求与陈旧的 数据库 软硬件体系之间的矛盾,成为人工智能时代的主要矛盾。”常年与数据打交道的星爵(Zilliz创始人兼CEO谢超)发现,GPU性能改进的速度曲线,跟爆炸式数据增长的曲线非常吻合。他判断,基于 GPU 的大数据加速器的创业时机到了。
 
2016年,星爵离开工作6年的数据系统行业巨头甲骨文(Oracle)公司,创办 Zilliz。公司基于众核处理器硬件(如 GPU)研发加速的、面向人工智能的新一代OLAP(联机分析处理)数据库系统。简单来说,Zilliz 要将数据库从CPU 上搬到 GPU 上。
 
把数据库搬到GPU上,效率提高100倍
在星爵看来,Zilliz 的优势之一,是选择切入GPU 数据库市场的时间节点恰到好处。
 
“如何运用GPU加速数据处理速度,在2006年的时候就是学术热点。但根据技术成熟度曲线,技术萌芽期并不是一个好的进入时期。”星爵补充道,之后经过近十年的工业探索,GPU 数据库才真正具备了工业化实力。
 
在过去数十年间,人工智能技术曾因CPU架构下计算能力的限制,裹足不前;OLAP(联机分析处理)数据库技术也由于同样的原因,发展缓慢。
 
相较于CPU的十几核来说,GPU上可以承载数千个处理单元。随着深度学习技术在2012年的突破,GPU 这种大规模并行计算能力开始在人工智能时代彰显价值,GPU 旋即成为主流处理器之一。
 
任何硬件的普及都需要杀手级应用的推动,比如微信之于智能手机、深度学习之于 GPU。“上层软件受下层硬件的约束。”星爵解释,GPU 最早用于图像渲染,多应用在游戏领域,使用范围较窄。
 
作为CPU的协处理器,GPU市场普及程度不佳,导致多年来基于 GPU 的数据库也一直没有发展起来。而如今,英伟达等芯片厂商已经把GPU的生态搭建起来,帮助开发者把门槛降低。“任何人都可以在上面开发应用,就像当初的安卓系统普及一样,现在也有了实现GPU数据库的苗头。”
 
而之所以选择做分析型OLAP 数据库,是因为交易型OLTP(on-line transaction processing)数据库多用于银行交易等场景,对于安全性要求较高,这块市场相对饱和。而OLAP 侧重于决策支持,是 AI 应用的底层支撑,还处于高速增长阶段。
 
并且计算密集型的OLAP 需要分析大量数据,与 GPU 计算力的结合更为成熟。据统计,OLAP 的全球市场规模在200亿美元左右,而目前,全球范围内获得大宗投资的GPU 数据库玩家,包括 Zilliz 在内只有4个(美国的Kinetica、MapD,以色列的SQream)。
 
2016年,星爵创办Zilliz,目前已经组建起一个包含数据库领域、存储领域、异构计算领域、算法优化领域人才的技术团队,2017年12月,Zilliz联合IBM发布了国内首台GPU硬件加速数据库一体机MegaWise。
 
据星爵介绍,与传统的CPU数据库相比,Zilliz基于GPU的OLAP数据库系统,可以将数据处理效率提高30-100倍,同时降低10倍硬件成本、20倍计算能耗。
 
“过去互联网公司做 BI 报表需要30分钟到一小时,工作人员点击操作按钮后就可以去吃饭喝咖啡了。而Zilliz系统可以将时间缩短为3-5秒,提升整个工作流程。”
 
用无感迁移解决部署障碍痛点
美国公司统治了数据库市场若干年,已经建立起了自己的CPU 数据库生态,Zilliz作为一个初创公司,如何打破客户的心里顾虑,在巨头口中抢蛋糕?
 
除了成本和性能,部署的便捷性也是客户在上线新的数据库系统时,重点考量的因素之一。为此,Zilliz提出了一个“无感迁移”的概念。在产品设计之初,研发团队就有针对性地将ETL工具做了相应的兼容,并提供标准的SQL接口。
 
“一个技术应用本质上要服务于业务需求,我们希望用户在接入我们的新数据库时,他的业务层面不会发生改变。”
 
针对私有部署,Zilliz推出搭载英伟达GPU芯片的一体机方案。该一体机采用IBM与英伟达合作开发的NVLink技术作为支撑,提升了数据在CPU与GPU处理器之间的传输速度。
 
另外,针对将数据部署在云端的客户,Zilliz也可以为其提供PaaS服务,在云端为客户提供服务,从而使客户无需采购GPU硬件设备便可以使用。
 
不仅仅是数据库系统本身,Zilliz 还提供数据库系统和人工智能计算框架(Tensorflow和MXNet等)之间的直接数据通道,将人工智能处理引擎融合进数据库执行引擎,提供集数据存储、管理、分析和人工智能处理于一体的OLAP数据库系统。
 
“数据的存储和处理与人工智能处理之间相互分离,是人工智能时代数据处理的痛点之一。分析师和数据科学家有将近80%的工作时间被浪费在数据ETL上。”Zilliz 打通了数据库系统和人工智能计算框架之间的数据通道,提高了 AI 端到端的处理性能。
 
数据库的未来在中国
“我坚信,数据库的未来一定是在中国。”
 
上个世纪,美国是全球数据产生速度最快、最早实现信息化的国家,星爵认为,这也是为什么甲骨文、微软等公司得以诞生在美国的原因。
 
而人工智能时代,得益于人口基数、基础架构,中国拥有世界范围内最大的数据体量、最复杂的使用场景、最多的数据分析需求。“这必然会倒推技术的进步。”
 
Zilliz 瞄准金融、政府、电信、游戏、电商、物联网、零售、物流、能源、医疗等应用领域,已经与金融、电信、公安、互联网头部机构经历了一年的 POC(Proof of Concept),产品迭代到2.0。
 
2017年8月,Zilliz完成完成云启资本领投,靖亚资本、华岩资本跟投的数千万元人民币天使轮融资;2018年1月完成晨兴资本领投,松禾资本、云启资本、靖亚资本跟投的1000万美金A轮融资,并即将开放下一轮融资。