大数据时代,随着多元化数据的大量出现,数据信息的关联越来越复杂,如何高效存储海量数据,如何快速处理复杂的数据集合,如何掌握住数据之间的关系进而发挥数据融合的价值?这些问题日益突出。在此情境下,在9月4日2018 ABC SUMMIT百度云智峰会“AI安全与安全生态”分论坛上,百度安全宣布全面开源HugeGraph技术,最大程度的发挥大数据时代数据的价值。
关系数据库不堪重负,图数据库应运而生
随着社交网络、移动互联网和IoT等新的互联网应用不断涌现,用户、系统和传感器产生的数据呈指数级增长,数据内部依赖和复杂度增加。在应对这些新的趋势时,传统的关系型数据库产生了较多的不适用性。因此过去的几年间,出现了许多新型数据库来互相配合或替代关系数据库,它们被统称为NoSQL数据库。据db-engines.com对所有数据库种类发展趋势的分析显示,在各种类型的NoSQL数据库中,图数据库是其中关注度最高,也是发展趋势最明显的一种数据库类型。
图数据库是基于图论的数据库,其基本含义是以“图”这种数据结构存储和查询数据,是一种新型数据库,可以为复杂的网络数据提供解决方案。以分析社交网络里好友的动态为例,如果用传统的数据库设计,就会有用户表、用户好友动态表、用户好友点赞表等一系列的表,然后把这些表关联起来进行查询,效率极低。而如果用图数据库来存储,就可以把刚才所有的表纳入到一张图里面,通过图来解决所有的问题。从形式上来说图数据库更接近于人类思维方式和现实世界万事万物的关联性。
此次百度安全开源的图数据库HugeGraph,是百度安全团队基于安全特定场景和实际运营中的业务需求衍生出的一款面向分析型、支持批量操作的图数据库系统。它能够与大数据平台无缝集成,有效解决海量图数据的存储、查询和关联分析需求。它可以存储海量的顶点(Vertex)和边(Edge),实现ApacheTinkerPop 3框架,支持Gremlin查询语言。值得一提的是,HugeGraph拥有良好的读写性能,根据安全场景的需求,对HugeGraph的核心功能(例如批量写入、最短路径、N度关系等)做了重点优化,与常见图数据库相比较,HugeGraph拥有明显的性能优势。
打击网络黑产,HugeGraph多场景助力网络安全治理
百度安全每天需要处理大量的日志数据,并对数据进行挖掘分析以识别各种安全问题,HugeGraph为安全业务提供关联分析能力。百度安全已将HugeGraph应用到安全数据治理项目中,例如网址安全检测、威胁情报分析、设备关系图谱和数据安全治理等领域,实施安全数据治理策略。
在网址安全检测中,百度安全利用HugeGraph存储的网站基本信息,来分析站点之间的关系,防止用户通过搜索引擎入口访问恶意网站,另外从链接关系入手,结合PageRank等图挖掘算法,来挖掘网站的异常链接,识别网络黑产;在设备关系图谱和数据安全治理领域,百度安全利用HugeGraph存储的设备信息,通过ID-Mapping和关联分析,精确识别黑产作弊设备,并为业务风控提供细粒度的反作弊策略;在威胁情报处理方面,百度安全利用HugeGraph将恶意攻击记录等信息结合构建威胁情报关系网,为风控业务和安全应急响应中心提供服务,另外在伪造设备识别、群控挖掘、自然人识别等方面,HugeGraph也发挥了很大的作用。
目前,HugeGraph已经在GitHub上实现开源,并包含数据导入、可视化的IDE、命令行、RESTFul API、Client等一系列工具集,欢迎开源社区、工业界、学术界的用户支持和贡献。HugeGraph体系下包含了十多个关联子项目,具体包括HugeGraph、HugeGraph-Client、HugeGraph-Loader、HugeGraph-Studio等。