Beam  - 分布式知识图谱存储
小码哥 2019-08-17 14:44:40

Beam 是一种知识图谱存储,也可称为 RDF 存储或三元组存储,由 eBay 开源。知识图谱适合建模世界知识百科这样通过复杂关系高度互联的数据。例如,Wikidata 是一种以结构化数据和关系表示维基百科的数据集,非常适合于知识图谱表示。知识图谱存储支持对数据执行多样性查询,提供实时数据接口、辅助机器学习应用,以及基于现有知识理解非结构化的新信息。

Beam 实现为分布式存储,在设计上支持无法被单一服务器有效存储的大规模图。Beam 可通过水平扩展支持高性能查询和大规模数据集。虽然 Beam 的写入速度无法扩展,但其部署通常可支持每秒数万次数据更改。eBay 已运行由 20 台服务器组成的 Beam 部署和离线用例近一年时间,通常情况下已经加载了 25 亿条事实数据。此外,Beam 使用类似于 RDF 的数据表示,支持类 SPARQL 查询语言。

注:在知识图谱中,数据以单一表模式表示事实。每个事实条目包括主体(Subject)、谓词(Predicate)和客体(Object)三个元素。这种事实条目表示方式,支持存储根据复杂查询灵活组织数据,并通过推理提高数据的抽象层级。下表列出了小部分知识图谱的表示:

主体 谓词 客体
<John_Scalzi> <born> <Fairfield>
<John_Scalzi> <lives> <Bradford>
<John_Scalzi> <wrote> <Old_Mans_War>