当前位置: X-MOL 学术Semant. Web › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Characteristic sets profile features: Estimation and application to SPARQL query planning
Semantic Web ( IF 3 ) Pub Date : 2022-09-05 , DOI: 10.3233/sw-222903
Lars Heling 1 , Maribel Acosta 2
Affiliation  

Abstract

RDF dataset profiling is the task of extracting a formal representation of a dataset’s features. Such features may cover various aspects of the RDF dataset ranging from information on licensing and provenance to statistical descriptors of the data distribution and its semantics. In this work, we focus on the characteristics sets profile features that capture both structural and semantic information of an RDF dataset, making them a valuable resource for different downstream applications. While previous research demonstrated the benefits of characteristic sets in centralized and federated query processing, access to these fine-grained statistics is taken for granted. However, especially in federated query processing, computing this profile feature is challenging as it can be difficult and/or costly to access and process the entire data from all federation members. We address this shortcoming by introducing the concept of a profile feature estimation and propose a sampling-based approach to generate estimations for the characteristic sets profile feature. In addition, we showcase the applicability of these feature estimations in federated querying by proposing a query planning approach that is specifically designed to leverage these feature estimations. In our first experimental study, we intrinsically evaluate our approach on the representativeness of the feature estimation. The results show that even small samples of just 0.5% of the original graph’s entities allow for estimating both structural and statistical properties of the characteristic sets profile features. Our second experimental study extrinsically evaluates the estimations by investigating their applicability in our query planner using the well-known FedBench benchmark. The results of the experiments show that the estimated profile features allow for obtaining efficient query plans.



中文翻译:

特征集配置文件特征:SPARQL 查询计划的估计和应用

摘要

RDF 数据集剖析是提取数据集特征的正式表示的任务。这些特征可能涵盖 RDF 数据集的各个方面,从许可和出处信息到数据分布及其语义的统计描述符。在这项工作中,我们专注于捕获 RDF 数据集的结构和语义信息的特征集配置文件特征,使它们成为不同下游应用程序的宝贵资源。虽然以前的研究证明了特征集在集中式和联合查询处理中的好处,但对这些细粒度统计数据的访问被认为是理所当然的。然而,特别是在联合查询处理中,计算此配置文件特征具有挑战性,因为访问和处理来自所有联邦成员的全部数据可能很困难和/或成本很高。我们通过引入轮廓特征估计的概念来解决这个缺点,并提出一种基于采样的方法来生成特征集轮廓特征的估计。此外,我们通过提出一种专门设计用于利用这些特征估计的查询规划方法来展示这些特征估计在联合查询中的适用性。在我们的第一个实验研究中,我们从本质上评估了我们关于特征估计代表性的方法。结果表明,即使是小样本 我们通过引入轮廓特征估计的概念来解决这个缺点,并提出一种基于采样的方法来生成特征集轮廓特征的估计。此外,我们通过提出一种专门设计用于利用这些特征估计的查询规划方法来展示这些特征估计在联合查询中的适用性。在我们的第一个实验研究中,我们从本质上评估了我们关于特征估计代表性的方法。结果表明,即使是小样本 我们通过引入轮廓特征估计的概念来解决这个缺点,并提出一种基于采样的方法来生成特征集轮廓特征的估计。此外,我们通过提出一种专门设计用于利用这些特征估计的查询规划方法来展示这些特征估计在联合查询中的适用性。在我们的第一个实验研究中,我们从本质上评估了我们关于特征估计代表性的方法。结果表明,即使是小样本 在我们的第一个实验研究中,我们从本质上评估了我们关于特征估计代表性的方法。结果表明,即使是小样本 在我们的第一个实验研究中,我们从本质上评估了我们关于特征估计代表性的方法。结果表明,即使是小样本0.5%原始图的实体允许估计特征集轮廓特征的结构和统计属性。我们的第二个实验研究通过使用著名的 FedBench 基准调查它们在我们的查询计划器中的适用性来外部评估估计。实验结果表明,估计的配置文件特征允许获得有效的查询计划。

更新日期:2022-09-05
down
wechat
bug