当前位置: X-MOL 学术Network Science › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
Quality issues in co-authorship data of a national scientific community
Network Science Pub Date : 2023-01-20 , DOI: 10.1017/nws.2022.40
Domenico De Stefano , Vittorio Fuccella , Maria Prosperina Vitale , Susanna Zaccarin

A stream of research on co-authorship, used as a proxy of scholars’ collaborative behavior, focuses on members of a given scientific community defined at discipline and/or national basis for which co-authorship data have to be retrieved. Recent literature pointed out that international digital libraries provide partial coverage of the entire scholar scientific production as well as under-coverage of the scholars in the community. Bias in retrieving co-authorship data of the community of interest can affect network construction and network measures in several ways, providing a partial picture of the real collaboration in writing papers among scholars. In this contribution, we collected bibliographic records of Italian academic statisticians from an online platform (IRIS) available at most universities. Even if it guarantees a high coverage rate of our population and its scientific production, it is necessary to deal with some data quality issues. Thus, a web scraping procedure based on a semi-automatic tool to retrieve publication metadata, as well as data management tools to detect duplicate records and to reconcile authors, is proposed. As a result of our procedure, it emerged that collaboration is an active and increasing practice for Italian academic statisticians with some differences according to the gender, the academic ranking, and the university location of scholars. The heuristic procedure to accomplish data quality issues in the IRIS platform can represent a working case report to adapt to other bibliographic archives with similar characteristics.



中文翻译:

国家科学界共同作者数据的质量问题

一系列关于共同作者的研究被用作学者合作行为的代表,重点关注在学科和/或国家基础上定义的给定科学界的成员,必须检索共同作者数据。最近的文献指出,国际数字图书馆提供了整个学者科学生产的部分覆盖以及社区学者的覆盖不足。在检索利益共同体的共同作者数据时存在偏差会以多种方式影响网络构建和网络度量,从而部分了解学者之间在撰写论文时的真实合作情况。在本文中,我们从大多数大学可用的在线平台 (IRIS) 收集了意大利学术统计学家的书目记录。即使保证了我们人口的高覆盖率和科学生产,也需要处理一些数据质量问题。因此,提出了一种基于半自动工具检索出版物元数据的网络抓取程序,以及用于检测重复记录和协调作者的数据管理工具。根据我们的程序,发现合作是意大利学术统计学家积极且日益增长的实践,根据性别、学术排名和学者的大学所在地存在一些差异。在 IRIS 平台中解决数据质量问题的启发式程序可以代表工作案例报告,以适应具有类似特征的其他书目档案。需要处理一些数据质量问题。因此,提出了一种基于半自动工具检索出版物元数据的网络抓取程序,以及用于检测重复记录和协调作者的数据管理工具。根据我们的程序,发现合作是意大利学术统计学家积极且日益增长的实践,根据性别、学术排名和学者的大学所在地存在一些差异。在 IRIS 平台中解决数据质量问题的启发式程序可以代表工作案例报告,以适应具有类似特征的其他书目档案。需要处理一些数据质量问题。因此,提出了一种基于半自动工具检索出版物元数据的网络抓取程序,以及用于检测重复记录和协调作者的数据管理工具。根据我们的程序,发现合作是意大利学术统计学家积极且日益增长的实践,根据性别、学术排名和学者的大学所在地存在一些差异。在 IRIS 平台中解决数据质量问题的启发式程序可以代表工作案例报告,以适应具有类似特征的其他书目档案。以及用于检测重复记录和协调作者的数据管理工具。根据我们的程序,发现合作是意大利学术统计学家积极且日益增长的实践,根据性别、学术排名和学者的大学所在地存在一些差异。在 IRIS 平台中解决数据质量问题的启发式程序可以代表工作案例报告,以适应具有类似特征的其他书目档案。以及用于检测重复记录和协调作者的数据管理工具。根据我们的程序,发现合作是意大利学术统计学家积极且日益增长的实践,根据性别、学术排名和学者的大学所在地存在一些差异。在 IRIS 平台中解决数据质量问题的启发式程序可以代表工作案例报告,以适应具有类似特征的其他书目档案。

更新日期:2023-01-20
down
wechat
bug