当前位置: X-MOL 学术Curr. Genomics › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
A Deep Clustering-based Novel Approach for Binning of Metagenomics Data
Current Genomics ( IF 2.6 ) Pub Date : 2022-10-17 , DOI: 10.2174/1389202923666220928150100
Sharanbasappa D Madival 1 , Dwijesh Chandra Mishra 1 , Anu Sharma 1 , Sanjeev Kumar 1 , Arpan Kumar Maji 2 , Neeraj Budhlakoti 1 , Dipro Sinha 1 , Anil Rai 1
Affiliation  

Background: One major challenge in binning Metagenomics data is the limited availability of reference datasets, as only 1% of the total microbial population is yet cultured. This has given rise to the efficacy of unsupervised methods for binning in the absence of any reference datasets. Objective: To develop a deep clustering-based binning approach for Metagenomics data and to evaluate results with suitable measures. Methods: In this study, a deep learning-based approach has been taken for binning the Metagenomics data. The results are validated on different datasets by considering features such as Tetra-nucleotide frequency (TNF), Hexa-nucleotide frequency (HNF) and GC-Content. Convolutional Autoencoder is used for feature extraction and for binning; the K-means clustering method is used. Results: In most cases, it has been found that evaluation parameters such as the Silhouette index and Rand index are more than 0.5 and 0.8, respectively, which indicates that the proposed approach is giving satisfactory results. The performance of the developed approach is compared with current methods and tools using benchmarked low complexity simulated and real metagenomic datasets. It is found better for unsupervised and at par with semi-supervised methods. Conclusion: An unsupervised advanced learning-based approach for binning has been proposed, and the developed method shows promising results for various datasets. This is a novel approach for solving the lack of reference data problem of binning in metagenomics.

中文翻译:

一种基于深度聚类的宏基因组数据分箱新方法

背景:将元基因组学数据分箱的一个主要挑战是参考数据集的可用性有限,因为只有 1% 的微生物种群尚未培养。这提高了在没有任何参考数据集的情况下进行分箱的无监督方法的有效性。目的:为宏基​​因组数据开发一种基于深度聚类的分箱方法,并采用合适的措施评估结果。方法:在这项研究中,采用了一种基于深度学习的方法来对宏基因组数据进行分类。通过考虑四核苷酸频率 (TNF)、六核苷酸频率 (HNF) 和 GC 含量等特征,在不同的数据集上验证结果。卷积自动编码器用于特征提取和分箱;使用K均值聚类方法。结果:在大多数情况下,结果表明,Silhouette 指数和 Rand 指数等评价参数分别超过 0.5 和 0.8,表明该方法取得了令人满意的结果。将开发方法的性能与使用基准低复杂​​性模拟和真实宏基因组数据集的当前方法和工具进行比较。发现它更适合无监督方法,与半监督方法相当。结论:提出了一种无监督的基于高级学习的分箱方法,所开发的方法对各种数据集显示出有希望的结果。这是解决宏基因组学分箱缺乏参考数据问题的一种新方法。这表明所提出的方法正在给出令人满意的结果。将开发方法的性能与使用基准低复杂​​性模拟和真实宏基因组数据集的当前方法和工具进行比较。发现它更适合无监督方法,与半监督方法相当。结论:提出了一种无监督的基于高级学习的分箱方法,所开发的方法对各种数据集显示出有希望的结果。这是解决宏基因组学分箱缺乏参考数据问题的一种新方法。这表明所提出的方法正在给出令人满意的结果。将开发方法的性能与使用基准低复杂​​性模拟和真实宏基因组数据集的当前方法和工具进行比较。发现它更适合无监督方法,与半监督方法相当。结论:提出了一种无监督的基于高级学习的分箱方法,所开发的方法对各种数据集显示出有希望的结果。这是解决宏基因组学分箱缺乏参考数据问题的一种新方法。已经提出了一种无监督的基于高级学习的分箱方法,并且所开发的方法对各种数据集显示出有希望的结果。这是解决宏基因组学分箱缺乏参考数据问题的一种新方法。已经提出了一种无监督的基于高级学习的分箱方法,并且所开发的方法对各种数据集显示出有希望的结果。这是解决宏基因组学分箱缺乏参考数据问题的一种新方法。
更新日期:2022-10-17
down
wechat
bug