[使用说明书] 健康人群与患者之间的呼吸道微生物比较

[使用说明书] 霍乱弧菌的比较基因组学分析
07/19/2017

[使用说明书] 健康人群与患者之间的呼吸道微生物比较

欢迎使用 BIOiPLUG

在本说明书中,为了更好的了解 BIOiPLUG的微生物组分类学分析(MTP),我们比较了患病和健康受试者之间的呼吸道样本。

教程中使用数据由Hana Yi et al发布于2014年,属于微生物数据库(EzBioCloud)。首先在您的MTP帐户中查看数据库。

www.bioiplug.com

如果您没有账户,请先申请账户。

动到 Microbiome Taxonomic Profiling (MTP)务界面。

BIOiPLUG的主页面,点击[My Data]中的Microbiome Taxonomic Profiling (MTP)

[EzBioCloud DB]

EzBioCloud DB中有大量数据集可供您分析。数据库的数据量不断增加,其中包括人类微生物计划(Human Microbiome Project (HMP))的19个人体身体部位,8,048MTPs请查看包含65MTP“[Tutorial] Human respiratory infection” 数据集。

 

浏览个人账户中的MTPs

教程中有65个带有元数据标签的MTPs处理大量微生物样本时,元数据标签会在组织数据,发现生物标志物或差异化分类单位方面发挥关键性作用。我们从下面MTP窗口的浏览界面开始查看。

 

  1. EzBioCloud 微生物数据库中有大量MTPs可供您分析。我们的目标是为客户提供具有用户界面友好性的标准化微生物数据集。
  2. 您的账户可以容纳不同来源的大量的MTPs组:
    1. [My Data]-ChunLab, Inc处理的数据;
    2. [Shared]-共享数据;
    3. [EzBioCloud]- EzBioCloud DB 检测的数据。
  3. 处列出了您帐户中的元数据标签。选择标签(s)您可以快速方便地选择可用于创建MTP集的MTP,以进行进一步分析。
  4. 在此示例中,单页面并不适合65MTPs您可以在不同的页面之间导航。
  5. 过单击复选标记来选择或取消选择单个MTP创建MTP集。
  6. [Open],打开每个MTP“Single MTP Browser”
  7. 关于MTPs的信息:
    1. “MTP ID”ChunLab 生成的唯一ID
    2. “MTP name” ChunLab数据所有者提供的样本的名称;
    3. “Region”是基因的测序区域(例如,V1 to V9 for 16S)。您可以在“Toggle columns (i)”隐藏信息;
    4. 门的组成,可进行快速比较;
    5. 此列显示“Valid/Total reads”
    6. “(Metadata) Tags” 是描述样本(MTP)的最佳术语。对多个MTP进行分类和分组时,可以使用标签组合;
    7. “DB Ver.”表示分类数据库的版本(EzBioCloud 16S数据库);
    8. “Date”ChunLab’s pipeline创建中的计划日期(而不是抽样日期)。
  8. 您的账户中搜索MTPs
  9. 换设置以隐藏或显示各列。
  10. 如果您已经创建了一个或多个集合,请移动到“MTP
  11. 选择多个MTP后,创建一个MTP集。

使用“Single MTP Browser”分析单个MTP

现在,我们有65MTPs的呼吸道拭子样本。使用Roche 454平台扩增16S V1-V3区域并测序来说明其细菌群落结构。使用EzBioCloud16S数据库,可以识别每个sequencing read的物种级别。每个MTP都包含了样品细菌群落的完整信息。

[Open], 开名为AD1MTP(MTP ID=CL123S1)标签显示它是感染腺病病毒的男性婴儿的呼吸道拭子样品。打开一个新的页面/标签,查看该样品的菌群。

MTP窗口中,您将在“About MTP”选项卡找到以下有关AD1示例的信息:

  • 质量过滤后的总读数为6,091
  • 在非16S区域发现了, 扩增了18个非特异性读数
  • 检测并排除了88个嵌合扩增子因子。
  • 因此, 平均长度为481.6bp的有效读数为5,985
  • EzBioCloud 16S DBChunLab 的信息分析流程在物种级别确定了92.5%5539 reads)的有效度数。该样本共发现了83种。

“Alpha diversity”标签下,您能够得到物种丰富度(样本中物种的估计数量)和物种均匀度(或多样性指数)。在“Taxonomic Hierarchy”选项卡下,显示了16个读数以及其分类层次结构。

  1. 4,265 reads属于厚壁菌门。单击分类单名称左侧的灰色三角形可以展开树。
  2. 或者选择“Species”并点击[Expand]钮,展开和显示所有树层。

 

现在,我们展开了分类层次。假设我们要进一步研究一种放线菌-Actinomyces graevenitzii。点击放线菌(门)下的“Actinomyces graevenitzii”  Actinobacteria_cclass);Actinomycetales (order)Actinomycetaceae (family)Actinomyces (genus)

  1. Actinomyces graevenitzii,下拉菜单;
  2. 击此处访问EzBioCloud数据库的分类单页面。点击(b),查看EzBioCloud的放线菌页面。EzBioCloud数据库为您提供关于分类单元的各种分类学和生物学信息,以及其在健康人体内的丰富度。下图可见放射线菌部分,在人类口腔中发现约1%的该菌种(详见);
  3. FASTA形式下载放线菌的所有序列;
  4. [Load],加载放线菌的contigs。此处,我们认为contigs是相同模板的序列组,因此是相同的序列;
  5. [Load],加载放线菌的 clonesClones即除“contig”以外的种;
  6. 选择“QIIME / Greengenes”结合QIIME 术分析流程与Greengenes 数据库分析,对同一样本的类似分类阶层结构进行并列显示。下图显示了放线菌属和棒状杆菌属的两个数据库/术分析流程结果之间的差异。

 

 

“Taxonomic composition”标签下,表和饼图显示了所有分类等级(门到物种)的定量。您还可以下载Excel格式数据以供分析。在AD1样本中,最丰富的种为唾液链球菌15.5%),其次是肺炎链球菌14.8%)和维拉氏菌(9.1%)。由于基因的分辨率低,taxonomic group不能通16S区分多个物种/亚种。点击“Streptococcus salivarius group” 页面,其中描述了该组中的种。

 

  1. 击进入 taxon 页面;
  2. 击下载 excle格式数据。

“Krona”选项卡中,Krona工具上加载分类组成数据,该开源可视化工具可以从https://sourceforge.net/p/krona/home/krona/载。

以上方式可以打开和浏览任意MTP

 

创建 MTP组

研究微生物的主要目的之一,即了解一组样品的分类特征。BIOiPUG中,一MTP称为MTP集。您可以手动创建集,也可以使用(metadata)标签半自动创建集。在教程中,我们可以为不同组合创建标签。

让我们分别创建两个集,分别命名为 “Healthy”“Diseased”

  1. 首先,在单个页面中,设置“MTP per page” 100,以便查看所有选项;
  2. 标签面板(左侧)上,选中“healthy” 标签,选择只带有此标签的MTP
  3. 见,现在只列出了37MTPs带有”healthy” 标签);
  4. 击该框,选中所有的37MTP
  5. 单击[Create new MTP set] 创建MTP集,标注为“Healthy”

 

同理,创建一个MTP集,标签为“Diseased” 该集包含28MTPs见下图)。

  1.  “Diseased”集包含28 MTPs
  2.  “Healthy”集包含37 MTPs

如需浏览MTP集的微生物信息,请将鼠标光标移动到的方框处(上述屏幕截图的ab

 

  1. 您可以在菜单中单击此选项卡来选择MTP集。

 

打开一个MTP 集

MTP集作为多种统计分析中的集包含了多个MTP。我们创建了两个MTP集,分别为“healthy” “diseased” 首先打“healthy”集,其中包含37个健康受试者的呼吸道拭子,这些拭子基于16S的分类学特征。打开MPT集的列表((a)上一窗口截图),并将光标移动到“healthy”集。点 [Open] 钮,进入“MTP set browser” 见以下屏幕截图)。

窗口截图展示了MTP集的 “healthy” 集(下图)。

  1. 主页面
  2. [Open]开单个MTP页面,浏览每个MTP数据。

页面中有四项:

  • MTP List: 集中的MTPs列表。
  • Composition 该集分类组成的统计信息。
  • Alpha-diversity 该集的 alpha 生物多样性统计信息。
  • Beta-diversity 该集的 beta 生物多样性统计信息(MTPs间)

选择“Composition”项,移动到“Stacked bar”图表。

 

  1. 设置标准为“Copy number” 16S基因的拷贝数来做参考,计算分类学成分的统计数据;

  2. 将颜色设置为“By taxon”,以确保在不同的MTPs中, 相同的分类单元能以相同颜色显示;

  3. 更改图表的分类等级。

 

健康受试者中,在门水平上,厚壁菌门是最丰富的。在物种水平上,肺炎链球菌群似乎是最丰富的。让我们使用双饼图证明。

该图表显示了所选的两个生物分类等级的平均分类组成。

 

  1. 将内圈设置为“Phylum”级;
  2. 将外圈设置为“Species” 级;
  3. [Apply]
  4. 现在更新了双饼图的平均成分。移动光标,图表上可显示分类群的全名。

“alpha diversity”单下,为您提供集合中的所有MTP的各种多样性指标。 例如,所有MTP“Good’s library of library”数都接近100%,这表明每个样本的排序读数都在统计学上有效(见以下屏幕截图)。

 

 

 

“alpha diversity”单下,ACEChao1Jackknife给出了该样品的物种估计数量,被称为物种丰富度。“ACE”标签中,条形图表示每个MTP估计的物种数(=OUT)。

 

  1. 处数字表示每个样本的物种估计数量(= MTP);
  2. 选择标签(s),突出显示带有标签(s)的MTP。此例中,仅突出显示标记为“female”MTPs带有“male”标记的MTP中,没有发现明显的特征。

 

“beta diversity”单下,可使用不同的统计和可视化方法来探索样本之间的关系。最常用于度量两个MTs间距离的是“UniFrac”计算每一对的所有距离,然后使用主坐标分析(PCoA来执行层次聚类或维数缩减。下图为“healthy”集中,使用UniFrac distancesUPGMA clustering MTPs

该数据集中,有三种“healthy”对象:Com-X-ND(社区受试者,非患病者),Hos-X-ND医院工作人员,非患病者)和ICU-X-ND单位工作人员,非患病者)。在上述UPGMA树状图中,我们看不出三组之间有明显的区别。因为层次聚类有时会产生偏倚,所以可使用PCoA排序方法证明。请选择“PCoA2D选项卡,查看37名健康受试者的二维散点图。选择一个或多个标签,使用特定的标签组合突出显示MTPs

 

  1. 根据第1和第2主成分绘制二维散点图;
  2. 选择标签(s),验证MTP与特定标签的关系。该图表中,社区受试者并不是一致地摆列在一起,从而确认了UPGMA类结果。

比较多个MTP集间的物种多样性

们的最终目的是发现并区分具有不同特征的微生物群的生物标志物。该例中,我们想知道“diseased”试者中的细菌种类的差异。为此,我们从已经创建的两个标签“healthy”“diseased”MTP开始。请按照以下步骤进行比较分析:

  1. 选择“Comparative MTP Analyzer”

  2. 选择两个MTP集;

  3. 选择“Compare taxonomic compositions”

  4. [Run]启用比较模块

“Comparative MTP Analyzer” 块与“MTP Set Browser”非常相似; 前者比较集间的统计,而后者则集中于一个集中的单个MTP

  1. 选择“Species”
  2. 选择Haemophilus influenzae group”
  3. “Diseased” 集中的Haemophilus influenzae group” 们发现至少有一个种只存在于患病人群的呼吸道样本中。

众所周知,随着病种数量减少,物种多样性也随之减少。下面我们来检验该理论的真实性。请选择Alpha样性菜单,查看以下内容:

 

  • 所有物种丰富度指数(ACEChao1Jacknife)表明,“healthy” 种的数量一般高于“disease”“The number of OTUs found” 决于排序的读数,所以请不要定值过大。

 

现在我们知道健康受试者样品中有更多的种。那么,拭子样品中的多样性或种类数量如何分布?请转到“Diversity Index”选项卡查看该内容。

  • 个多样性指数清楚地表明,“healthy”有更高的物种多样性。请注意,对于NPShannonShannon较高的值与更高的多样性相关,辛普森指数是负相关的。

 

过比较多个MTP集合揭示其中的关系

启动“Beta-diversity”“Comparative MTP Analyzer”单,显示出两个选项卡。“UPGMA clustering”提供包含“healthy”“diseased” 集中所有MTPs树形图(见下文)。

  1. 集中仅包含“diseased”试者。以下“PCoA”图中,该聚集更加显而易见。

 

 

查找有差异的分类群(生物标志物)

最后,我们要挖掘数据,找出这两种情况之间的主要区别。BIOiPUG为您提供多种发现生物标志物的方法。在这里,我们通过“Kruskal-Wallis H检验来发现哪些与呼吸系统疾病有关。请选择“Biomarker Discovery”单。

  • 从门到种,按p值排列不同的分类群。请注意,之前我们发现的Haemophilus influenzae group”已被列出。

  • 有趣的是,我们仅在“diseased”发现了“Moraxella nonliquefaciens group”,而健康受试者则没有被检测到。

 

结语

使用合适的生物信息学工具和计算基础设施,您可以用各种方式搜索微生物数据。在BIOiPLUG的云环境中,我们尝试提供比较分析,可视化和数据挖掘的即时响应工具。希望您喜欢本教程并可以熟练使用BIOiPLUG独特的用户界面。

Disclaimer

This tutorial was prepared by Dr. Jon Jongsik Chun (Seoul National Univ/ChunLab, Inc) and Suyeon Hong (Yale Univ).

Last updated on July 15nd, 2017.