今天给各位分享生物信息学公开课的知识,其中也会对生物信息学课程内容进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
meta charset="utf-8"
article class="_2rhmJa"
当我们从测序数据中得到了一系列的基因后,我们需要研究这些基因都属于那些通路,那些通路是跟我们研究课题相关的。为了解决这一问题,最常用的做法就是做通路注释然后做通路富集分析,看看我们得到的基因都分布在哪些通路。
超几何分布是富集分析的常用方法,常用的GO富集分析都是用超几何分布计算的。下面将浅显的探讨一下超几何分布的原理。
超几何分布是一种非常常见的分布,常用来表示在N个物品中有指定商品M个,不放回抽取n个,抽中指定商品的个数,即X~H(N,n,M),则抽中k件M商品的概率为:
在这里我们做一个简单的概念转换即可知道软件是如何做GO富集分析的:
因此我们就可以计算基因集n是否在M类中富集的概率。
但是知道这个概率后并不能直接用来作为富集分析的结果,必须要对其进行一个评估,因为我们必须要考虑到随机情况,如果随机从N中抽取n个基因,其中k个在M中的概率很高的话,那我们富集得到的通路意义就是极小的。这时候我们引入p值对富集分析的概率结果进行分析。
P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。通俗的讲,p值就是指随机出现的概率,p值越小说明越不可能随机出现,也就是说我们得到的结果越具有显著性。
总之,P值越小,表明结果越显著。但是检验的结果究竟是“显著的”、“中度显著的”还是“高度显著的”需要我们自己根据P值的大小和实际问题来解决。
在我们的富集分析中,p值是由下面这个式子计算得到的:
上面式子的意思是: 从总N个基因抽n个基因, 作为分母,分子是M个基因有i个落在通路里,有n-i个不落在通路里。 p-value是指你观察到m个基因落在通路里,比这还要 更极端的概率之和 ,所以i是从m到M。 就是说看到更多的基因落在这个通路里的所有可能。所以超几何检验很方便地 可以给你算一个p-value,最后得到p-value0.01或者0.05,你的结果如果定义p-value0.05 那就有5%的概率看到是一个假阳性,这里我们只是在谈拿一个通路来做检测, KEGG现在大概有360多个通路,每一个通路都做一个超几何检验,每一次有5%的概率出错,一共进行360次, 那出错的概率就很会大很多, 所以怎么评估最终看到的结果是真的而不是被误导的呢? 你就要算一个叫多假设检验的矫正,只要做了多次的statistical test, 就要做多假设矫正。矫正有多种方法,现在大家用的最多的是FDR校正。
FDR矫正的是false discovery rate, 也就是FP/(TP+FP)的期望值,看这个期望值是多少。 如果这个期望值小于0.05,大家就认为有可能是 一个真实的有生物学意义的结果。
参考:
北京大学公开课—— 生物信息学: 导论与方法
伯努利分布、二项分布、几何分布、超几何分布、泊松分布
说说大家经常见到的p值
/article
23人点赞
生物信息学
在 利用动态规划(DP)进行全局比对(一) 中浅显的探讨了动态规划的中心思想以及如何使用动态规划方法来解决问题。在本文将简要的介绍早期生物信息学中是如何利用动态规划方法来进行序列比对的。
在探讨动态规划实现的比对算法之前,我们还是需要先了解下序列比对的一些基本信息:
接下来我们将开始使用动态规划方法进行序列比对。
在使用动态规划方法时,第一步依旧是画格子。
第一个网格位置的值表示gap对上gap(无意义),得分为零。
由于在-3得分有两个来源,因此有两种比对结果,这两种比对结果的得分都为-6。
参考:北京大学公开课—— 生物信息学: 导论与方法
在 利用动态规划进行全局比对(二) 中我们探讨了两条序列全局比对的算法原理。 这一算法是由芝加哥的Needleman和Wunsch两位于上个世纪70年代初提出的。 也常被称之为Needleman-Wunsch算法。 如前所述,这个算法可以针对用户指定的打分函数,确定性地找出两条序列间的最优比对。这一算法在早期的蛋白质序列比对中得到了广泛的应用。
然而随着生物学的发展,人们发现有的蛋白序列虽然在序列整体上表现出较大的差异性,但是在某些局部区域能独立的发挥相同的功能,序列相当保守。这时候依靠全局比对明显不能得到这些局部相似序列的。其次,在真核生物的基因中,内含子片段表现出了极大变异性,外显子区域却较为保守,这时候全局比对表现出了其局限性,无法找出这些局部相似性序列。
于是, 在1981年当时物理学家Temple Smith和数学家Michael Waterman对之前的Needle-Wunsch算法进行了改进,提出了后来被称之为Smith-Waterman的局部比对算法。局部比对算法与全局比对算法在状态转移方程(也即二中所述的填网格的公式)较为相似,只是在公式右边多加了一项:当原先的三个公式的取值都小于0时,则在当前位置填入0。这时公式就是下面这样的了:
参考:北京大学公开课—— 生物信息学: 导论与方法
随着学科的发展,目前许多研究都涉及高通量数据分析 (high throughput data analysis)。比较常见的是测序结果分析,例如RNA-seq、CHIP等等。 众所周知,数据分析是高通量测序应用于生物研究最关键的步骤,分析不好,得到的海量数据无异于一堆垃圾。下面是刚刚接触高通量测序数据分析的同学可能比较关心的几个问题。需要说明的是:这些都是基于微生物领域且数据量不是特别大的情况。其它领域(植物、动物、医学等等)的高通量测序数据处理我暂时还不太了解。 1. 是不是一定要用大型计算机? 除了序列拼接组装以外,其它分析不是一定要大型计算机,在普通的PC上也可以进行一些处理,当然,买一台或几台高性能的工作站电脑,能显著加快数据处理的速度。 2. 是不是一定要用Linux系统? 也不一定非用Linux不可,在Window下可以完成部分数据处理。如果你想以后长期从事高通量测序数据分析工作,熟悉Linux是必须的,但是如果你是为了处理一下数据混混毕业(中国有很多研究生是这样,这是事实),我觉得没必要额外花些时间去学习使用Linux,虽然现在Linux已经变得不那么难用了。 3. 序列拼接又要用大型计算机又要用Linux系统怎么办? 方法有两个:(1) 找商业公司组装拼接, (2)用亚马逊的云计算服务。 4. 是不是必须自己写些程序? 数据处理中经常要对文本文件中的内容进行调整、筛选、比对,据我所知现在还没有什么软件可以非常灵活的完成这些操作,将来也很难有,因为这些操作都是与实际数据相关的,没有统一的规律。现在大部分人都是用脚本程序来完成这些任务,因此数据分析过程中需要自己写点程序。在这方面比较适合的编程语言是Python和Perl,我觉得Python比较好用也比较有前途,但很多人还是用Perl,问其原因,得到的答复是是师兄师姐都用Perl,不得不用Perl。 5. 数据如何分析? 这个问题太难回答了,并且我觉得目前及将来很长一段时间,在网上应该找不到像DGGE操作步骤、T-RFLP操作步骤、DGGE数据分析方法等这类非常详细的教程类的东西。因为高通量测序技术及其数据分析方法现在发展非常快,时刻在变。唯一的办法就是自己去研究Paper,研究相关软件的说明书。 6. 高通量测序数据处理软件 下面是几个被广泛使用的高通量测序数据分析软件,主要是针对微生物的,并且主要用于分析16S rDNA PCR产物或宏基因组(Metagenome)高通量测序数据,了解样品中细菌或古菌等微生物的种群及功能的多样性和丰度。
关于生物信息学公开课和生物信息学课程内容的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签: #生物信息学公开课
相关文章