生物专业最强“杀手锏”：如何自学生物信息学？

柒月 · 发表于 2015-3-11 11:01:23

本帖最后由柒月于 2015-3-11 11:04 编辑

当下，在部分学习生物专业的学生面临工作难找、科研难做的多重窘境之际，基因产业和个体化用药却在以前所未有的速度蓬勃发展，遗传咨询师行业亦初露头角。传统学习生物专业的学生，可谓是赶上了“最好的时代”，倘若你知道如何解开维系健康的生命密码信息，你将变得无可替代。那么问题来了，如何自学生物信息学？本文是一个非生物信息学自学成才的葵花宝典。
有几点需要注意：

1. 我能理解你想早些玩儿数据的愿望，但是在这之前，最好要有一个outline.需要知道数据从哪儿来的，怎么产生的？其实就是测序仪的工作原理。然后是数据质量检验，为什么需要数据过滤？接着是reads拼接和组装。总之，要对整个流程有一个认识，而后在学习的过程中，再不断回头对比这个流程，这样才不会有迷失的感觉。[这本书](Bioinformatics for High Throughput Sequencing)推荐看一下。

2. 有了基础知识的铺垫，就可以尝试着自己做些练习了，paper上面都会给出他们的数据、原码地址，可以找来自己试试，先看看自己能不能做出一样的效果。当然，这时要是你手里正好有项目，那就更好了。

3. 学生物信息，paper肯定是要跟踪的。这两个网站可以经常看一下：

[homologous](Homologus - Frontier in Bioinformatics) 覆盖生物信息有趣的论文，算法，以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦， SAMtools、BWA的作者Heng Li都有在这里出现。

[RNA-Seq Blog](RNA-Seq Blog) 推荐新的论文、工作、培训课程、大型会议等。

如果你是生物背景的，那么计算机方面的知识需要补一下：

- 需要能在linux环境下舒服的工作。比如从源码编译安装软件、PATH配置，再比如舒服地使用google找到问题的答案 :-)

- 学会使用python/perl。比如有的时候运行一个软件老是报错，可能就是因为在一个包含几十万行的文本文件里，有随机的那么几千行的末个位置，多一个冒号，[就像这里](using HTSeq | popucui), 这时候你知道需要怎么做了？

- 学会R。要从一大堆基因里面找出表达水平变化的基因来，需要统计分析和显著检验；而要把我们的数据更直观地展示出来，最好的方式就是图形了吧。这两个需要，R都能满足。当然matlab也是可以的，区别在于R是开源工具。

- 具备了上述技能，那么常用的软件就能用起来了。随着学习的深入，可能你的问题别人也没遇到过，这时候就需要自己动手，要么修改现成的工具，要么自己做一个出来。这时候，除了python/perl，或许还可以学学C/C++/java，或许需要研究下比如BWT、De Bruijn Graph背后的原理。

huangli89327 · 发表于 2015-3-11 11:21:31

好复杂。像天书。

柒月 · 发表于 2015-3-11 11:23:01

huangli89327 发表于 2015-3-11 11:21
好复杂。像天书。

可以学习学习的啊！！说的蛮有道理的！

云隐散霾 · 发表于 2015-3-11 11:23:54

错过了学习的最好年纪了，，，，

柒月 · 发表于 2015-3-11 11:32:05

云隐散霾发表于 2015-3-11 11:23
错过了学习的最好年纪了，，，，

这点说错了亲，不是有说“活到老、学到老”吗？所以说没有最好的年龄这个说法啊，主要是你愿不愿意学才是的哦。

某崽0817 · 发表于 2015-3-11 17:12:13

好难···

云隐散霾 · 发表于 2015-3-11 17:14:51

柒月发表于 2015-3-11 11:32
这点说错了亲，不是有说“活到老、学到老”吗？所以说没有最好的年龄这个说法啊，主要是你愿不愿意学才是 ...

是愿意学啊，可对于某些东西接受力慢，这跟大脑回路还是有关系的！

柒月 · 发表于 2015-3-18 09:28:03

云隐散霾发表于 2015-3-11 17:14
是愿意学啊，可对于某些东西接受力慢，这跟大脑回路还是有关系的！

O(∩_∩)O哈哈~ 现在觉得比以前懒了，什么都不想做。。。。。

生物专业最强“杀手锏”：如何自学生物信息学？

相关帖子

点评

点评

点评

点评