一个开源人类基因组数据库的想法
xjp132014/08/11生物学 IP:四川
本帖最后由 xjp13 于 2014-8-11 18:33 编辑

         现在越来越多的行业将知识”傻瓜化“,方便越来越多的人使用,受此启发,我们想整理出一个人类基因组开源数据库,这里需要解释一下,人类的基因组数据本身是开放的,任何人都可以查询,但像NCBI,UCSC,OMIM这样的专业数据库是供科研人员查询使用,对数据库如果不熟悉完全看不懂。我们想构建的这个数据库是从这些专业的数据库里整理出人类基因的相关数据信息,然后用一些比较傻瓜化的查询方式,争取在完全没有生物信息学基础的情况下,让普通人5分钟学会查询人类基因数据。带动广大生物GEEK开始玩转基因。对社会科普也有很大好处。随着目前测序成本的急速下降,预计5年左右可降到1000元(目前1万元左右),也就是说5年内大家可以花千元拿到自己的基因组数据,那么届时将有庞大的数据分析。大家看看有什么想法,可以提出来讨论。
        补充:一个人的基因组数据大概30亿字节,也就是3G左右。压缩包可压缩到800M左右。需要的联系我,我发给你一份

基因组压缩包.jpg
      应大家要求,我把压缩包上传到网盘:XXXXXXXXXXXXXXXXXXXX/s/1dDksWId         fa文件用UltraEdit就可打开。压缩包里是每条染色体的小压缩包,可以单独解压每一条染色体的,建议解压小点的先看看。

+30  科创币    发电机    2014/08/11 感谢分享
+1  学术分    虎哥    2014/09/14 本帖符合加学术分的标准,鼓励!
来自:生物医药 / 生物学
57
已屏蔽 原因:{{ notice.reason }}已屏蔽
{{notice.noticeContent}}
~~空空如也
xjp13 作者
10年5个月前 IP:未同步
711663
补充一点:生物信息是生物学中比较简单的,不会涉及到繁杂的生化试验,纯数据分析,当然要开发生信软件又另当别论。不像大家想象的那样高端,普通熟练电脑,有高中生物基础的的人强化培训1周也就可以参与分析了,再次强调,开发算法另当别论。
+5
科创币
usafn6132
2014-08-11
求一份 usafn613@163.com
引用
评论
1
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711735
益达君 发表于 2014-8-11 12:02
是碱基序列吗,强列需要,谢谢~


已经上传到网盘,欢迎下载!
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711736
电信高涛 发表于 2014-8-11 12:45
楼主   给我发一份吧


已经上传到网盘,欢迎下载!
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711737
csaaa 发表于 2014-8-11 13:26
我想知道我怎样将自己的基因测成数据。


这个你不用担心,现在测序成本急速下降,摩尔定律与这个比起来就是渣渣,实际上预计2年左右价格就到1000元了,5年是保守估计。测序就交给专业的测序公司就是了,那已经沦为体力活!
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711738
改装pcp 发表于 2014-8-11 13:36
就是说,一个精子和卵子结合体就是30亿字节数据?再用这些数据输入复制工厂的话(像尤里复仇版本),即可批 ...


是的,那个技术叫合成生物学,现在相当火爆!
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711740
usafn6132 发表于 2014-8-11 14:18
请发给我一份usafn613@XXXXXXX
不过好像如果把四种碱基对分别对应二进制的00 01 10 11的话,一个人的基因 ...


已经上传到网盘,欢迎下载!人的碱基对有30多亿,每个碱基一字节,总共30多亿字节,就是3G左右!不知你754M如何算出来的。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711741
王者归来abs 发表于 2014-8-11 14:35
话说这样有没有可能实现制备出天才呢?
以实验自愿目的 召集各州的优秀人才
然后XX 最后得到一个优秀品种 ...


华大早已经启动千人计划,里面基本都是大学教授和诺奖获得者!
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711742
qg2010 发表于 2014-8-11 14:58
直接用网盘啥的发上来不是更方便嘛


已经上传到网盘,
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711762
本帖最后由 xjp13 于 2014-8-11 17:53 编辑

atlas 发表于 2014-8-11 17:12
LZ对这个问题的态度可能过于乐观了。测序成本的确在不断降低,我们做过全测序的确实有体会。几年前测定一个 ...


看来你是行业内的人士,不过了解不够深入,目前测序深度30X价格10000万左右,你要多少我给你做多少,你可知道华大规划的是5年内测序让用户付出的代价可以忽略不计,主要成本就是分析数据,这需要与临床结合。现在早已经展开了,人类基因组分析算是健康产业,所以有巨额资本在追逐,不想你做的微生物,产业推动很快。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711769
atlas 发表于 2014-8-11 18:02
看来LZ不是搞基础研究的,那么在很多问题上看来是讲不清楚了。华大西北大区的人我倒是认识不少。LZ是华大的 ...


我不是华大的,但和华大有合作,做临床应用研究的,以前没有往临床方面发展也是你这样的认为的,后来随着数据挖掘的深入和临床的结合,原来基因组数据可以挖掘出这么多东西,既然你在华大认识不少人,让他们给你推荐华大健康方面的研究吧,并不是所有的华大人都熟悉人的基因组数据挖掘,我认识个华大朋友搞植物基因组的,他对人的数据了解很少。现在华大的人(不是华大官方)刚好在搞一个众筹项目,想必你知道吧,就是花一万给自己测序,然后自己分析自己的基因组,前提是参与者精通生信分析。每人90G的数据,自己整自己的,大家一起探讨。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711778
ssungirl 发表于 2014-8-11 19:07
好牛的样子,要是现在研制出3D分子打印机就牛了。


上面有网盘地址!
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711962
jiang248660720 发表于 2014-8-12 09:32
问题是怎么检测..
才能对比吧


你说的是获得自己的序列吧,那就交给专业的测序公司好了,价格急速下降,预计也就2~3年价格就到1000元了,目前先学会如何分析,有公开的基因组,随便分析,其实我们想搭建的这个平台就是给大家科普玩的,所以尽量做到简单易用,把专业性的东西转化成普通人理解太难了
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
711984
csaaa 发表于 2014-8-12 11:51
楼主假设我花了1000元做了测序,数据也给我了,请问我该怎么分析,依据是什么,有什么软件还是?需要用什么 ...


你的想法很有意思,就是建立在大数据平台上,根据自己的遗传数据去寻找和自己有同样表型的小伙伴,目前还只能通过专门的测序和分析公司来做,比如华大现在搞的地中海贫血检测,他们给地贫患者搭建了交流平台,目前给普通用户的简单易用软件还没有,现有的软件都是专业版的(比如HGMD pro),我开这个贴的目的也就是想收集大家的意见,我们想搞一个开源免费的软件,目的是教大家慢慢学习生物信息分析,科普一下生物信息方面的东西。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
712041
永远的AWP王 发表于 2014-8-12 13:55
感觉好牛啊。。。感谢楼主了


这没啥好牛的,现在基因研究很普遍了,民众科普迫在眉睫,我们做出来简单易用的分析工具在说牛吧![s:1]
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年5个月前 IP:未同步
712111
luobinme 发表于 2014-8-12 15:54
好高端~! 话说能不能根据这些数据在电脑上重建这个人~!?就像 XXXXXXXXXXXXXXXXXXXXX/ 这个网站中的 ...


你想多了,要达到那一步还很遥远,现在有用基因模拟人的颅面发育的研究,也就是模拟长相,才刚刚起步。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年4个月前 IP:未同步
715479
超新星のktjc 发表于 2014-8-24 12:17
碱基序列里大段大段的"N"是什么情况?


N是由于测序过程中荧光信号不强而导致测序仪器无法识别该位点碱基的类型,故用N来标注
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年4个月前 IP:未同步
715595
超新星のktjc 发表于 2014-8-24 19:54
话说这数据是怎么来的,是多人总结来的还是某一人的.那个M染色体正常人也有吗?有带注释的版本吗?


这个数据来自华大测序的第一个黄种人基因组(炎黄一号),是单独一个人的。M表示线粒体染色体,他是最小的,1万多个序列,所有人都有。你所说的注释我理解是差异位点的描述吧,这个数据是非常庞大的,我大概说说吧,SNP位点(也就是某个核苷酸有多种可能)大概300万个,目前要就远不止这么多,indel位点(就是某些位增加或者缺失了核苷酸),这个大概10多万个,还有些结构变异的。这么多序列的差异引起表型的差异很多都还没有研究清楚,更不用说环境等外部因素造成的表型差异。为了研究方便,这种数据一般都是通过构建数据库,让全世界查询,以免重复研究。如果你感兴趣,你可以去NCBI ,UCSC  ,OMIM这样的去数据库看看。但是这些数据库都很复杂,所以我们就像建一个简单的数据库,让非专业的认识查询,做个科普嘛。另外,我这倒是有份SNP和indel的位点数据,就是那个位点在哪条染色体上,定位是多少,那个碱基有什么差异,但是表型数据是没有的。你如果要我可以发给你。
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年4个月前 IP:未同步
715596
超新星のktjc 发表于 2014-8-24 19:54
想给自己测序怎么做?


联系测序公司
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论
xjp13作者
10年4个月前 IP:未同步
715747
虎哥 发表于 2014-8-25 23:53
这东西结合大数据(尽管我也没搞明白这是什么),应该可以很牛逼的,关键问题是中间的工具链建设,要搞得跟 ...


是的,虎哥,我们的想法就是要搞得和arduino一样容易,五分钟上手是目标![s:12]
引用
评论
加载评论中,请稍候...
200字以内,仅用于支线交流,主线讨论请采用回复功能。
折叠评论

想参与大家的讨论?现在就 登录 或者 注册

所属专业
上级专业
同级专业
xjp13
学者 笔友
文章
5
回复
60
学术分
1
2010/10/18注册,4年11个月前活动
暂无简介
主体类型:个人
所属领域:无
认证方式:邮箱
IP归属地:未同步
文件下载
加载中...
{{errorInfo}}
{{downloadWarning}}
你在 {{downloadTime}} 下载过当前文件。
文件名称:{{resource.defaultFile.name}}
下载次数:{{resource.hits}}
上传用户:{{uploader.username}}
所需积分:{{costScores}},{{holdScores}}下载当前附件免费{{description}}
积分不足,去充值
文件已丢失

当前账号的附件下载数量限制如下:
时段 个数
{{f.startingTime}}点 - {{f.endTime}}点 {{f.fileCount}}
视频暂不能访问,请登录试试
仅供内部学术交流或培训使用,请先保存到本地。本内容不代表科创观点,未经原作者同意,请勿转载。
音频暂不能访问,请登录试试
支持的图片格式:jpg, jpeg, png
插入公式
评论控制
加载中...
文号:{{pid}}
投诉或举报
加载中...
{{tip}}
请选择违规类型:
{{reason.type}}

空空如也

加载中...
详情
详情
推送到专栏从专栏移除
设为匿名取消匿名
查看作者
回复
只看作者
加入收藏取消收藏
收藏
取消收藏
折叠回复
置顶取消置顶
评学术分
鼓励
设为精选取消精选
管理提醒
编辑
通过审核
评论控制
退修或删除
历史版本
违规记录
投诉或举报
加入黑名单移除黑名单
查看IP
{{format('YYYY/MM/DD HH:mm:ss', toc)}}