工欲善其事 必先利其器 国家生物信息学中心(National Bioinformatics Center, NBC)下的GSA(Genetic Sequence Archive,基因序列档案)数据库是一个面向全球的基因组数据存储 完全公开数据 公开数据示例 完全公开的数据下载起来相对多样,你可以选择FTP链接、Aspera命令行或者EdgeTurbo,之前我们也介绍过 使用aspera加速从中国的GSA数据库下载测序文件。
GSA的数据模型 为确保与国际同类数据库系统的兼容性,GSA遵循INSDC联盟的数据标准,GSA元数据类别主要包括项目信息(BioProject,归档于生物项目数据库)、样本信息(BioSample,归档于生物样本数据库 构建GSA数据集 完成 GSA数据集中Experiment和Run的元数据信息录入——实现与BioProject、BioSample和数据文件的相互关联。通过FTP完成数据文件上传。 基本信息的填写说明:https://bigd.big.ac.cn/gsub/document/batch/gsa/GSA_batch_submit_template_help_document.cn.pdf /document/GSA-GSA_Submission_Guide_2.2.cn.pdf 通常状况下,数据信息与文件审核归档约需要 1-2 天,归档成功后会收到通知邮件,并可在 GSA 列表中查找的分配的 GSA 编号。
组学原始数据归档库(Genome Sequence Archive, GSA)是面向组学领域的原始数据采集、存储、管理与共享的重要基础设施。 GSA严格遵循国际核酸序列数据库联盟(INSDC)的数据规范和架构,主要接收和归档实验元数据(Experiment Metadata)、测序文库与反应元数据(Run Metadata),以及高通量测序产生的原始数据文件 CRA000001 专门用于存储原始测序读数的数据仓库 实验编号 Experiment CRX000001 一次的实验编号 测序编号 Run CRR000001 一次的测序编号 搜索 因此呢,GSA 在这些面板中就可以查看项目的基本信息了,但是下载原始数据还是在 GSA 数据库中。 根据编号下载 在 GSA 页面可以根据编号一级一级的查找下载。
中国的GSA(国家基因组科学数据中心)数据库,即国家基因组科学数据中心(China National GeneBank Database),是一个存储和共享基因组数据的国家级平台。 值得注意的是人类的数据跟其它物种在的GSA(国家基因组科学数据中心)数据库的存储有不一样的规则: 首先如果是小鼠测序数据 比如《食管癌病人的PDX小鼠模型6个样品之CRA010501》: https:/ /gsa-human/HRA003340/HRR798193/HRR798193_f1.fastq.gz ftp://download.big.ac.cn/gsa-human/HRA003340/HRR798192 ://download.big.ac.cn/gsa-human/HRA003340/HRR798190/HRR798190_f1.fastq.gz ftp://download.big.ac.cn/gsa-human 我们可以使用aspera加速从中国的GSA数据库下载测序文件。
iSeq 是一个 Bash 脚本,允许您从 GSA[1]、SRA[2]、ENA[3] 和 DDBJ[4] 数据库下载测序数据和元数据。 NOTE] >注意 2:如果检索的 accession 在 GSA 数据库中,iSeq 会通过 GSA 的getRunInfo[7]接口获取样本信息,下载CSV格式的 metadata,通常有 25 列 iseq -i SRR1178105 -g 由于GSA数据库直接存储的格式大多数为gzip格式,因此,如果检索的 accession 来自于GSA数据库,无论是否使用-g 参数都可以直接下载gzip格式的 https://github.com/BioOmics/iSeq 外部链接: [1] GSA: https://ngdc.cncb.ac.cn/gsa/ [2] SRA: https://www.ncbi.nlm.nih.gov NOTE] >注意 2:如果检索的 accession 在 GSA 数据库中,iSeq 会通过 GSA 的[getRunInfo: https://ngdc.cncb.ac.cn/gsa/search/
在提出的GSA模块的基础上引入了独立的基于全局注意力的网络,该深度网络使用GSA模块来建模像素交互。 由于所提出的GSA模块具有全局范围,所以GSA网络能够在整个网络中对远距离像素间的相互作用进行建模。 在ImageNet数据集上,提出的GSA网络也优于现有的各种基于注意力的网络。 3.3、GSA Network GSA网络是使用GSA模块而不是空间卷积来建模像素交互的深度网络。表1显示了GSA网络与最近各种基于注意力的网络的区别。 ? 可以看出在CIFAR-100数据集上基于GSA的设计,参数更少,精度更高; 4.2、基于ImageNet实验 ? 可以看出在ImageNet数据集上基于GSA的设计,参数更少,精度更高; ?
为确保与国际同类数据库系统的兼容性,GSA遵循INSDC联盟的数据标准,GSA元数据类别主要包括:项目信息(BioProject)、样本信息(BioSample)、实验信息(Experiment)、以及测序反应 GSA data 肿么办呢? BioSample数据库完成创建,详见GSA使用说明。 第一步,通过BIG Sub数据统一汇交入口,进入GSA数据库 第二步,点击“Batch Submission”进入“批量上传表格”下载页面,请根据提示信息下载相应的表格模板与例子,填好后请发送至gsa@ 注意:用户登录自己的FTP路径后,先cd 到 /GSA目录下再上传文件。 数据上传完毕后,GSA后台系统需要进行相应的审核,请耐心等待并密切关注系统和邮箱的情况反馈。
class GSA_atte(): def __init__(self): self.num = 9 def power(self): return self.num*self.num gsa = GSA_atte ()#类都要实例化,方法都是对实例进行操作的 print hasattr(GSA_atte(),'num')#相当于有没有num属性,返回布尔类型 print getattr(gsa,'num')#也可以用实例 gsa print getattr(gsa,'y','获取不到y属性') #getattr(类名,'属性','没有这个属性输出这里') #也可以用try,except语句来进行包裹代替上句 try: getattr (gsa,'y') except: print('no y') setattr(gsa,'y',10)#setatta不需要print print '经过setattr设置参数之后,得到y:',getattr (gsa,'y') 程序跑出来的结果是: ------------hasattr(GSA_atte(),'num')--------- True --------------getattr(gsa,'
但是研究者把数据上传到了GSA (Genome Sequence Archive),如下: ? 关于GSA 大家可以理解为NCBI的SRA数据库,通常我们看组学文章,都是找到其SRA的ID号,然后去NCBI的SRA下载的。 GSA (Genome Sequence Archive)是2015年底,中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库。 感兴趣的可以自行阅读其官方说明:https://mp.weixin.qq.com/s/ma6GOcBHyYgUHBkQLOuDHQ 根据项目编号拿到 毫无疑问,把我们在文章拿到的编号输入GSA的查询窗口 网页版 https://bigd.big.ac.cn/gsa/browse/CRA000004> FTP版:ftp://download.big.ac.cn/gsa/CRA000004 ?
采集时间窗口=存储深度/采样率 安捷伦的9000系列示波器在界面左上角上有显示采样率和存储深度,单位为MSa/s或者GSa/s已经Mpts,Mpts代表存储深度,pts是points 的缩写,Mpts 在每通道的存储深度为1Mpts的设置下,示波器可以10GSa/s采样率捕获1ms的波形。同一示波器,但每通道的存储深度是100Mpts的设置,那么在采样率相同的条件下可以捕获10ms的波形。 改变时间刻度以及增加通道数会改变采样率,比如最高采样率为10GSa/s的示波器,只打开一个通道时间刻度调到最小,左上角的采样率会变为10GSa/s,当打开第二个通道时采样率会自动变为5GSa/s。
目前下载方式有好几种,我们前面也有相关的稿子写了,对于同一个数据集,我看到曾老板先后使用了三种方式下载: 使用aspera加速从中国的GSA数据库下载测序文件 使用人工智能优化一个数据库文件批量下载脚本 PDX小鼠模型的单细胞样品定量能选择人类参考基因组吗 然后还让小张老师介绍了受控的数据如何下载: GSA受控数据下载 点进去看到单细胞和空转的链接:单细胞的GSA编号CRA002489,空转的GSA编号 /browse/CRA002489 ascp -P33001 -i aspera01.openssh -QT -l100m -k1 -d aspera01@download.cncb.ac.cn:gsa read id do echo "ascp -P33001 -i aspera01.openssh -QT -l100m -k1 -d aspera01@download.cncb.ac.cn:gsa done >down.sh sh内容: ascp -P33001 -i aspera01.openssh -QT -l100m -k1 -d aspera01@download.cncb.ac.cn:gsa
据两位知情人士透露,马斯克领导的「政府效率部」(DOGE)正加速开发定制的GenAI应用「GSAi」,供美国总务管理局(GSA)使用。 据称,「GSAi」首要任务——提升约12,000名GSA员工的日常工作效率。 2024年6月,美国总务管理局(GSA)发布了一项名为《在GSA使用AI》的命令。 内容链接:https://www.gsa.gov/system/files/FY-2024-GSA-AFR-12-20-2024-508-compliant.pdf 此外,马斯克团队还希望借助「GSAi GSA的GSAi应用项目可能会带来类似的好处,例如帮助员工更快地起草备忘录。 GSA原本计划使用谷歌的Gemini,但最终认为其数据分析能力无法满足DOGE的需求。 据知情人士透露,GSA的IT团队最初批准了Cursor的使用,但后来撤回决定,进行进一步审查。
on gsa.FORGID=b.FPRDORGID and gsa.FNAME like ‘%华世%’ where b.fdate>=‘2023-09-01’ and b.fdate<='2023-09 on <em>gsa</em>.FORGID=b.FStockOrgId and <em>gsa</em>.FNAME like ‘%华世%’ where b.fdate>=‘2023-09-01’ and b.fdate<='2023 on gsa.FORGID=b.FStockOrgId and gsa.FNAME like ‘%华世%’ where b.fdate>=‘2023-09-01’ and b.fdate<='2023 on <em>gsa</em>.FORGID=b.FSaleOrgId and <em>gsa</em>.FNAME like ‘%华世%’ where b.fdate>=‘2023-09-01’ and b.fdate<='2023- on gsa.FORGID=b.FPRDORGID and gsa.FNAME like ‘%华世%’ where b.fdate>=‘2023-09-01’ and b.fdate<='2023-09
4.3 提交GSA数据(原始RNA-seq) 完成BioProject和BioSample申请后,可开始上传GSA数据库。准备好原始数据,一般以.gz或者.bz2为后缀。 三步操作法归纳如下: 新建GSA: 根据提示,依次填写内容。在第三步需要上传元数据文件信息。我们现将填写模版和案例下载下来。 打开软件,填写主机信息为“submit.big.ac.cn”,用户名和密码与GSA数据库的登录账号邮箱和密码一致。点击“快速连接”,状态栏显示登录成功。 ③进入上传目录。 登录成功后,“本地站点”选择需要上传数据对应的本地路径,“远程站点”中,点击GSA文件夹,进入GSA目录(不要把文件上传到根目录下,这样后台处理程序将扫描不到上传的文件)。 上传数据至GSA目录中,推荐每批数据建一个子目录存放数据。 上传成功后,点击进行下一步 上传完成后可对信息再次检查,确认无误后提交,耐心等待审核吧!是不是很简单呢,欢迎大家留言哈!
of any path in the state space Search Algorithms Tree search algorithm (TSA) Graph search algorithm (GSA ) Uninformed (Blind) Search Strategies Breadth-first search (BFS) BFS-TSA BFS-GSA Depth-first search (DFS) DFS-TSA DFS-GSA Uniform-cost search (UCS) UCS-TSA UCS-GSA BFS (Time and Space Complexity) Time - BFS Version pseudo code function GSA (problem) returns solution initialize frontier using solution is close to the root of tree Choose DFS is solution is deep inside the search tree TSA vs GSA
尽管NGS数据中包含丰富的信息,特别是来自NGDC基因组序列档案(GSA)等存储库的数据集不断增长,但对公共测序数据和元数据的程序化访问仍然有限。 iSeq支持从GSA, SRA, ENA和DDBJ数据库同时检索。 特性多数据库支持:支持多个生物信息学数据库(GSA/SRA/ENA/DDBJ/GEO)。多输入格式:支持多种访问编号(项目、研究、样本、实验或运行访问编号)。 Note注意2:如果检索的accession在GSA数据库中,iSeq会通过GSA的getRunInfo接口获取样本信息,下载CSV格式的metadata,通常有25列,上述得到的metadata信息会被保存为 iseq -i SRR1178105 -g由于GSA数据库直接存储的格式大多数为gzip格式,因此,如果检索的accession来自于GSA数据库,无论是否使用-g 参数都可以直接下载gzip格式的FASTQ
/CRA007099/CRR511439/CRR511439_f1.fq.gz 文件为例: edgeturbo download /gsa/CRA007099/CRR511439/CRR511439_f1 以下载到本地的/home/data 为例: edgeturbo dl /gsa/CRA007099/CRR511439/CRR511439_f1.fq.gz L/home/data 文件下载后,将自动进入下面的页面 mydownload 查看帮助 用户可以键入以下命令以获取命令行参数的帮助说明: edgeturbo help 写在后面 上面举例的样品是: https://download.cncb.ac.cn/gsa /CRA007099/CRR511439/CRR511439_f1.fq.gz https://download.cncb.ac.cn/gsa/CRA007099/CRR511439/CRR511439 _r2.fq.gz 所以我们的构建的(edgeturbo download )下载命令是: edgeturbo download /gsa/CRA007099/CRR511439/CRR511439_
on gsa.FORGID=b.FPRDORGID and gsa.FNAME like ‘%华世%’ where convert(varchar(12),b.fdate,120)>=‘2023-09 on gsa.FORGID=org.FFINORGID and gsa.FNAME like ‘%华世%’ where cha.fyear=2023 and cha.FPERIOD=1 and ( on gsa.FORGID=b.FPRDORGID and gsa.FNAME like ‘%华世%’ where convert(varchar(12),b.fdate,120)>=‘2023-09 on gsa.FORGID=pz.FACCTORGID and gsa.FNAME like ‘%华世%’ where convert(varchar(12),pz.fdate,120)>=‘2023 on gsa.FORGID=pz.FACCTORGID and gsa.FNAME like ‘%华世%’ where convert(varchar(12),pz.fdate,120)>=‘2023
也是找不到了 (base) rstudio ~/data/tem $ wget -c ftp://download.big.ac.cn/gsa/CRA001160/other_files --2021 -08-23 10:20:59-- ftp://download.big.ac.cn/gsa/CRA001160/other_files => 'other_files' Resolving ==> SYST ... done. ==> PWD ... done. ==> TYPE I ... done. ==> CWD (1) /gsa/CRA001160 ... done. ==
GWAS中的Gene Set Analysis, 简称GSA分析,是从基因或者通路水平来进行关联分析,是建立在SNP水平的的GWAS分析结果基础上的,在更高的层次进行深入挖掘,以发现更加有用的信息。 MAGMA是进行GSA分析的一款工具,其官网如下 https://ctg.cncr.nl/software/magma 该软件的安装过程如下 wget https://ctg.cncr.nl/software SET1表示基因集的名称,可以是pathway的编号,对应的基因集合用Entrez ID表示,输出结果后缀为.gsa.out, 内容示意如下 ? 通过以上3步,就可以搞定GSA分析,该软件还支持添加协变量以及自变量间的相互作用,更多用法请参考官方文档。