1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556 |
- # 参考基因组配置文件
- # 全部填写文件名;所有文件放到同一个文件夹下;;脚本会给一个输入路径参数;;脚本运行DNA和GTF会被move到输出目录下(这样设计是扬子网络不稳定;下载数据有问题;需要在245或药谷下载数据;然后传到扬子)
- # 目前有NCBI ;ensembl 和只有结构注释文件的参考基因组整理;其他网站的需要整理出如下的配置文件信息;比如jgi的会有数据库包含一些基因注释
- ## 物种拉丁名(NCBI 官方名称) 空格用_代替
- latin_name=Homo_sapiens
- ## NCBI 官方物种ID ;可以使用这个工具查询:taxonkit name2taxid;没有写none
- ## 示例命令"echo Homo_sapiens |sed 's/_/ /g' |/Business/psn_company/t04/hudabang/bin/yaogu/bin/taxonkit name2taxid --data-dir /Business/psn_company/t04/.taxonkit/"
- taxid=9606
- ## 基因组链接
- url=
- ## 基因组版本
- version=
- ## 基因组序列文件
- dna_fasta=
- ## 基因组结构注释文件;需要整理成类似ensembl的格式;需要添加 gene_biotype "protein_coding" 信息
- gtf=
- ## cds或蛋白序列文件;>gene_id 序列title需要替换成基因id
- fasta=
- ## CDS or proteins
- fasta_type=
- ## uniprot_fasta ;GO注释没有的时候比对本物种自己的uniprot;没有写none
- uniprot_fasta=
- ## uniprot 该物种对应的GO注释信息;没有写none
- uniprot_tsv=
- ## 包含所有ID的表格;第一列:gtf里的gene_id;第二列 gtf里的locus_tag;第三列 gtf 里的 old_locus_tag;第四列:NCBI的entry_id 第五列:gtf里的蛋白protein_id; 第六列:gtf里的gene_name ;第7列 基因类型;如果第2到6列没有信息;就写-;如果一个gene有多个protein_id;就写成多行;带上其他列的信息
- ##gene_id locus_tag old_locus_tag entry_id protein_id gene_name gene_biotype(用于匹配已知数据库的基因注释信息)
- id_table=
- ## 物种分类;animal plant fungi prokaryotes(做比对大库注释用)
- kindom=
- ## 物种三字符;animal plant fungi prokaryotes (hsa ..)其他三字符(添加pathway注释和做kegg注释用)
- org=
- ## GO注释文件(不含表头);两列:基因id 和 GO:1234567;GO:1234568;如果写none;则使用软件eggnog_map注释或比对uniprot;择优录取
- go_file=
- ## KEGG注释文件(不含表头)两列:基因id 和 KO号;如果写none则根据entryid locus_tag 对应到KO;对应不上则使用kobas比对大库;(kegg官网蛋白序列正在下载;下载完后会替换kobas注释;增加比对kegg本物种和大库进行注释)
- kegg_file=
- ## eggnog注释文件(不含表头;三列) 基因id;eggnog eggnog_class; 如果写none则先和eggnog5.0的数据库对应;对应不上则使用软件eggnog_map注释
- eggnog_file=
- ## swissprot注释文件(不含表头)两列:基因id 和 swissprot注释 如果写none则比对swissprot注释
- swissprot_file=
- ## NR注释文件(不含表头);两列: 如果写none 则比对注释;如果有taxid;优先比对taxid分类下所有物种;否则比对动物;植物 真菌等大库
- nr_file=
|