# 参考基因组配置文件 # 全部填写文件名;所有文件放到同一个文件夹下;;脚本会给一个输入路径参数;;脚本运行DNA和GTF会被move到输出目录下(这样设计是扬子网络不稳定;下载数据有问题;需要在245或药谷下载数据;然后传到扬子) # 目前有NCBI ;ensembl 和只有结构注释文件的参考基因组整理;其他网站的需要整理出如下的配置文件信息;比如jgi的会有数据库包含一些基因注释 ## 物种拉丁名(NCBI 官方名称) 空格用_代替 latin_name=Homo_sapiens ## NCBI 官方物种ID ;可以使用这个工具查询:taxonkit name2taxid;没有写none ## 示例命令"echo Homo_sapiens |sed 's/_/ /g' |/Business/psn_company/t04/hudabang/bin/yaogu/bin/taxonkit name2taxid --data-dir /Business/psn_company/t04/.taxonkit/" taxid=9606 ## 基因组链接 url= ## 基因组版本 version= ## 基因组序列文件 dna_fasta= ## 基因组结构注释文件;需要整理成类似ensembl的格式;需要添加 gene_biotype "protein_coding" 信息 gtf= ## cds或蛋白序列文件;>gene_id 序列title需要替换成基因id fasta= ## CDS or proteins fasta_type= ## uniprot_fasta ;GO注释没有的时候比对本物种自己的uniprot;没有写none uniprot_fasta= ## uniprot 该物种对应的GO注释信息;没有写none uniprot_tsv= ## 包含所有ID的表格;第一列:gtf里的gene_id;第二列 gtf里的locus_tag;第三列 gtf 里的 old_locus_tag;第四列:NCBI的entry_id 第五列:gtf里的蛋白protein_id; 第六列:gtf里的gene_name ;第7列 基因类型;如果第2到6列没有信息;就写-;如果一个gene有多个protein_id;就写成多行;带上其他列的信息 ##gene_id locus_tag old_locus_tag entry_id protein_id gene_name gene_biotype(用于匹配已知数据库的基因注释信息) id_table= ## 物种分类;animal plant fungi prokaryotes(做比对大库注释用) kindom= ## 物种三字符;animal plant fungi prokaryotes (hsa ..)其他三字符(添加pathway注释和做kegg注释用) org= ## GO注释文件(不含表头);两列:基因id 和 GO:1234567;GO:1234568;如果写none;则使用软件eggnog_map注释或比对uniprot;择优录取 go_file= ## KEGG注释文件(不含表头)两列:基因id 和 KO号;如果写none则根据entryid locus_tag 对应到KO;对应不上则使用kobas比对大库;(kegg官网蛋白序列正在下载;下载完后会替换kobas注释;增加比对kegg本物种和大库进行注释) kegg_file= ## eggnog注释文件(不含表头;三列) 基因id;eggnog eggnog_class; 如果写none则先和eggnog5.0的数据库对应;对应不上则使用软件eggnog_map注释 eggnog_file= ## swissprot注释文件(不含表头)两列:基因id 和 swissprot注释 如果写none则比对swissprot注释 swissprot_file= ## NR注释文件(不含表头);两列: 如果写none 则比对注释;如果有taxid;优先比对taxid分类下所有物种;否则比对动物;植物 真菌等大库 nr_file=