genome_conf.ini 3.0 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556
  1. # 参考基因组配置文件
  2. # 全部填写文件名;所有文件放到同一个文件夹下;;脚本会给一个输入路径参数;;脚本运行DNA和GTF会被move到输出目录下(这样设计是扬子网络不稳定;下载数据有问题;需要在245或药谷下载数据;然后传到扬子)
  3. # 目前有NCBI ;ensembl 和只有结构注释文件的参考基因组整理;其他网站的需要整理出如下的配置文件信息;比如jgi的会有数据库包含一些基因注释
  4. ## 物种拉丁名(NCBI 官方名称) 空格用_代替
  5. latin_name=Homo_sapiens
  6. ## NCBI 官方物种ID ;可以使用这个工具查询:taxonkit name2taxid;没有写none
  7. ## 示例命令"echo Homo_sapiens |sed 's/_/ /g' |/Business/psn_company/t04/hudabang/bin/yaogu/bin/taxonkit name2taxid --data-dir /Business/psn_company/t04/.taxonkit/"
  8. taxid=9606
  9. ## 基因组链接
  10. url=
  11. ## 基因组版本
  12. version=
  13. ## 基因组序列文件
  14. dna_fasta=
  15. ## 基因组结构注释文件;需要整理成类似ensembl的格式;需要添加 gene_biotype "protein_coding" 信息
  16. gtf=
  17. ## cds或蛋白序列文件;>gene_id 序列title需要替换成基因id
  18. fasta=
  19. ## CDS or proteins
  20. fasta_type=
  21. ## uniprot_fasta ;GO注释没有的时候比对本物种自己的uniprot;没有写none
  22. uniprot_fasta=
  23. ## uniprot 该物种对应的GO注释信息;没有写none
  24. uniprot_tsv=
  25. ## 包含所有ID的表格;第一列:gtf里的gene_id;第二列 gtf里的locus_tag;第三列 gtf 里的 old_locus_tag;第四列:NCBI的entry_id 第五列:gtf里的蛋白protein_id; 第六列:gtf里的gene_name ;第7列 基因类型;如果第2到6列没有信息;就写-;如果一个gene有多个protein_id;就写成多行;带上其他列的信息
  26. ##gene_id locus_tag old_locus_tag entry_id protein_id gene_name gene_biotype(用于匹配已知数据库的基因注释信息)
  27. id_table=
  28. ## 物种分类;animal plant fungi prokaryotes(做比对大库注释用)
  29. kindom=
  30. ## 物种三字符;animal plant fungi prokaryotes (hsa ..)其他三字符(添加pathway注释和做kegg注释用)
  31. org=
  32. ## GO注释文件(不含表头);两列:基因id 和 GO:1234567;GO:1234568;如果写none;则使用软件eggnog_map注释或比对uniprot;择优录取
  33. go_file=
  34. ## KEGG注释文件(不含表头)两列:基因id 和 KO号;如果写none则根据entryid locus_tag 对应到KO;对应不上则使用kobas比对大库;(kegg官网蛋白序列正在下载;下载完后会替换kobas注释;增加比对kegg本物种和大库进行注释)
  35. kegg_file=
  36. ## eggnog注释文件(不含表头;三列) 基因id;eggnog eggnog_class; 如果写none则先和eggnog5.0的数据库对应;对应不上则使用软件eggnog_map注释
  37. eggnog_file=
  38. ## swissprot注释文件(不含表头)两列:基因id 和 swissprot注释 如果写none则比对swissprot注释
  39. swissprot_file=
  40. ## NR注释文件(不含表头);两列: 如果写none 则比对注释;如果有taxid;优先比对taxid分类下所有物种;否则比对动物;植物 真菌等大库
  41. nr_file=