基因组整理构想.sh 2.2 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152
  1. # 物种的拉丁名
  2. Latin_name=""
  3. # 物种的taxid
  4. taxid=""
  5. # 基因组序列文件
  6. DNA=
  7. # 整理成ensembl格式的gtf
  8. GTF=
  9. # cds序列或蛋白序列 (脚本里去判断是核酸还是蛋白序列;根据这个选择比对软件)
  10. fasta=
  11. # gi 针对原核
  12. gi=none
  13. url="http://"
  14. Species=animal plant fungi prokaryotes 用于物种注释分类
  15. [anno]
  16. GO= 选择eggnogmap则调用软件;其他则是读取这个文件(默认为已经有的数据库;如ensembl ncbi 其他网站提供的等;需要整理成 gene_id GO:0000001;GO:0000002的形式)
  17. KEGG 三种处理方式;如果能找到gene_id和 entryid或locustag的对应关系 则通过KEGGapi;对应K号; 否则使用kobas根据大库注释;animal plant fungi prokaryotes
  18. NR= 三种处理方式;ncbi的使用蛋白序列里的注释;ensembl使用Descripion;其他的根据拉丁名如果能找到taxid;则注释这个taxid对应的物种;否则注释大库animal plant fungi prokaryotes
  19. Swissprot= 统一比对swissprot
  20. TF= 这里面看id能否和TFlist对上;对不上则比对;顺序还是物种;大库
  21. PPI= 和转录因子相同
  22. gtf NY_final.evm.add_gene.gtf
  23. dna NY.fa
  24. fa /Business/psn_company/Work/Transcriptome/Datum/Public/Database/genome/Griffonia_simplicifolia_PN20231204026_GPA2023103197/pep.fa
  25. url customer
  26. specie plant
  27. org plant
  28. version _
  29. tf plant
  30. fa_type proteins
  31. map_db plant
  32. 针对只有gtf和基因组序列的完善每个注释的脚本; 每个注释的步骤需要有单独的脚本处理; 然后写一个主流程去处理不同类型数据库的基因组;因为不同数据库;有的注释有已知;有的没有已知
  33. gene_id protein_id locus_tag old_locus_tag entry_id gene_name GO NR
  34. ensembl 下载数据脚本 增加每一步请求或下载是否成功 提供下列文件中第二列的名字和版本;就可以下载对应的基因组数据
  35. 脊柱动物:https://ftp.ensembl.org/pub/release-111/species_EnsemblVertebrates.txt
  36. 植物:https://ftp.ensemblgenomes.ebi.ac.uk/pub/plants/release-58/species_EnsemblPlants.txt
  37. 动物http://ftp.ensemblgenomes.org/pub/metazoa/release-58/species_EnsemblMetazoa.txt
  38. 真菌http://ftp.ensemblgenomes.org/pub/fungi/release-58/species_EnsemblFungi.txt
  39. NCBI 下载数据的脚本目前交给张佳俊写