# 物种的拉丁名 Latin_name="" # 物种的taxid taxid="" # 基因组序列文件 DNA= # 整理成ensembl格式的gtf GTF= # cds序列或蛋白序列 (脚本里去判断是核酸还是蛋白序列;根据这个选择比对软件) fasta= # gi 针对原核 gi=none url="http://" Species=animal plant fungi prokaryotes 用于物种注释分类 [anno] GO= 选择eggnogmap则调用软件;其他则是读取这个文件(默认为已经有的数据库;如ensembl ncbi 其他网站提供的等;需要整理成 gene_id GO:0000001;GO:0000002的形式) KEGG 三种处理方式;如果能找到gene_id和 entryid或locustag的对应关系 则通过KEGGapi;对应K号; 否则使用kobas根据大库注释;animal plant fungi prokaryotes NR= 三种处理方式;ncbi的使用蛋白序列里的注释;ensembl使用Descripion;其他的根据拉丁名如果能找到taxid;则注释这个taxid对应的物种;否则注释大库animal plant fungi prokaryotes Swissprot= 统一比对swissprot TF= 这里面看id能否和TFlist对上;对不上则比对;顺序还是物种;大库 PPI= 和转录因子相同 gtf NY_final.evm.add_gene.gtf dna NY.fa fa /Business/psn_company/Work/Transcriptome/Datum/Public/Database/genome/Griffonia_simplicifolia_PN20231204026_GPA2023103197/pep.fa url customer specie plant org plant version _ tf plant fa_type proteins map_db plant 针对只有gtf和基因组序列的完善每个注释的脚本; 每个注释的步骤需要有单独的脚本处理; 然后写一个主流程去处理不同类型数据库的基因组;因为不同数据库;有的注释有已知;有的没有已知 gene_id protein_id locus_tag old_locus_tag entry_id gene_name GO NR ensembl 下载数据脚本 增加每一步请求或下载是否成功 提供下列文件中第二列的名字和版本;就可以下载对应的基因组数据 脊柱动物:https://ftp.ensembl.org/pub/release-111/species_EnsemblVertebrates.txt 植物:https://ftp.ensemblgenomes.ebi.ac.uk/pub/plants/release-58/species_EnsemblPlants.txt 动物http://ftp.ensemblgenomes.org/pub/metazoa/release-58/species_EnsemblMetazoa.txt 真菌http://ftp.ensemblgenomes.org/pub/fungi/release-58/species_EnsemblFungi.txt NCBI 下载数据的脚本目前交给张佳俊写