12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152 |
- # 物种的拉丁名
- Latin_name=""
- # 物种的taxid
- taxid=""
- # 基因组序列文件
- DNA=
- # 整理成ensembl格式的gtf
- GTF=
- # cds序列或蛋白序列 (脚本里去判断是核酸还是蛋白序列;根据这个选择比对软件)
- fasta=
- # gi 针对原核
- gi=none
- url="http://"
- Species=animal plant fungi prokaryotes 用于物种注释分类
- [anno]
- GO= 选择eggnogmap则调用软件;其他则是读取这个文件(默认为已经有的数据库;如ensembl ncbi 其他网站提供的等;需要整理成 gene_id GO:0000001;GO:0000002的形式)
- KEGG 三种处理方式;如果能找到gene_id和 entryid或locustag的对应关系 则通过KEGGapi;对应K号; 否则使用kobas根据大库注释;animal plant fungi prokaryotes
- NR= 三种处理方式;ncbi的使用蛋白序列里的注释;ensembl使用Descripion;其他的根据拉丁名如果能找到taxid;则注释这个taxid对应的物种;否则注释大库animal plant fungi prokaryotes
- Swissprot= 统一比对swissprot
- TF= 这里面看id能否和TFlist对上;对不上则比对;顺序还是物种;大库
- PPI= 和转录因子相同
- gtf NY_final.evm.add_gene.gtf
- dna NY.fa
- fa /Business/psn_company/Work/Transcriptome/Datum/Public/Database/genome/Griffonia_simplicifolia_PN20231204026_GPA2023103197/pep.fa
- url customer
- specie plant
- org plant
- version _
- tf plant
- fa_type proteins
- map_db plant
- 针对只有gtf和基因组序列的完善每个注释的脚本; 每个注释的步骤需要有单独的脚本处理; 然后写一个主流程去处理不同类型数据库的基因组;因为不同数据库;有的注释有已知;有的没有已知
- gene_id protein_id locus_tag old_locus_tag entry_id gene_name GO NR
- ensembl 下载数据脚本 增加每一步请求或下载是否成功 提供下列文件中第二列的名字和版本;就可以下载对应的基因组数据
- 脊柱动物:https://ftp.ensembl.org/pub/release-111/species_EnsemblVertebrates.txt
- 植物:https://ftp.ensemblgenomes.ebi.ac.uk/pub/plants/release-58/species_EnsemblPlants.txt
- 动物http://ftp.ensemblgenomes.org/pub/metazoa/release-58/species_EnsemblMetazoa.txt
- 真菌http://ftp.ensemblgenomes.org/pub/fungi/release-58/species_EnsemblFungi.txt
- NCBI 下载数据的脚本目前交给张佳俊写
|