Linux-based Essential Bioinformatics
Linux生物信息技术基础
2026-05-26更新
vim编辑系统实例
实例4 — 171个alpha血红蛋白FASTA文件编辑
-
进入工作目录hba
cd ~/1st/hba
-
复制公共目录中171个alpha血红蛋白FASTA格式序列文件
cp /rd1/home/public/hba/171hba.fas .
-
提取序列文件中的注释行信息,保存到文件171hba中
cat 171hba.fas | grep ">" >171hba
-
进入Vim编辑系统,编辑171hba
vim 171hba
-
在底线模式下删除171hba中冗余信息
:%s/^>//g — 删除每行序列条目名前面的大于号“>"
:%s/Hemoglobin subunit //g — 删除蛋白质名
:%s/OS=//g —删除物种名标识符”OS“
:%s/OX=//g —删除分类标识符”OX“
:%s/GN=//g —删除基因名标识符”GN“
-
将文档中各行空格分隔符替换成制表符
:%s/ /\t/g
将编辑结果保存到临时文件a中
:w a
退出Vim编辑系统,保留原始文件171hba
:q!
-
提取临时文件a中第1-7列信息,保存到电子表格式文件171hba.xls中
cat a | cut -f 1-7 >171hba.xls
-
将上述电子表格格式文件下载到本地,用Excl软件打开
插入标题行信息
Entry Accession Proten Family Species TaxID Gene
实例4 — 171个alpha血红蛋白FASTA文件编辑 (更加简捷的方法)
-
进入工作目录hba
cd ~/1st/hba
-
复制公共目录中171个alpha血红蛋白FASTA格式序列文件
cp /rd1/home/public/hba/171hba.fas .
-
进入Vim编辑系统
:%v/^>//d — 删除序列信息,只保留注释信息
:%s/^>//g — 删除每行序列条目名前面的大于号“>"
:%s/Hemoglobin subunit //g — 删除蛋白质名
:%s/OS=//g — 删除物种名标识符”OS“
:%s/OX=//g — 删除分类标识符”OX“
:%s/GN=//g — 删除基因名标识符”GN“
:%s/PE=[1-5]//g — 删除序列分类信息,PE意为Protein Existance,表示序列来源分类,共分五级,详见:
UniProt帮助文档
:%s/SV=[1-9]//g — 删除序列版本号,SV意为Sequence Version,表示所收录的序列版本号
-
将上述电子表格格式文件下载到本地,用Excl软件打开
插入标题行信息
Entry Accession Proten Family Species TaxID Gene