P08D

进入工作目录hba
cd ~/1st/hba
复制公共目录中171个alpha血红蛋白FASTA格式序列文件
cp /rd1/home/public/hba/171hba.fas .
提取序列文件中的注释行信息，保存到文件171hba中
cat 171hba.fas | grep ">" >171hba
进入Vim编辑系统，编辑171hba
vim 171hba
在底线模式下删除171hba中冗余信息
:%s/^>//g — 删除每行序列条目名前面的大于号“>"
:%s/Hemoglobin subunit //g — 删除蛋白质名
:%s/OS=//g —删除物种名标识符”OS“
:%s/OX=//g —删除分类标识符”OX“
:%s/GN=//g —删除基因名标识符”GN“
将文档中各行空格分隔符替换成制表符
:%s/ /\t/g
将编辑结果保存到临时文件a中
:w a
退出Vim编辑系统，保留原始文件171hba
:q!
提取临时文件a中第1-7列信息，保存到电子表格式文件171hba.xls中
cat a | cut -f 1-7 >171hba.xls
将上述电子表格格式文件下载到本地，用Excl软件打开
插入标题行信息
Entry Accession Proten Family Species TaxID Gene

进入工作目录hba
cd ~/1st/hba
复制公共目录中171个alpha血红蛋白FASTA格式序列文件
cp /rd1/home/public/hba/171hba.fas .
进入Vim编辑系统
:%v/^>//d — 删除序列信息，只保留注释信息
:%s/^>//g — 删除每行序列条目名前面的大于号“>"
:%s/Hemoglobin subunit //g — 删除蛋白质名
:%s/OS=//g — 删除物种名标识符”OS“
:%s/OX=//g — 删除分类标识符”OX“
:%s/GN=//g — 删除基因名标识符”GN“
:%s/PE=[1-5]//g — 删除序列分类信息，PE意为Protein Existance，表示序列来源分类，共分五级，详见： UniProt帮助文档
:%s/SV=[1-9]//g — 删除序列版本号，SV意为Sequence Version，表示所收录的序列版本号
将上述电子表格格式文件下载到本地，用Excl软件打开
插入标题行信息
Entry Accession Proten Family Species TaxID Gene

ABC Bio PKU CNCB Linux WSL HTML CSS PHP VSCode Vim VimHelp MySQL UniProt EBI NCBI