Linux-based Essential Bioinformatics

Linux生物信息技术基础
2026-05-26更新
本站主页 远程登录 教学大纲 教学计划 参考文档 网页制作 交流报告

vim编辑系统实例


实例4 — 171个alpha血红蛋白FASTA文件编辑

  1. 进入工作目录hba
    cd ~/1st/hba
  2. 复制公共目录中171个alpha血红蛋白FASTA格式序列文件
    cp /rd1/home/public/hba/171hba.fas .
  3. 提取序列文件中的注释行信息,保存到文件171hba中
    cat 171hba.fas | grep ">" >171hba
  4. 进入Vim编辑系统,编辑171hba
    vim 171hba
  5. 在底线模式下删除171hba中冗余信息
    :%s/^>//g — 删除每行序列条目名前面的大于号“>"
    :%s/Hemoglobin subunit //g — 删除蛋白质名
    :%s/OS=//g —删除物种名标识符”OS“
    :%s/OX=//g —删除分类标识符”OX“
    :%s/GN=//g —删除基因名标识符”GN“
  6. 将文档中各行空格分隔符替换成制表符
    :%s/ /\t/g
    将编辑结果保存到临时文件a中
    :w a
    退出Vim编辑系统,保留原始文件171hba
    :q!
  7. 提取临时文件a中第1-7列信息,保存到电子表格式文件171hba.xls中
    cat a | cut -f 1-7 >171hba.xls
  8. 将上述电子表格格式文件下载到本地,用Excl软件打开
    插入标题行信息
    Entry Accession Proten Family Species TaxID Gene

实例4 — 171个alpha血红蛋白FASTA文件编辑 (更加简捷的方法)

  1. 进入工作目录hba
    cd ~/1st/hba
  2. 复制公共目录中171个alpha血红蛋白FASTA格式序列文件
    cp /rd1/home/public/hba/171hba.fas .
  3. 进入Vim编辑系统
    :%v/^>//d — 删除序列信息,只保留注释信息
    :%s/^>//g — 删除每行序列条目名前面的大于号“>"
    :%s/Hemoglobin subunit //g — 删除蛋白质名
    :%s/OS=//g — 删除物种名标识符”OS“
    :%s/OX=//g — 删除分类标识符”OX“
    :%s/GN=//g — 删除基因名标识符”GN“
    :%s/PE=[1-5]//g — 删除序列分类信息,PE意为Protein Existance,表示序列来源分类,共分五级,详见: UniProt帮助文档
    :%s/SV=[1-9]//g — 删除序列版本号,SV意为Sequence Version,表示所收录的序列版本号
  4. 将上述电子表格格式文件下载到本地,用Excl软件打开
    插入标题行信息
    Entry Accession Proten Family Species TaxID Gene
ABC Bio PKU CNCB Linux WSL HTML CSS PHP VSCode Vim VimHelp MySQL UniProt EBI NCBI