Linux-based Essential Bioinformatics
Linux生物信息技术基础
2026-05-26更新
BLAST课堂练习
数据准备
-
输入数据:复制教学服务器公共目录下数据
mkdir ~/blast
cd blast
mkdir data
cp /rd1/home/public/BLAST/BLAST_DATA/* ./data
ls -1 ./data | wc
结果显示15
-
转录因子数据集合:复制教学服务器公共目录下玉米转录因子数据集
cp /rd1/home/public/BLAST/BLAST_DB/ZMTF_CDS.FASTA ./db
cp /rd1/home/public/BLAST/BLAST_DB/ZMTF_PEP.FASTA ./db
练习1:人的血红蛋白alpha和beta亚基比对
-
进入用户家目录下blast工作目录
cd ~/blast
-
复制输入数据
cp ./data/HBA_HUMAN.FASTA .
cp ./data/HBB_HUMAN.FASTA .
-
运行程序blastp
blastp -query HBA_HUMAN.FASTA -subject HBB_HUMAN.FASTA -out hba-hbb.out
-
查看结果
less hba-hbb.out
分值114, 期望值2e-38,相同位点43%,相似位点61%,空位三处6%
练习2:拟南芥和水稻SPL转录因子比较
-
在blast工作目录下,复制输入数据
cp ./data/17SPL_ARATH.FASTA .
cp ./data/19SPL_ORYSJ.FASTA .
-
运行程序
blastp -query 17SPL_ARATH.FASTA -subject 19SPL_ORYSJ.FASTA -out spl.out -outfmt 7
-
查看结果,找出拟南芥17个SPL和水稻19个SPL转录因子中的同源基因,其中SPL7_ARATH与SPL9_ORYSJ为直系同源基因
练习3:构建数据库构建索引文件并进行搜索
-
在blast工作目录下,复制输入数据
cp ./db/ZMTF_CDS.FASTA .
cp ./db/ZMTF_PEP.FASTA .
-
构建数据库索引文件
makeblastdb -in ZMTF_CDS.FASTA -dbtype nucl
makeblastdb -in ZMTF_PEP.FASTA -dbtype prot
- 数据库搜索
-
蛋白质序列搜索蛋白质序列数据库
blastp -query AtSPL3_PEP.FASTA -db ZMTF_PEP.FASTA -evalue 0.1 -out blastp
-
核酸序列搜索核酸序列数据库
blastn -query AtSPL3_CDS.FASTA -db ZMTF_CDS.FASTA -evalue 0.1 -out blastn
-
核酸序列搜索蛋白质序列数据库
blastx -query AtSPL3_CDS.FASTA -db ZMTF_PEP.FASTA -evalue 0.1 -out blastx
-
蛋白质序列搜索核酸序列数据库
tblastn -query AtSPL3_PEP.FASTA -db ZMTF_CDS.FASTA -evalue 0.1 -out tblastn
-
结果分析:blastp可以搜索到4个序列,而blastn搜索不到,blastx和tblastn结果与blastp相同