2021-06-18 07:02:04  才艺/体育/拓展

当我们从ggf3文件中提取出蛋白序列,并与数据库比对获得基因ID后,我们会发现,我们获得的单个基因有多个ID。这是因为,我们设置了比对的p值阈值,因此只要是高于阈值的相似基因ID都会被列出。我们需要的是匹配度最高,也就是pvalue最高的ID,因此,我们需要去重复。

科学网gff3文件结果去重复之grep

grep -w命令为我们提供了解决的方案。grep -w为全局匹配,简单理解为:精准匹配。我们一般使用的grep为模糊匹配。例如在test1文件中:

科学网gff3文件结果去重复之grep

1 a

科学网gff3文件结果去重复之grep

11 b

111 c

当我们使用 grep 1 test时,我们获得的输出结果为:

1 a

11 b

111 c

而当我们使用:grep -w 1 test,我们获得的结果为:

1 a

这就是grep的模糊匹配与精准匹配。

在获得table文件中,文件默认将基因的相似度由高到低排序,因此我们只要提取各基因的首行,重定向输出到新文件中即可。head -n 1 file 为我们提供了解决方案。

  

上一篇:科学网中科院广州地球化学研究所张干团队博士后招聘 下一篇:科学网想减肥请关注肠道细菌

发表评论