摘要:
本发明公开了一种基于k‑tuple频度的核酸序列搜索方法及系统。该方法包括:确定相邻k‑tuple对在待搜索核酸序列中出现的频次Xij,i=1,…,4k,j=1,…,4k,其中,Xij表示k‑tuple i出现在k‑tuple j之前的次数;确定Xij的向量表示,i=1,…,4k,j=1,…,4k;根据所有Xij,i=1,…,4k,j=1,…,4k的向量表示确定所有tuple的向量表示,根据所有tuple的向量表示确定所述待搜索核酸序列的降维表示;计算降维后的待搜索核酸序列与基因数据库中各核酸序列之间的相异度,其中,基因数据库中的核酸序列为采用与待搜索核酸序列降维方法相同的方法进行降维后得到的核酸序列;输出基因数据库中与降维后待搜索核酸序列相异度相对较低的核酸序列。本发明具有所需存储空间小、计算效率高的优势。