下面我们来算一下几个例子: library(stringdist) # 至少你应该知道我用的是R语言 stringdist('ATGCCTAA','ATGCCTAA', method = "hamming ") [1] 0 stringdist('AAAAAAAA','ATGCCTAA', method = "hamming") [1] 5 stringdist('AAAAAACC','ATGCCTAA' 10000,function(i){ x = sample(seq1,1) y = sample(seq1,1) while(x==y){y=sample(seq1,1)} stringdist
regex_inner_join regex_left_join regex_right_join regex_full_join regex_semi_join regex_anti_join 除此之外,还有以下前缀: stringdist 2 现在我们根据sub_misspellings中的misspelling列和words中的word列进行连接,正常情况下,由于misspelling列中都是拼错的单词,它是不可能连接起来的,但是stringdist_inner_join 可以根据单词之间的距离进行连接,达到忽略拼写错误的目的: joined <- sub_misspellings %>% stringdist_inner_join(words, by = c(misspelling
# 使用 stringdist 包 library(stringdist) # 余弦相似度 dist_cos = stringdist(q1, q2, method="cosine ") # 莱文斯坦距离 dist_lv = stringdist(q1, q2, method="lv") # 转化为 0-1 范围 dist_lv_r <- 1 -
然后,我们看下增加了进化树的综合绘图: library(Biostrings) x <- readAAStringSet(sequences) d <- as.dist(stringDist(x, method
sdist <- stringDist(as(auto,"AAStringSet"), method="hamming") clust <- hclust(sdist, method = "single
tipseq_aln <- muscle::muscle(tipseq) tipseq_aln <- DNAStringSet(tipseq_aln) ## 计算成对距离 tipseq_dist <- stringDist
我使用了R语言的stringdist包,用其中的Full Damerau-Levenshtein距离来比对两个榜单的歌曲名与歌手名(它计算了将b转为a时相邻字符发生的删除、插入、替换、转置等必要变换的数量