首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习算法原理与实践

    文本主题模型之潜在语义索引(LSI)

    当然还有一些不是基于统计的方法,比如我们下面讲到的LSI。 2.  其实是一个东西,后面我们统称LSI,它是一种简单实用的主题模型。LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。 LSI简单实例     这里举一个简单的LSI实例,假设我们有下面这个有10个词三个文本的词频TF对应矩阵如下: ?      LSI用于文本相似度计算     在上面我们通过LSI得到的文本主题矩阵可以用于文本相似度计算。而计算方法一般是通过余弦相似度。比如对于上面的三文档两主题的例子。 LSI主题模型总结     LSI是最早出现的主题模型了,它的算法原理很简单,一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。

    1.6K20发布于 2018-08-07
  • 来自专栏null的专栏

    《数学之美》拾遗——潜在语义索引(LSI)

    一、潜在语义索引的提出     潜在语义索引(LSI),又称为潜在语义分析(LSA),是在信息检索领域提出来的一个概念。

    1.3K90发布于 2018-03-15
  • 来自专栏null的专栏

    《数学之美》拾遗——潜在语义索引(LSI)

    一、潜在语义索引的提出     潜在语义索引(LSI),又称为潜在语义分析(LSA),是在信息检索领域提出来的一个概念。

    1.2K10发布于 2019-02-13
  • 来自专栏王忘杰的小屋

    LSI9240-8I创建RAID、刷直通模式、软件恢复RAID数据

    Ctrl+H 选择当前RAID卡 新建RAID阵列 手动创建阵列 将现有0、1、2 三块硬盘添加到硬盘组 将硬盘组添加进预创建阵列 以64kB、无缓存直写模式创建raid5阵列(LSI9240 -8I无板载缓存) 确定使用直写模式 RAID阵列创建完成 接受阵列 保存配置 初始化,会丢失阵列中硬盘全部数据 创建完成 二、LSI9240-8I阵列卡刷为LSI9211- 使用一块新硬盘安装系统后,将需要进行RAID恢复的硬盘按顺序插入服务器(关机状态操作更安全),开机后可以直接看到硬盘而非RAID阵列信息,代表直通模式成功 阵列数据分析 LSI9240-8I默认的参数是左同步

    2.4K10编辑于 2022-09-22
  • 来自专栏OpenFPGA

    ​1970年代-大规模集成芯片(LSI)、ASIC和电子游戏吃豆人的诞生

    1970年代发展迅速的十年,BASIC和C高级编程语言在这十年中被广泛采用,大规模集成芯片(LSI)、ASIC等也被广泛应用到电子游戏中,同时经典游戏《吃豆人》和《星际迷航》也在这个时期诞生的,接下来让我们看看这十年的电子游戏和 到1975年中期,大规模集成(LSI)微芯片已经变得足够便宜,可以集成到消费品中。 第二年,General Instrument发布了一款“Pong-on-a-chip”LSI,并以低廉的价格提供给任何感兴趣的公司。

    2K50发布于 2021-07-16
  • 来自专栏Windows技术交流

    vmware虚拟机中xp和2003系统的scsi、pvscsi、AHCI SATA 、LSI SAS1068 SCSI驱动

    / https://github.com/GeorgeK1ng/GenAHCI/releases/download/GenAHCI/GenAHCI_6.3.0.1.7z 三、xp、2003原版系统不带LSI SAS1068 SCSI驱动,找了一个能用的(csdn花了我50积分,这里共享出来,让csdn无分可赚) LSI SAS1068 SCSI驱动,适用于64位XP、32位和64位2003,不适用32位XP 系统的驱动不要集成,否则用ISO安装系统过程中会报找不到驱动 ①vmware pvscsi驱动,不适用32位XP系统 ②GenAHCI_6.3.0.1 AHCI SATA驱动,不适用32位XP系统 ③LSI Logic和LSI Logic SAS会提示没有驱动(BusLogic+SCSI的前提是ISO已经集成winPreVista.iso中的scsi驱动,否则就老老实实选IDE类型)。 _1068_Win2k3_all_1240400\W2K3_32\lsinodrv.inf,LSI_SAS_32 C:\Users\Administrator\Desktop\vmware\x86\scsi

    1.7K10编辑于 2025-02-10
  • 来自专栏自然语言处理

    全新Gensim4.0代码实战(03)-相似性查询

    from gensim import models lsi = models.LsiModel(corpus, id2word=dictionary, num_topics=2) 输出 2021-01- 其次,LSI的好处是可以识别术语(在我们的情况下是文档中的单词)与主题之间的模式和关系。 我们的LSI空间是二维的(num_topics = 2),所以有两个主题,但这是任意的。 如果您有兴趣,可以在这里阅读有关LSI的更多信息:潜在语义索引<https://en.wikipedia.org/wiki/Latent_semantic_indexing>_: 现在假设用户键入查询“ = lsi[vec_bow] # 查询文档的LSI向量 print(vec_lsi) 输出 [(0, 0.46182100453271596), (1, -0.07002766527899937)] 在我们的情况下,它们是相同的九个文档 用于训练LSI,转换为2-D LSA空间。

    52830发布于 2021-02-02
  • 来自专栏机器学习AI算法工程

    python文本相似度计算

    因此,这里引入了Latent Semantic Indexing(LSI)从文本潜在的主题来进行分析。 LSI通过奇异值分解的方法计算出文本中各个主题的概率分布,严格的数学证明需要看相关论文。假设有5个主题,那么通过LSI模型,文本向量就可以降到5维,每个分量表示对应主题的权重。 = lsi[tfidf_vectors] for vec in lsi_vector: print vec [(0, 0.74917098831536277), (1, -0.0070559356931168236 = lsi[query_bow] print query_lsi [(0, 7.5170080232286249), (1, 0.10900815862153138)] index = similarities.MatrixSimilarity (lsi_vector) sims = index[query_lsi] print list(enumerate(sims)) [(0, 0.99971396), (1, 0.99625134),

    1.9K70发布于 2018-03-14
  • 来自专栏Python小课堂

    数据分析中,如何用Python轻松挖掘相似评论(文本)

    LSI 算法可以挖掘相似文本,因此,通过 LSI 算法可以找到与“快递很差”相似的评论。 下面我们以之前一篇文章《挖掘张同学视频评论主题》为例,实践 LSI 算法。 接着,构建 LSI 模型 lsi = models.LsiModel( corpus, id2word=dictionary, power_iters=100, num_topics=10 ) num_topics # lsi[corpus] 是所有评论对应的向量 index = similarities.MatrixSimilarity(lsi[corpus]) 2.2 查询相似文本 张同学的视频评论中,很多人都对  = lsi[vec_bow] # 计算每条评论与query的相似度 sims = index[vec_lsi] 经过 LSI 处理后,每条评论都可以用向量表示,同样的,query也可以用向量表示。 LSI 算法原理 LSI 与我们之前讲的 LDA 类似,都能用来计算每篇文本的主题。 LSI 是基于奇异值分解(SVD)的方法来得到文本的主题的。

    1.4K60编辑于 2021-12-26
  • 来自专栏云时之间

    NLP系列学习:潜在语义牵引

    找出主题的方法有一些是基于统计的方法,还有一些不是基于统计的方法,比如LSI 二:潜在语义索引概述 LSI是基于奇异值分解(SVD)的方法来得到文本的主题的。 三:LSI的应用性 LSI在我看来最关键的还是设计K的取值,如果K取的很合适,可以把联系较为紧密的词语提出来,其实就是用降维做相关性计算.但是LSI现在并不是那么流行,也是有一些原因: 1:太慢 SVD 3:LSI不能聚类 因为LSI 得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。 所以聚类不行,但是该算法后续额变种包括LDA聚类是很有效的,因为LSI找的是特征子空间,聚类找的则是实例分组, LSI 虽然能得到看起来貌似是聚类的结果,但其意义不见得是聚类所想得到的。 四:实验 代码整理ing~ 后续附加 五:总结 对于LSI,我们在一些规模较小的问题上,使用LSI是很划算的,但是你想实打实的做主题模型,因为数据量太多了,还是老老实实用LDA这样的模型吧.

    66550发布于 2018-12-06
  • 来自专栏PPV课数据科学社区

    python文本相似度计算

    因此,这里引入了Latent Semantic Indexing(LSI)从文本潜在的主题来进行分析。 LSI通过奇异值分解的方法计算出文本中各个主题的概率分布,严格的数学证明需要看相关论文。假设有5个主题,那么通过LSI模型,文本向量就可以降到5维,每个分量表示对应主题的权重。 = lsi[tfidf_vectors] for vec in lsi_vector: print vec [(0, 0.74917098831536277), (1, -0.0070559356931168236 = lsi[query_bow] print query_lsi [(0, 7.5170080232286249), (1, 0.10900815862153138)] index = similarities.MatrixSimilarity (lsi_vector) sims = index[query_lsi] print list(enumerate(sims)) [(0, 0.99971396), (1, 0.99625134),

    2.8K50发布于 2018-04-24
  • 来自专栏人工智能LeadAI

    python专业方向 | 文本相似度计算

    因此,这里引入了Latent Semantic Indexing(LSI)从文本潜在的主题来进行分析。 LSI通过奇异值分解的方法计算出文本中各个主题的概率分布,严格的数学证明需要看相关论文。假设有5个主题,那么通过LSI模型,文本向量就可以降到5维,每个分量表示对应主题的权重。 = lsi[tfidf_vectors]for vec in lsi_vector: print vec [(0, 0.74917098831536277), (1, -0.0070559356931168236 = lsi[query_bow] print query_lsi [(0, 7.5170080232286249), (1, 0.10900815862153138)] index = similarities.MatrixSimilarity (lsi_vector) sims = index[query_lsi] print list(enumerate(sims)) [(0, 0.99971396), (1, 0.99625134), (

    2.5K80发布于 2018-03-09
  • 来自专栏生信技能树

    大佬William J. Greenleaf团队开发的scATAC-seq分析软件:ArchR(二)

    首先,使用Latent Semantic Indexing (LSI)算法,这是一种最初为自然语言处理设计的用于基于词频评估文档相似性的方法。 LSI允许你将稀疏插入counts matrix 的维度从数千降低到数十或数百。然后,使用UMAP 或 t-SNE 来可视化数据。 这里作者引入的是迭代LSI方法,迭代LSI方法通过逐步细化特征选择,提高了scATAC-seq数据降维的准确性和可重复性,减少了批次效应的影响。 iterations:指定迭代次数,决定了LSI过程的精细程度; varFeatures:指定用于LSI的可变特征数量,影响特征选择的严格性; resolution:影响聚类的分辨率,决定了聚类的细致程度 批次矫正(可选步骤) 有时,迭代LSI方法对于强烈的批次效应差异来说校正得还不够。

    50410编辑于 2025-05-12
  • 来自专栏数据科学(冷冻工厂)

    单细胞转录组|scATAC-seq 数据整合

    ATAC']] <- CreateChromatinAssay( counts = counts, fragments = Fragments(pbmc.atac) ) # compute LSI "]], new.reduction.name = "integrated_lsi", dims.to.integrate = 1:30 ) # create a new UMAP using the integrated embeddings integrated <- RunUMAP(integrated, reduction = "integrated_<em>lsi</em>", dims = 2:30 # compute UMAP and store the UMAP model pbmc.multi <- RunUMAP(pbmc.multi, reduction = "<em>lsi</em>", dims = 2 ", new.reduction.name = "ref.<em>lsi</em>", reduction.model = 'umap' ) MapQuery() 函数的作用是什么?

    44910编辑于 2024-12-30
  • 来自专栏python前行者

    python文本相似度计算

    LSI通过奇异值分解的方法计算出文本中各个主题的概率分布,严格的数学证明需要看相关论文。假设有5个主题,那么通过LSI模型,文本向量就可以降到5维,每个分量表示对应主题的权重。 (lsi_vector) sims = index[query_lsi] print list(enumerate(sims)) [(0, 0.99971396), (1, 0.99625134), ( 模型得到的相似度 def sim_cal_lsi(self,doc_vector=None, input_file="", tfidf_vectors=None): lsi = (query) query_lsi = lsi[query_bow] index = similarities.MatrixSimilarity(lsi_vector) /data/33.txt',tfidf_vectors) print("lsi:",simlarity_lsi) 参考:https://www.jianshu.com/p/edf666d3995f

    5.4K30发布于 2019-03-25
  • 来自专栏芯智讯

    传三星将于2023年小幅扩大OLED驱动芯片产能

    9月20日消息,据韩国媒体THEELEC 引用市场人士的说法报导指出,三星电子系统LSI 部门计划在2023年小幅扩大OLED DDI (驱动芯片)的产能,并将通过与中国台湾联电的合作关系,进一步确保智能手机的 目前三星电子系统LSI 部门是全球OLED DDI 市场上的领头羊。 根据市场研究机构Omdia 的资料显示,截至2022 年第一季,三星电子系统LSI 部门的智能手机OLED DDI 市场占有率达到55%,大幅领先排名第二LX Semicon 的14.6%,以及排名第三 而三星电子系统LSI 部门之所以有如此强势的市场地位,则主要归功于三星电子和苹果这两家全球主要智能手机厂商的大规模采用。 报导指出,现阶段三星电子系统LSI 部门12 吋晶圆的OLED DDI 生产线有两条,主要包括三星代工部门和台湾联电的供应。

    29210编辑于 2022-09-27
  • 来自专栏icecream小屋

    gensim技术文档

    (2)利用初始化的模型将语料转化为对象的向量 1)TFIDF(词频逆文档频率) 2)LSI(潜在语义索引) 将词袋模型或TFIDF空间映射到低维度的潜在空间,推荐200-500为金标准,在达观数据的长文本分类中 LSI可以进行增量训练,只要有新文档可以一直输入模型当中,通过add_document方法。如果python报memoryerror,那就是内存不够了,需要降低维度。 在单纯使用LSI向量,不加入TFIDF的情况下,准确率不高。 如果单纯将corpus转化为LSI向量,需要将测试文章用LSI模型转化一次:

    1.1K20发布于 2019-12-26
  • 来自专栏存储内核技术交流

    探索Lustre文件系统的客户端mount实现

    the srv_mnt */ struct kobject *lsi_kobj; char lsi_svname[MTI_NAME_MAXLEN]; /* lsi_osd_obdname format = 'lsi->ls_svname'-osd */ char lsi_osd_obdname[MTI_NAME_MAXLEN + 4]; /* lsi_osd_uuid format = 'lsi->ls_osd_obdname'_UUID */ char lsi_osd_uuid[MTI_NAME_MAXLEN + 9]; struct obd_export *lsi_osd_exp ; char lsi_osd_type[16]; char lsi_fstype[16]; struct backing_dev_info lsi_bdi; /* each lsi_lwp_mutex; struct list_head lsi_lwp_list; unsigned long lsi_lwp_started:1, lsi_server_started

    2.5K40编辑于 2023-02-26
  • 来自专栏存储内核技术交流

    聊聊lustre中mgc的实现和思考

    super_block *sb, void *lmd2_data, int silent) { // 初始化 lustre 超级块信息,返回struct lustre_sb_info * lsi (sb); } lustre_init_lsi :lustre_sb_info申请空间,并且把超级块的s_fs_info设置为lustre_sb_info,lustre_sb_info包括了struct lustre_mount_data *lsi_lmd,lsi_lmd是保存客户单mount的信息 /***************** lustre superblock ************** / struct lustre_sb_info *lustre_init_lsi(struct super_block *sb) { struct lustre_sb_info *lsi; OBD_ALLOC_PTR (lsi); OBD_ALLOC_PTR(lsi->lsi_lmd); s2lsi_nocast(sb) = lsi; RETURN(lsi); } lmd_parse :解析mount挂载时候的信息

    67420编辑于 2022-08-17
  • 来自专栏木又AI帮

    【leetcode刷题】T60-Z字形变换

                        flag = True                 else:                     count -=          # 拼接字符串         for lsi  in ls:             res += lsi         return res C++版本 class Solution { public:     string convert(                 }else                     count--;             }         }         // 拼接字符串         for(auto lsi : ls)             res += lsi;         return res;     } };

    45630发布于 2019-07-17
领券