首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏图灵技术域

    基于WMD(词移距离)的句子相似度分析简介

    举例: 文档1: Obama speaks to the media in Illinois 文档2: The President greets the press in Chicago 先去除Stop-words

    1.3K40发布于 2021-05-21
  • 来自专栏Spark学习技巧

    SparkMllib主题模型案例讲解

    vectorizer.vocabulary 10,使用模型 val transformed = model.transform(dataset) transformed.show(false) 五 可调整测试点 1, 增加stop-words

    1.1K50发布于 2018-01-31
  • 来自专栏数据科学与人工智能

    【Python环境】Python语言下的机器学习库

    另外,它还包含有限的自然语言处理特征提取能力,以及词袋(bag of words)、tfidf(Term Frequency Inverse Document Frequency算法)、预处理(停用词/stop-words

    1.1K60发布于 2018-02-27
  • 来自专栏深度学习自然语言处理

    【论文笔记】中文词向量论文综述(二)

    通过计算相似度来消除歧义,具体的公式如下, 其中c_i,c_j代表的是某个词中的第几个字,Trans(c_i)表示这个字的英文,stop-words(en)代表英文的停用词,x是Trans中的英文,具体来说

    76530发布于 2018-10-09
  • 来自专栏数据科学与人工智能

    【机器学习】Python语言下的机器学习库

    另外,它还包含有限的自然语言处理特征提取能力,以及词袋(bag of words)、tfidf(Term Frequency Inverse Document Frequency算法)、预处理(停用词/stop-words

    995100发布于 2018-02-26
  • 来自专栏人工智能LeadAI

    我与Python | 从Hacker到探索Deep Learning

    领域中,它还包含有限的自然语言处理特征提取能力,以及词袋(bag of words)、tfidf(Term Frequency Inverse Document Frequency算法)、预处理(停用词/stop-words

    1.3K70发布于 2018-03-09
  • 来自专栏机器人网

    Python最有用的机器学习工具和库

    另外,它还包含有限的自然语言处理特征提取能力,以及词袋(bag of words)、tfidf(Term Frequency Inverse Document Frequency算法)、预处理(停用词/stop-words

    1.2K50发布于 2018-07-23
  • 来自专栏AI星球

    我与Python--从Hacker到探索Deep Learning

    领域中,它还包含有限的自然语言处理特征提取能力,以及词袋(bag of words)、tfidf(Term Frequency Inverse Document Frequency算法)、预处理(停用词/stop-words

    59430发布于 2018-09-12
  • 来自专栏数据派THU

    教你在Python中实现潜在语义分析(附代码)

    english') # tokenization tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split()) # remove stop-words

    4.8K30发布于 2018-12-24
  • 来自专栏数据派THU

    关于NLP和机器学习之文本处理

    另一个例子是将近似相同的单词(例如“stopwords”,“stop-words”和“stop words”)映射到“stopwords”。

    1.8K31发布于 2019-05-28
  • 来自专栏信数据得永生

    NumPyML 源码解析(五)

    ): """ Split a string at any whitespace characters, optionally removing punctuation and stop-words kwargs, ): """ Split a string into individual words, optionally removing punctuation and stop-words

    38510编辑于 2024-02-17
  • 来自专栏arXiv每日学术速递

    机器学习学术速递[9.7]

    Second, the majority of masked tokens are stop-words and punctuation, leading to under-utilization of

    1.5K30发布于 2021-09-16
领券