首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏老秦求学

    基于Kears的Reuters新闻分类

    Reuters数据集下载速度慢,可以在我的repo库中找到下载,下载后放到~/.keras/datasets/目录下,即可正常运行。 构建神经网络将路透社新闻分类,一共有46个类别。 完整代码 欢迎Fork、Star 路透社数据集 Reuters数据集发布在1986年,一系列短新闻及对应话题的数据集;是文本分类问题最常用的小数据集。 和IMDB、MNIST数据集类似,Reuters数据集也可以通过Keras直接下载。 加载数据集 from keras.datasets import reuters (train_data,train_labels), (test_data, test_labels) = reuters.load_data , 46, 4689, 4329, 86, 61, 3499, 4795, 14, 61, 451, 4329, 17, 12] 也可以将整数列表转换成原始数据[英文句子] word_index = reuters.get_word_index

    1.4K40发布于 2018-08-01
  • 来自专栏素质云笔记

    R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

    ) print(reuters) summary(reuters) 还有查看语料库的几个函数:inspect(),print(),summary()三个。 )查看此时的效果,明显好很多 reuters <- tm_map(reuters, PlainTextDocument)#将reuters转化为纯文本文件,去除标签 reuters <- tm_map( reuters, stripWhitespace)#去掉空白 reuters <- tm_map(reuters, tolower)#转换为小写 reuters <- tm_map(reuters, removeWords , PlainTextDocument)#将reuters转化为纯文本文件,去除标签 dtm <- DocumentTermMatrix(reuters) #报错可看http://www.bubuko.com /infodetail-345849.html #需先执行一下reuters <- tm_map(reuters, PlainTextDocument) #查看词汇文档矩阵内容 inspect(dtm[

    1.5K40发布于 2019-05-27
  • 来自专栏阮一峰的网络日志

    路透社开放API了

    路透社(Reuters)是世界上数一数二的新闻社和财经媒体,几乎全球所有大型金融机构都购买了路透社的终端机,每年的使用费非常昂贵。 * 中国财经:http://feeds.feedburner.com/Reuters/china(推荐) * 美国财经:http://feeds.feedburner.com/Reuters/us * 宏观经济:http://feeds.feedburner.com/Reuters/macro * 全球观察:http://feeds.feedburner.com/Reuters/news(推荐) * 评论专栏:http://feeds.feedburner.com/Reuters/review * 奥运会:http://feeds.feedburner.com/Reuters/Olympics

    3K50发布于 2018-09-21
  • 来自专栏海天一树

    LDA文档主题生成模型入门

    数据集位于lda安装目录的tests文件夹中,包含三个文件:reuters.ldac, reuters.titles, reuters.tokens。 reuters.titles包含了395个文档的标题 reuters.tokens包含了这395个文档中出现的所有单词,总共是4258个 reuters.ldac有395行,第i行代表第i个文档中各个词汇出现的频率 以第0行为例,第0行代表的是第0个文档,从reuters.titles中可查到该文档的标题为“UK: Prince Charles spearheads British royal revolution 查到第0个单词为church 2:1表示第2个单词出现了1次,从reuters.tokens查到第2个单词为years 6:1表示第6个单词出现了1次,从reuters.tokens查到第6个单词为told 9:1表示第9个单词出现了1次,从reuters.tokens查到第9个单词为year 12:5表示第12个单词出现了5次,从reuters.tokens查到第12个单词为charles …… 这里第

    2.7K20发布于 2018-07-25
  • 来自专栏大数据文摘

    Uber是如何从一个小打小闹的黑车服务公司成长为世界最具价值且最有争议的初创企业的

    Thomson Reuters,来源:Reuters 2016年2月:Uber获得俄罗斯亿万富翁Mikhail Fridman两亿美元的投资。 Thomson Reuters,来源:Reuters 2016年5月:Uber 和丰田集团签署了一份“谅解备忘录”来探索两个公司共同合作的可能性。 Thomson Reuters,来源:Reuters 2016年7月:Uber宣称本月中旬它将完成自己的第20亿次行程。离它完成第10亿次出行仅用时6个月。 KimKyung-Hoon/Reuters,来源:Business Insider 2016年7月:Uber在中国这场代价高昂的战役以滴滴350亿美元并购优步中国落下帷幕。 REUTERS,来源:Business Insider 2016年8月:泄漏的财务报表显示Uber在2016年上半年至少损失了12.7亿美元。

    1K30发布于 2018-05-25
  • 来自专栏爬虫逆向案例

    NLP自然语言处理002:NLTK中的语料和词汇资源

    路透社语料库 包括10788个新闻文档,共计130万字,这些文档分90个主题,安装训练集和测试分组,编号‘test/14826’文档属于测试 from nltk.corpus import reuters print(reuters.fileids()[:500]) 输出结果 [‘test/14826’, ‘test/14828’, ‘test/14829’, ‘test/14832’, ‘test ()) 输出:10788 查看语料类别尺寸: len(reuters.categories()) 查看某个编号的语料下类别尺寸: reuters.categories('training/9865') 输出:[‘barley’, ‘corn’, ‘grain’, ‘wheat’] 查看某几个联合编号下语料的类别尺寸: reuters.categories(['training/9865','training /9880']) 输出:[‘barley’, ‘corn’, ‘grain’, ‘money-fx’, ‘wheat’] 查看哪些编号的文件属于指定的类别: reuters.fileids('barley

    89310发布于 2021-11-22
  • 来自专栏数据结构与算法

    Codeforces#498F. Xor-Paths(折半搜索)

    (Reuters) - Retail giant Walmart Inc (WMT.N) said on Tuesday it entered into a strategic partnership Microsoft has been working on a technology that would eliminate cashiers and checkout lines from stores, Reuters to retailers from around the world and has had talks with Walmart about a potential collaboration, Reuters

    46130发布于 2018-07-27
  • 来自专栏xiaosen

    新闻主题分类案例

    Bears Claw Back Into the Black (Reuters)","Reuters - Short-sellers, Wall Street's dwindling\band of ultra-cynics , are seeing green again." "3","Carlyle Looks Toward Commercial Aerospace (Reuters)","Reuters - Private )","Reuters - Authorities have halted oil export\flows from the main pipeline in southern Iraq after\ )","Reuters - Stocks ended slightly higher on Friday\but stayed near lows for the year as oil prices Bears Claw Back Into the Black"," NEW YORK (Reuters) - Short-sellers, Wall Street's dwindling band of

    57210编辑于 2024-06-03
  • 来自专栏计算机视觉理论及其实现

    keras.datasets

    dataset.imdb module: IMDB sentiment classification dataset.mnist module: MNIST handwritten digits dataset.reuters module: Reuters topic classification dataset.

    45120编辑于 2022-09-03
  • 来自专栏区块链大本营

    想监管加密货币?看法各异的G20诸国能达成共识吗

    riotimesonline.com/brazil-news/rio-business/brazil-bans-funds-of-negotiating-in-cryptocurrencies/ https://www.reuters.com /amp/2018/03/13/g20-meeting-japan-to-prevent-cryptocurrencies-for-money-laundering.html https://www.reuters.com banking-finance/389340-could-the-uae-saudi-arabia-sign-up-for-oil-backed-cryptocurrency https://www.reuters.com south-korean-travel-site-hotels-accept-12-cryptocurrencies/(韩国酒店接受加密货币支付,这对赴韩旅客来说,一定是一次有趣的体验) https://www.reuters.com south-korea-to-ban-cryptocurrency-traders-from-using-anonymous-bank-accounts-idUSKBN1FC069 https://www.reuters.com

    77850发布于 2018-05-10
  • 来自专栏钱塘大数据

    数据挖掘的数据集资源

    Data High-quality Australian Sign Language Data Text Categorization 20 Newsgroups Data Reuters cs.cmu.edu/project/theo-11/www/wwkb/ http://www.phys.uni.torun.pl/~duch/software.html 在下面的网址可以找到reuters MLRepository.html 关于基金的数据挖掘的网站 http://www.gotofund.com/index.asp http://lans.ece.utexas.edu/~strehl/ reuters cs.cmu.edu/project/theo-11/www/wwkb/ http://www.phys.uni.torun.pl/~duch/software.html 在下面的网址可以找到reuters 数据集 http://www.research.att.com/~lewis/reuters21578.html 以下网址上有各种数据集: http://kdd.ics.uci.edu

    2.9K60发布于 2018-03-01
  • 来自专栏新智元

    美国正考虑禁止中国社交媒体APP,据称TikTok在名单中

    新智元报道 来源:reuters 编辑: 永上 【新智元导读】据路透社报道,美东时间6日晚间,美国国务卿迈克·蓬佩奥表示,美国正考虑禁止中国社交媒体应用程序,包括抖音海外版TikTok。 参考链接: https://www.reuters.com/article/us-usa-tiktok-china-pompeo/pompeo-says-u-s-looking-at-banning-chinese-social-media-apps-including-tiktok-fox-idUSKBN2480DF

    77820发布于 2020-07-09
  • 来自专栏数据派THU

    自然语言处理数据集免费资源开放(附学习资料)

    以下是一些对于新手而言非常棒的文本分类数据集: Reuters Newswire Topic Classification(Reuters-21578)(http://kdd.ics.uci.edu/databases /reuters21578/reuters21578.html)。 同样可以看RCV1,RCV2,以及TRC2 (http://trec.nist.gov/data/reuters/reuters.html)。

    2.5K60发布于 2018-01-30
  • 来自专栏AI科技评论

    EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出:多标签文本分类中长尾分布的平衡策略

    图 1 展示了通用多标签文本分类数据集 Reuters-21578 的样例数据(Hayes and Weinstein, 1990)。 图1 Reuters-21578 的样例数据(仅展示文章标题)。 标签后面的数字代表数据集中带有该标签的数据实例个数。 Reuters-21578 数据集包含1987 年刊登在路透社的一万多份新闻文章(Hayes and Weinstein, 1990)。 Reuters-21578 结果中,BCE 的表现最差。依次对比 micro-F1 和 macro-F1之间、及不同组间的得分可以看出长尾分布的影响。 在开放数据集 Reuters-21578(90 类标签,通用领域)和 PubMed(18211 类标签,生物医学领域)的实验表明,DB 的模型效果优于其他损失函数。

    92520发布于 2021-11-17
  • 来自专栏云云众生s

    人工智能如何改变法律研究与实践

    根据Thomson Reuters 2024 Future of Professionals Report,目前有72%的法律专业人士认为AI对其工作有积极影响,该行业正在经历根本性的转变。 我将借鉴Thomson Reuters的研究,探讨向量搜索和高级语言模型如何重塑法律实践。 采用AI的经济理由 AI对法律工作的影响是可衡量的:Thomson Reuters发现,AI工具平均每周可以为每位律师节省四个小时,相当于每年增加10万美元的可计费时间。 Thomson Reuters 的一项研究表明,96% 的法律专业人士认为,AI 应该支持而非取代人类的判断。实施审查流程,通过人工反馈来不断提高 AI 的准确性。

    40210编辑于 2025-02-08
  • 来自专栏PPV课数据科学社区

    R包之tm:文本挖掘包

    Content: documents: 2 最后可以看一个指定外部reader的例子 reut21578 <- system.file("texts", "crude", package = "tm") reuters vid,content_transformer(tolower)) 其中的content_transformer是一个修改文档内容的方便的函数,tolower可以是任何其他的字符串修改函数 移除停用词 reuters <- tm_map(reuters, removeWords, stopwords("english")) 过滤器 过滤器可以移除不感兴趣的(或者感兴趣的)文档。 ,函数TermDocumentMatrix和DocumentTermMatrix可直接创建文档-单词矩阵,这二者的却别 在于矩阵的行是文档还是单词 dtm <- DocumentTermMatrix(reuters DocumentTermMatrix函数中指定一个 字典,这样生成的矩阵中,就只有字典中出现的词语,不在字典中的词语不会出现在文档单词矩阵中 如下所示 inspect(DocumentTermMatrix(reuters

    2.4K80发布于 2018-04-24
  • 来自专栏机器学习实践二三事

    NLP常用数据集

    Reuters Newswire Topic Classification (Reuters-21578). A collection of news documents that appeared on Reuters in 1987 indexed by categories.

    1.4K101发布于 2018-01-02
  • 来自专栏佳爷的后花媛

    Germany flips to Apple-Google approach on phone contact tracing

    Germany flips to Apple-Google approach on smartphone contact tracing 2020 BERLIN (Reuters) - Germany research institute, was told on Saturday that it had been taken off the project, correspondence seen by Reuters

    47630发布于 2020-04-29
  • 来自专栏火星娃统计

    深度学习-多分类问题

    深度学习-多分类问题 概述 数据来自路透社数据集,为kersa库自带的数据,包含不同的主题,每个主题最少有10个样本 代码 #导入数据 from keras.datasets import reuters (train_data, train_labels), (test_data, test_labels) = reuters.load_data( num_words=10000)# 数num_words Downloading data from https://s3.amazonaws.com/text-datasets/reuters.npz 2113536/2110848 [=========== train_data)# 训练数据为8982 len(test_data)# 测试数据为2246 # 训练集为多个list的组合 #测试集为一列数字 2246 #对索引解码 word_index = reuters.get_word_index for i in train_data[0]]) # 通过字典可以讲字符组合 Downloading data from https://s3.amazonaws.com/text-datasets/reuters_word_index.json

    89620发布于 2020-09-15
  • 来自专栏数据科学与人工智能

    【Python环境】探索 Python、机器学习和 NLTK 库

    要安装 Reuters 文集,可以运行如下所示的命令。会有超过 10,000 篇新闻文章将下载到您的 ~/nltk_data/corpora/reuters/ 目录中。 与 RSS 提要项目一样,每篇 Reuters 新闻文章中都包含一个标题和一个正文,所以这个 NLTK 预分类的数据非常适合于模拟 RSS 提要。 # specify the 'reuters' corpus 特别令人感兴趣的是文件 ~/nltk_data/corpora/reuters/cats.txt。 为此,我读取前面提到的 ~/nltk_data/corpora/reuters/cats.txt 文件。 训练 nltk.NaiveBayesClassifier def classify_reuters(self): ...

    2.1K80发布于 2018-02-27
领券