搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏西里网CSDN博客
MediaWiki 是一个免费开源的维基软件
最新更新内容及时间截至2023年10月：最新稳定版：1.39.4（2023年9月发布）主要更新：安全修复、性能改进、兼容性增强镜像下载地址官方下载：https://releases.wikimedia.org /mediawiki/ GitHub：GitHub - wikimedia/mediawiki: The collaborative editing software that runs Wikipedia Mirror from https://gerrit.wikimedia.org/g/mediawiki/core.
1.2K10编辑于 2025-05-19
来自专栏技术杂记
Install MediaWiki
It is now also used by several other projects of the non-profit Wikimedia Foundation and by many other 软件包 [root@wiki ~]# cd wiki/ [root@wiki wiki]# ls [root@wiki wiki]# wget http://releases.wikimedia.org /1.30/mediawiki-1.30.0.tar.gz Resolving releases.wikimedia.org (releases.wikimedia.org)... 208.80.153.248 , 2620:0:860:ed1a::3:d Connecting to releases.wikimedia.org (releases.wikimedia.org)|208.80.153.248|: /1.30/mediawiki-1.30.0.tar.gz Connecting to releases.wikimedia.org (releases.wikimedia.org)|208.80.153.248
1.3K30发布于 2021-08-11
来自专栏程序员成长充电站
图片—Markdown极简入门教程(5)
[漂亮的老虎](https://upload.wikimedia.org/wikipedia/commons/5/56/Tiger.50.jpg) 尽管您不需要添加替代文本，但它将使您的内容可供包括视障人士将第一个参考标签称为“黑色”，并使其链接到https://upload.wikimedia.org/wikipedia/commons/a/a3/81_INF_DIV_SSI.jpg；使第二个图片链接到 [橘猫] [橘] [黑色]:https://upload.wikimedia.org/wikipedia/commons/a/a3/81_INF_DIV_SSI.jpg [橘]:http://icons.iconarchive.com
1.3K20发布于 2020-07-23
来自专栏实战docker
寻找海量数据集用于大数据开发实战(维基百科网站统计数据)
用于统计文本文件中的单词出现次数），我们也在寻找其他海量数据来做更多实战以提高自己，今天介绍的是一个海量数据集的下载方法，以及数据内容的简介；关于维基百科网站统计数据数据的下载页面地址：https://dumps.wikimedia.org 这个网站有2007年到2016年之间的统计数据，如下图，下载地址是：https://dumps.wikimedia.org/other/pagecounts-raw ? 上述文件的下载地址为"https://dumps.wikimedia.org/other/pagecounts-raw/2016/2016-08/pagecounts-20160801-000000.gz 关于"aa.b"如何映射成为一级域名"aa.wikibooks.org"，请参照这个网页中关于"domain_code"的描述：https://wikitech.wikimedia.org/wiki/Analytics
1.1K60发布于 2019-05-27
来自专栏我爱计算机视觉
ICCV2021 Oral-新任务！新数据集！康奈尔大学提出了类似VG但又不是VG的PVG任务
Who’s Waldo是由Wikimedia Commons中免费许可的图片和描述构建的。作者利用这个数据源来自动提取超过20万个的图像-文本对应关系。 Data Collection 作者选用了Wikimedia Commons中的“People by name”板块中的图片文本对。很多Wikimedia Commons上的图片也与Caption中人名相关：通过命名在场的人，详细描述他们之间的互动。作者收集了这些caption，并通过与正则表达式的模式匹配对它们进行预处理，以删除Wikimedia的文本结构。作者还删除了“Wikimedia-specific by [photographer name]”这类单词，因为摄影师通常在caption中命名，但没有在图片中显示。
1.3K30发布于 2021-09-27
来自专栏小鹏的专栏
[中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)
维基百科的中文语料库质量高、领域广泛而且开放，其每月会将所有条目打包供大家下载使用，可以点击： https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版（也可以访问：https://dumps.wikimedia.org/zhwiki/ 获取历史版本）。分享了一份到百度网盘：链接:https://pan.baidu.com/s/1LgJvdhvJLScDZnwBSyIHwA 密码:wzgc） wget https://dumps.wikimedia.org
2.6K40发布于 2020-02-25
来自专栏王硕
原架设mediawiki服务器续--安装VisualEditor编辑器
install -g cnpm --registry=https://registry.npm.taobao.org 2、安装parsoid cd /opt git clone https://gerrit.wikimedia.org systemctl enable parsoid.service 3、安装VisualEditor cd extensions git clone -b REL1_29 https://gerrit.wikimedia.org
1.7K80发布于 2018-05-17
来自专栏Wikipedia
基于 Cloudflare Workers 构建高性能维基百科镜像服务：反向代理与 HTML 重写实践
请求路由与代理路径设计我们约定代理路径格式为：https://wikipedia.zyhorg.ac.cn/__proxy__/原始主机名/原始路径例如：/upload.wikimedia.org/wikipedia /commons/a/a9/Example.jpg→https://wikipedia.zyhorg.ac.cn/__proxy__/upload.wikimedia.org/wikipedia/commons 容错与高可用设计主机失败缓存：若某上游主机（如 upload.wikimedia.org）连续返回 5xx 错误，则在 1 小时内快速失败，避免无效请求；双重回退机制：首次失败后，尝试移除自定义请求头直接请求原始
74930编辑于 2025-10-02
来自专栏全栈程序员必看
方便查找规范的搜索引擎_查找免费图像的7个最佳搜索引擎「建议收藏」
尽管从技术上讲它们可能不是搜索引擎，但正如它们自己明确指出的那样，它们为其他多个站点提供了结果，例如欧洲人，Flickr，Google图片，Wikimedia Commons，Fotopedia，Open 打开网站并输入搜索词时，可以缩小搜索范围，如下面的屏幕快照所示： When you hit Search, the search results from Flickr and Wikimedia 当您单击搜索时，来自Flickr和Wikimedia Commons的搜索结果将分别显示在集合中。您可以选择如何可视化结果-通过相关性，受欢迎程度或上传日期。 In addition to Flickr and Wikimedia Commons that are to be found on other search engines, Every Stock 除了在其他搜索引擎上可以找到的Flickr和Wikimedia Commons外，Every Stock Photo还可以搜索其他一些不错的地方，例如MorgueFile，SXU，NASA和Photi。
2K30编辑于 2022-08-25
来自专栏深度学习和计算机视觉
深度学习框架简史 (A Brief History of Deep Learning Frameworks)
By Nationalmuseet, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php? By Nationalmuseet, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php? Järnåldern. https://commons.wikimedia.org/w/index.php? By User Lamré on sv.wikipedia https://commons.wikimedia.org/w/index.php? By Tharunbr77 — Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?
1.2K20编辑于 2022-02-10
来自专栏生信小驿站
R语言之可视化（32）之ggtext：提高ggplot2的文本呈现
labels <- c( setosa = "<img src='https://upload.wikimedia.org/wikipedia/commons/thumb/8/86/Iris_setosa.JPG /180px-Iris_setosa.JPG' width='100' /> *I. setosa*", virginica = "<img src='https://upload.wikimedia.org 320px-Iris_virginica_-_NRCS.jpg' width='100' /> *I. virginica*", versicolor = "<img src='https://upload.wikimedia.org
4.7K41发布于 2020-05-18
来自专栏大数据智能实战
图像检索中的DELF模型（DEep Local Features）实践
在对源码进行重新编译后，完成调试记录如下：（1）取两张图片，如下进行测试 IMAGE_1_URL = 'https://upload.wikimedia.org/wikipedia/commons /c/ce/2006_01_21_Ath%C3%A8nes_Parth%C3%A9non.JPG' IMAGE_2_URL = 'https://upload.wikimedia.org/wikipedia
2.7K30发布于 2019-05-26
来自专栏CDA数据分析师
深度学习框架简史：TF和PyTorch双头垄断，未来十年迎来黄金时期
By Nationalmuseet, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php? By Nationalmuseet, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php? Järnåldern. https://commons.wikimedia.org/w/index.php? By User Lamré on sv.wikipedia https://commons.wikimedia.org/w/index.php? By Tharunbr77 — Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?
96120发布于 2021-01-08
来自专栏小鹏的专栏
[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)
#下载维基百科数据 # wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 # 解析
57510发布于 2021-07-21
来自专栏AI
[AI OpenAI-doc] 视觉
, { "type": "image_url", "image_url": { "url": "https://upload.wikimedia.org }, { "type": "image_url", "image_url": { "url": "https://upload.wikimedia.org }, { "type": "image_url", "image_url": { "url": "https://upload.wikimedia.org , { "type": "image_url", "image_url": { "url": "https://upload.wikimedia.org
1.1K10编辑于 2024-04-22
来自专栏生信菜鸟团
R：ggtext包丰富ggplot2中文本的表现力
正常情况下应该如下图所示： labels <- c( setosa = "<img src='https://upload.wikimedia.org/wikipedia/commons/thumb /180px-Iris_setosa.JPG' width='100' /> *I. setosa*", virginica = "<img src='https://upload.wikimedia.org 320px-Iris_virginica_-_NRCS.jpg' width='100' /> *I. virginica*", versicolor = "<img src='https://upload.wikimedia.org
2.3K20发布于 2020-12-03
来自专栏不止于python
轨道六根数：揭示天体轨道的关键参数
发射以来飞行的圈数 S; 0 校验位; 参考链接 https://www.shenkong.net/space_files/knowledge/16.html 更多相关图片 https://upload.wikimedia.org /wikipedia/commons/9/9c/Satellite_Orbital_Elements_02.png https://upload.wikimedia.org/wikipedia/commons /thumb/7/70/Orbit1_zh.svg/2273px-Orbit1_zh.svg.png https://upload.wikimedia.org/wikipedia/commons/1/1d
2.1K10编辑于 2025-03-17
来自专栏实战docker
Flink数据源拆解分析(WikipediaEditsSource)
WikipediaEditSource实现；构造方法通过构造方法来了解有哪些参数被确定了： //远程连接的域名 public static final String DEFAULT_HOST = "irc.wikimedia.org host; this.port = port; this.channel = Objects.requireNonNull(channel); } 通过上述代码可以见到，数据的来源是irc.wikimedia.org 取到了就调用SourceContext的collect，把一条数据生产到在Flink环境中，给后面的流程使用；小结至此，WikipediaEditsSource源码的分析就完成了，在此小结一下：和irc.wikimedia.org
68720发布于 2019-05-27
来自专栏玉树芝兰
如何用R和API免费获取Web数据？
假设你需要获得2015年10月，爱因斯坦这个词条页面的访问数量，就可以这样调用： GET http://wikimedia.org/api/rest_v1/metrics/pageviews/per-article 我们在浏览器的地址栏输入： https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/en.wikipedia/all-access url <- paste("https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/en.wikipedia/all-access 我们检查一下生成的url地址是不是正确： url ## [1] "https://wikimedia.org/api/rest_v1/metrics/pageviews/per-article/en.wikipedia get_pv <- function(article_title, starting, ending){ url <- paste("https://wikimedia.org/api/rest_v1
3.1K20发布于 2018-08-22
来自专栏算法channel
一种获取NLP语料的基本方法
语料库处理首先下载原始的中文维基百科网页文件，下载地址为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ，文件大小在 1.5G 以上，如果想要下载其他的小文件，可以使用 https://dumps.wikimedia.org/zhwiki 去自行挑选同时带有stream、xml和bz2的文件在 Windows 下载其他语言观察上面https://dumps.wikimedia.org/zhwiki，若我们把 zhwiki 替换为 enwiki，就能找到英文语料，如果替换为 frwiki，就能找到法语语料，依次类推
2.5K20发布于 2021-03-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

MediaWiki 是一个免费开源的维基软件

Install MediaWiki

图片—Markdown极简入门教程(5)

寻找海量数据集用于大数据开发实战(维基百科网站统计数据)

ICCV2021 Oral-新任务！新数据集！康奈尔大学提出了类似VG但又不是VG的PVG任务

[中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)

原架设mediawiki服务器续--安装VisualEditor编辑器

基于 Cloudflare Workers 构建高性能维基百科镜像服务：反向代理与 HTML 重写实践

方便查找规范的搜索引擎_查找免费图像的7个最佳搜索引擎「建议收藏」

深度学习框架简史 (A Brief History of Deep Learning Frameworks)

R语言之可视化（32）之ggtext：提高ggplot2的文本呈现

图像检索中的DELF模型（DEep Local Features）实践

深度学习框架简史：TF和PyTorch双头垄断，未来十年迎来黄金时期

[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)

[AI OpenAI-doc] 视觉

R：ggtext包丰富ggplot2中文本的表现力

轨道六根数：揭示天体轨道的关键参数

Flink数据源拆解分析(WikipediaEditsSource)

如何用R和API免费获取Web数据？

一种获取NLP语料的基本方法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

MediaWiki 是一个免费开源的维基软件

Install MediaWiki

图片—Markdown极简入门教程(5)

寻找海量数据集用于大数据开发实战(维基百科网站统计数据)

ICCV2021 Oral-新任务！新数据集！康奈尔大学提出了类似VG但又不是VG的PVG任务

[中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)

原 架设mediawiki服务器续--安装VisualEditor编辑器

基于 Cloudflare Workers 构建高性能维基百科镜像服务：反向代理与 HTML 重写实践

方便查找规范的搜索引擎_查找免费图像的7个最佳搜索引擎「建议收藏」

深度学习框架简史 (A Brief History of Deep Learning Frameworks)

R语言之可视化（32）之ggtext：提高ggplot2的文本呈现

图像检索中的DELF模型（DEep Local Features）实践

深度学习框架简史：TF和PyTorch双头垄断，未来十年迎来黄金时期

[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)

[AI OpenAI-doc] 视觉

R：ggtext包丰富ggplot2中文本的表现力

轨道六根数：揭示天体轨道的关键参数

Flink数据源拆解分析(WikipediaEditsSource)

如何用R和API免费获取Web数据？

一种获取NLP语料的基本方法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

原架设mediawiki服务器续--安装VisualEditor编辑器