暂无搜索历史
前阵子有个做在线编程平台的朋友找到我,说他们平台要支持用户在线提交代码并执行,问我用 Docker 跑用户代码安不安全。我当时就笑了——这事儿我太熟了,之前在做...
这两年搞大模型训练、分布式推理、HPC 计算,绕不开几个词:GPU、NVLink、NCCL、EFA、RDMA、GPUDirect RDMA。
上周半夜接到一个紧急电话,客户的业务挂了。打开监控一看,源站 ALB 的 CPU 直接拉满,连接数爆表。但奇怪的是 CloudFront 那边的请求量完全正常,...
在讲mTLS之前,我们得先把TLS搞明白。日常我们访问https网站,浏览器地址栏那个小锁,背后就是TLS在工作。
这个命令会每隔1秒打一次,共5次,输出每个磁盘设备的详细 I/O 统计。关键指标看这几个:
说白了,当下用大模型最大的痛点就是:它太通用了。OpenAI的GPT、Meta的Llama这些开源模型,确实什么都能做,但对你的特定业务场景来说,那就是"什么都...
前两天升级集群的时候顺手刷了一下Kubernetes官方博客,突然看到一篇标题让我愣了一下——Running Agents on Kubernetes with...
我之前在做一个多云项目的时候,整个基础设施的管理全靠手动操作——控制台点来点去,改个安全组规则都得登录上去找半天。后来有一次,同事在控制台改了个 VPC 的路由...
最近一两年,只要跟AI沾边的东西都火得一塌糊涂,什么大模型、RAG、Agent,天天刷屏。但有一个东西,很多人天天在用,却说不清楚它到底是个啥——向量数据库。
最近被AI应用开发搞得有点上头。事情是这样的,公司领导突然说要搞个"智能知识库问答系统",让内部的运维文档、故障处理手册能通过对话的方式查询。需求倒是不复杂,但...
Jenkins 本质上是个自动化调度平台,你可以把它理解成一个"管家",代码一推送,它就自动拉代码、跑测试、打包、部署,全套走完,不需要人盯着。
Jenkins 和 Ansible 这俩工具,单拎出来大家都不陌生。但搁一块儿用的时候,很多人就犯迷糊了——插件怎么装?路径怎么配?Playbook 放哪?参数...
前两天正准备下班,安全群里突然炸了——CVE-2026-42945,代号 NGINX Rift,CVSS 9.2。我一开始还想着又是哪个小众模块的问题吧,结果点...
很多朋友接触Linux都是从装系统开始的,Ubuntu、CentOS、Debian装上去就能用,图形界面、命令行、软件包管理器一应俱全。但你有没有想过,Linu...
CGI,全称 Common Gateway Interface,通用网关接口。注意这几个字——"通用"说明不绑定任何编程语言,"网关"说明是个中间人角色,"接口...
最近在公司推进自动化运维的时候,发现很多同事对Ansible还是一知半解,要么就是简单用用,要么就是直接放弃。其实Ansible真的没那么复杂,我用了这么多年,...
前段时间我们生产环境遇到了一个特别头疼的问题,服务器突然断电重启后,发现有个分区挂载不上了,系统报错说文件系统有问题。当时真的是冷汗直冒,要知道那个分区里放着重...
我这篇就不搞什么“故事开头”“面试八股”,直接开干。 虚拟内存这个东西,大家都听过,但真到线上一出 “内存爆了”“swap 狂飙”“某进程 OOM 了”,很多人...
很多人一说测网速,脑子里第一反应就是那个转圈圈的speedtest页面,上传多少下载多少。但在服务器运维场景里,"网速"这个词其实包含了好几个维度,不搞清楚的话...
今天就来分享一下我这几个月使用Puppet管理多服务器配置的实战经验,包括一些踩过的坑和解决方案。
暂未填写公司和职称
暂未填写个人简介
暂未填写学校和专业
暂未填写个人网址