
7个项目,覆盖爬虫、Web、数据、自动化、AI、运维、架构
把你日常工作中频繁手写的临时Python脚本,封装成一个统一、优雅、带帮助信息的命令行工具集——用 argparse 或 click 库实现。
# 你的工具叫 mytools
mytools json pretty data.json # 格式化JSON文件
mytools file split large.log 100 # 拆分大文件(按行数)
mytools time calc "2026-07-01" "2026-12-31" # 计算日期差
mytools net ping 192.168.1.1 -c 5 # 带超时的ping探测
mytools encrypt md5 myfile.txt # 计算文件MD5技术 | 作用 |
|---|---|
argparse / click | 命令行参数解析 |
setuptools | 打包成可安装的pip包 |
logging | 日志输出(支持--verbose) |
colorama | 终端彩色输出 |
一个发布到PyPI(或公司私有仓库)的pip包,pip install mytools 即可全局使用。
✅ 你手写过神经元、RNN、Transformer,封装一个CLI工具对你来说是降维打击。这个项目的价值在于规范化和工程化——让代码可以被他人安装和使用。
构建一个高并发、可配置、带反爬策略的爬虫系统,目标站点自选(如新闻网站、电商商品信息)。
# 配置驱动的爬虫
crawler:
name: "news_crawler"
start_urls:
- "https://example.com/news"
parse_rules:
title: "h1.article-title"
content: "div.article-content"
time: "span.publish-time"
output:
format: "jsonl"
path: "./data/news/"
concurrency: 10
retry: 3
delay: 1.0技术 | 作用 |
|---|---|
aiohttp + asyncio | 异步HTTP请求(高并发) |
BeautifulSoup / lxml | HTML解析 |
fake_useragent | 随机User-Agent |
tenacity | 重试机制 |
jsonlines | 流式存储(每行一个JSON) |
一个能稳定运行、日抓取10万+页面的爬虫系统,产出结构化数据(JSONL格式)。
✅ 你的Go运维开发经验让你对并发、超时、重试有天然敏感度,把Go里的并发思维迁移到Python asyncio会非常丝滑。
接项目二的产出(或公开数据集),构建一套 数据清洗→分析→可视化 的完整流水线。
# 数据清洗
raw_data → 去重 → 缺失值处理 → 异常值检测 → 格式统一 → 清洗后数据
# 数据分析
清洗后数据 → 聚合统计 → 相关性分析 → 趋势检测 → 分析报告
# 可视化
分析结果 → Matplotlib/Seaborn图表 → 自动化报告(HTML/PDF)技术 | 作用 |
|---|---|
pandas | 数据清洗与变换 |
numpy | 数值计算 |
matplotlib / seaborn | 数据可视化 |
jinja2 | 自动化报告模板 |
weasyprint | HTML转PDF |
一份 自动生成的数据分析报告(含图表+结论),每天定时运行。
✅ 你在“多模态大模型”中处理过图像数据,在“手写大模型”中处理过文本数据——数据预处理对你来说已是老朋友。这个项目让你把数据处理能力体系化、自动化。
用FastAPI构建一个 完整的RESTful API服务,将项目二/三的能力封装为服务接口。
# 用户认证
POST /api/auth/login → JWT Token
POST /api/auth/refresh → 刷新Token
# 爬虫任务管理(结合项目二)
POST /api/crawler/start → 启动爬虫任务(异步执行)
GET /api/crawler/status/{task_id} → 查询任务状态
GET /api/crawler/data/{task_id} → 获取爬取结果
# 数据分析(结合项目三)
POST /api/analysis/run → 运行分析流水线
GET /api/analysis/report/{run_id} → 获取分析报告
# 系统
GET /health → 健康检查
GET /metrics → Prometheus指标技术 | 作用 |
|---|---|
FastAPI | Web框架(自动生成OpenAPI文档) |
Pydantic | 数据校验(类型安全) |
SQLAlchemy / asyncpg | 异步数据库ORM |
Celery / RQ | 异步任务队列(爬虫等耗时任务) |
JWT | 用户认证 |
Docker + docker-compose | 容器化部署 |
-- 用户表
users (id, username, password_hash, email, created_at)
-- 爬虫任务表
crawler_tasks (id, name, status, config, result_path, created_at, finished_at)
-- 分析任务表
analysis_tasks (id, name, status, input_path, report_path, created_at, finished_at)
-- 审计日志
audit_logs (id, user_id, action, timestamp, ip)一个 容器化部署的FastAPI后端服务,提供爬虫启动、数据查询、分析触发等API能力。
✅ 你已经在Go中做过运维开发,对“写API服务”这件事非常熟悉。这个项目让你把同样的工程思维迁移到Python生态,同时用上FastAPI的异步能力和自动文档生成。
用Python实现一套 轻量级监控告警系统,覆盖服务器、应用、业务三个维度——这正是你在Go运维开发中做过的,现在用Python再做一遍,形成双语言能力。
模块 | 功能 | 技术 |
|---|---|---|
采集器 | 采集系统指标(CPU/内存/磁盘)和业务指标 | psutil、自定义业务埋点 |
存储 | 时序数据存储 | InfluxDB / Prometheus(远端) |
检测引擎 | 规则判断(阈值/趋势/同比) | 纯Python实现 |
告警通知 | 多渠道通知(邮件/钉钉/企微) | smtplib、自定义Webhook |
展示看板 | 简单的Web仪表盘 | Streamlit / Grafana(对接) |
# config/alerts.yaml
rules:
- name: "CPU过载预警"
metric: "cpu.percent"
condition: "> 80"
duration: "5m"
severity: "warning"
receivers: ["devops@company.com"]
- name: "API错误率突增"
metric: "api.error_rate"
condition: "> 5%"
duration: "1m"
severity: "critical"
receivers: ["oncall@company.com"]一个 可配置、可扩展的轻量级监控系统,部署后能实时监控指标并在异常时自动告警。
✅ 这是你 Go运维开发经验的Python翻版。双语言实现同一类系统,会让你对“运维系统”本身的理解更深刻——你会明白哪些是语言的差异,哪些是架构的共性。
构建一个 轻量级工作流编排引擎,让用户通过YAML/JSON配置定义任务依赖关系,系统自动调度执行——这是你之前探索的 ComfyUI工作流理念 在Python工程中的落地。
# 工作流定义
workflow:
name: "daily_etl_pipeline"
schedule: "0 2 * * *" # 每天凌晨2点执行
tasks:
- id: "extract"
type: "python_script"
script: "extract_data.py"
retry: 3
- id: "transform"
type: "python_script"
script: "transform_data.py"
depends_on: ["extract"] # 依赖上一任务
retry: 2
- id: "load"
type: "http_request"
url: "http://data-api/load"
method: "POST"
depends_on: ["transform"]
timeout: 300
- id: "report"
type: "send_email"
depends_on: ["load"]
config:
to: ["team@company.com"]
subject: "ETL执行完成"技术 | 作用 |
|---|---|
DAG(有向无环图) | 任务依赖关系建模 |
拓扑排序 | 确定任务执行顺序 |
状态持久化 | 记录每个任务状态(待执行/运行中/成功/失败) |
WebHook | 支持外部系统触发工作流 |
APScheduler | 定时调度 |
一个 可定义、可调度、可追踪的轻量级工作流引擎。
✅ 这是你 ComfyUI节点编排思维 + Go运维调度经验 + Python工程能力 的三重交汇。做这个项目,你会发现自己已经具备“系统架构师”的思维方式了。
基于FastAPI + Redis + JWT,构建一个 轻量级API网关,统一管理所有后端服务的路由、鉴权、限流和日志。
功能 | 实现方式 |
|---|---|
动态路由 | 配置驱动,支持路径前缀转发 |
统一鉴权 | JWT Token验证 + RBAC权限控制 |
限流熔断 | 令牌桶算法(redis + slowapi) |
请求日志 | 全链路记录(request_id贯穿) |
服务发现 | 简单版:配置文件 + 健康检查 |
# gateway/config.yaml
routes:
- path: "/api/v1/crawler/*"
target: "http://crawler-service:8000"
auth_required: true
rate_limit: "100/minute"
- path: "/api/v1/analysis/*"
target: "http://analysis-service:8001"
auth_required: true
rate_limit: "50/minute"
- path: "/api/v1/public/*"
target: "http://public-service:8002"
auth_required: false
rate_limit: "1000/minute"
auth:
jwt_secret: "${JWT_SECRET}"
token_expire: 3600一个 可插拔的轻量级API网关,能统一管理多个后端服务的流量入口。
✅ 这是你 Go运维开发中服务治理能力的Python实现。你会在Go和Python之间建立“架构思维”的桥梁——两种语言,同一套系统设计哲学。
项目一(CLI工具集)
↓ 提升工程化规范
项目二(异步爬虫系统)
↓ 产出数据
项目三(数据分析流水线)
↓ 能力封装
项目四(FastAPI后端服务)
↓ 增加运维视角
项目五(监控告警系统)
↓ 增加编排能力
项目六(工作流引擎)
↓ 增加架构能力
项目七(API网关)每个项目都可以独立使用,组合起来就是一个完整的技术栈作品集。
阶段 | 时间 | 项目 | 重点 |
|---|---|---|---|
基础巩固 | 2-3周 | 项目一、二 | 扎实的Python基本功 |
数据方向 | 2-3周 | 项目三 | pandas + 可视化 |
Web后端 | 3-4周 | 项目四 | FastAPI + 异步 + Docker |
运维/架构 | 3-4周 | 项目五、六、七 | 系统设计 + 综合能力 |
总计:约3个月完成全部7个项目,每天投入2-3小时。
今天就开始你的第一个项目——CLI工具集:
打开你的编辑器,创建第一个命令:
# mytools/cli.py
import click
import json
import sys
from pathlib import Path
@click.group()
def cli():
"""我的工具箱 - 让日常开发更高效"""
pass
@cli.command()
@click.argument('file', type=click.Path(exists=True))
@click.option('--indent', default=2, help='缩进空格数')
def json_pretty(file, indent):
"""格式化JSON文件,使其更易读"""
try:
data = json.loads(Path(file).read_text(encoding='utf-8'))
print(json.dumps(data, ensure_ascii=False, indent=indent))
except Exception as e:
click.echo(f"❌ 错误: {e}", err=True)
sys.exit(1)
@cli.command()
@click.argument('file', type=click.Path(exists=True))
def md5(file):
"""计算文件的MD5哈希值"""
import hashlib
hash_md5 = hashlib.md5()
with open(file, "rb") as f:
for chunk in iter(lambda: f.read(4096), b""):
hash_md5.update(chunk)
click.echo(f"MD5: {hash_md5.hexdigest()}")
if __name__ == '__main__':
cli()安装依赖后运行:
pip install click
python mytools/cli.py json_pretty data.json
python mytools/cli.py md5 myfile.txt原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。