13 年研发工程经验,先后在互联网、安全与云计算场景长期负责核心系统研发、运维平台建设与工程效能提升。
过去几年,我持续聚焦三件事:高可用工程体系、自动化交付能力、AI 工程化落地。
在大规模生产环境中,我主导过监控与容量治理、SLO 体系、故障模式库与快速恢复预案建设,服务过万级机器与海量中间件场景,保障关键服务稳定运行。
我也长期推动“从人工到自动”的工程改造:从 0 到 1 自研升级部署、拨测、监控与效能平台,在多个团队落地后,核心流程人工操作量下降约 90%,运维与交付效率显著提升。
在 AI 方向,我主导过 AI 知识库、ChatBI、智能审核等项目,重点将大模型能力与业务流程打通,让 AI 真正服务于生产效率与决策质量。
我擅长把复杂问题拆解为可执行方案,并通过工程化方法形成可复用能力,持续交付有实际业务价值的系统。
技能方向
- JavaScript / TypeScript
- Python / FastAPI / Django
- Astro / React / Node.js
- Docker / Kubernetes / CI/CD
- 可观测性体系与 SLO 治理
- AI Agent Workflow
目前关注
- AI 与工程系统的深度融合
- 高可用与低风险的自动化交付体系
- 研发效能平台化与标准化治理
工作经历
陕西建工集团数字科技有限公司|高级研发工程师(2024.01 - 至今)
- 主导高可用运维架构规划与技术演进,建设覆盖开发、测试、部署全流程的质量保障体系
- 制定并推进标准化工程治理流程,围绕升级、变更、故障演练形成闭环
- 推动 AI Agent 与业务工程融合,落地 AI 知识库、ChatBI、施工方案智能审核等项目
- 构建全链路监控与工程效能矩阵(效能系统、拨测系统、SLO 系统、升级部署系统)
西安华为技术有限公司|运维开发工程师(2020.01 - 2024.01)
- 负责华为云产品运维与稳定性保障,覆盖 100+ 局点、2W+ 机器
- 建设监控基线与容量治理体系,监控项 100+,覆盖 600+ 云上中间件
- 建立故障模式库(100 项)与快速恢复预案(150 项),显著缩短恢复时长
- 主导自动化运维平台建设,推动核心流程自动化与风险前置评审
北京神州绿盟科技有限公司|Python 工程师(2015.11 - 2020.01)
- 主导核心模块研发与自动化平台建设,涵盖业务监控、全链路分析、自动化升级
- 深度参与证书系统、云端认证、应急响应等关键系统优化
- 自研部署系统将升级流程从手工切换为自动化,效率提升约 90%
- 落地大规模监控体系,覆盖 1000+ 服务器与 100+ 中间件
欢聚时代(YY)|C/C++ 工程师(2013.07 - 2015.11)
- 负责 YY 游戏大厅及浏览器 UI 研发与安装包构建
- 基于 Python 自研测试平台,覆盖功能与性能测试自动化
- 维护客户端打包发布流水线,支撑快速迭代与版本稳定性
核心成果
- 自动化与效能提升:多次从 0 到 1 构建自动化系统,核心流程人工操作量降低约 90%
- 稳定性建设:持续推进 SLO、容量预警、全链路可观测性与故障快速恢复体系
- AI 工程落地:将 LLM 与工具链结合,形成可复用的 AI Agent 业务化方案
- 工程治理:通过方案评审、代码评审、CI/CD 与自动化测试构建质量门禁
教育经历
- 西北大学|软件工程 本科(2009 - 2013)
技术栈
- Python(Django / FastAPI)
- JavaScript / TypeScript(Astro / React / Node.js)
- CI/CD、Docker、Kubernetes(k8s)
- 可观测性、SLO、容量治理、故障恢复
- LLM 应用开发与 Agent 工程化