技能标签
专业技能
人工智能运维:精通TensorFlow/PyTorch框架,具备GPU资源调度(GPU Manager)及分布式训练(Kubeflow)经验,擅长AI模型训练/推理环境部署。AI基础设施:熟悉kubeflow等工具实现机器学习流水线自动化。Linux系统:精通内核调优及性能分析,具备系统架构设计与故障排查能力。开源监控:熟练使用Prometheus/Zabbix/Open-Falcon构建监控体系。多语言开发:精通Shell/Python/Go,擅长自动化脚本开发。自动化运维:熟悉Ansible/SaltStack/蓝鲸平台,实现批量操作与故障自愈。日志分析:精通ELK架构,支持日志集中管理与实时分析。大数据处理:熟悉Kafka/Flink,构建实时数据流水线。多云管理:具备华为云/阿里云/Azure/WAWS等平台资源调度经验。虚拟化技术:精通Xen/VMware/KVM/Proxmox。容器技术:精通Docker/Kubernetes/Rancher,擅长云原生微服务架构设计。中间件:熟悉Redis/Nacos/Kafka/MySQL/MongoDB/Nginx/Tomcat等。
工作履历(脱敏处理)
主导AI运维体系构建,设计SLO/SLI监控框架及多活容灾架构,实现跨数据中心数据同步与故障切换。开发智能运维平台,整合日志分析、根因定位及分布式追踪,缩短故障响应时间。推进云原生改造,完成Kubernetes集群部署及CI/CD流水线建设,优化资源利用率30%。构建自动化运维体系,通过IaC工具实现基础设施版本控制,减少人工操作90%。实施DevSecOps实践,嵌入安全扫描门禁,阻断高风险代码进入生产环境。设计全球多数据中心网络架构,解决数据一致性问题,建立实时同步监控体系。
项目经验(脱敏处理)
1. 系统稳定性保障:基于SLO/SLI框架设计监控体系,构建全链路黄金指标看板,实施混沌工程演练验证容错能力,设计多活容灾架构保障业务连续性。2. 性能优化:建立生产级压测体系,优化通信协议与负载均衡策略,设计分级流量治理策略。3. 自动化运维:通过IaC工具管理云资源,开发运维交互系统集成故障自愈,构建自动化变更管控平台覆盖90%日常操作。4. 应急响应:设计分级告警响应机制,开发故障影响面可视化系统,搭建多云容灾平台实现数据库跨云同步。5. 安全合规:在CI/CD流水线嵌入安全扫描,实施零信任架构改造,构建审计机器人验证合规要求。6. 全球数据中心建设:设计跨数据中心网络架构,解决数据冲突问题,建立数据校验与监控体系。7. Kubernetes架构升级:开发CI/CD流水线实现自动化部署,优化资源配额与调度策略,降低云成本20%。8. 技术标准化:推进CMDB建设,建立运维能力成熟度模型,实现故障处理SOP覆盖率90%。
驻场外包优势
服从性高
严格遵守甲方管理制度
技术扎实
10年项目实战经验
可长期驻场
接受异地项目外派
快速响应
24小时内可到岗
企业人才对接
专业IT人力外包服务
如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。
合作热线
18969108718
商务邮箱
ntit@163.com
微信扫码咨询
扫描二维码添加商务对接