关于

陈金鑫|AI异构算力平台 / 云原生架构 / 后端研发

基础信息

  • 手机:17137621499
  • 邮箱:chenjinxin@chenjinxin.cn
  • 博客:https://chenjinxin.cn
  • 学历:黑河学院|计算机科学与技术|本科|2019届
  • 方向:AI基础设施平台、异构资源纳管与调度、云原生平台、MLOps、后端架构

个人简介

近7年平台研发经验,其中5年+聚焦云原生与AI基础设施平台建设,长期负责资源纳管、任务调度、监控告警、分布式计算与平台工程化落地。在华为数据底座项目中,主导异构资源纳管体系(覆盖300+ 集群、500+ GPU 卡、1000+ 实例)的建设,推动资源利用率提升 30%+、成本降低 20%+;同时主导分布式 Python 计算能力技术规划与关键选型,围绕 Ray / KubeRay / RayService / Volcano / Dask 构建离线推理加速、AI 任务生命周期管理、MLOps 与 GPU 调度能力,并完成 V100 / IB 高性能 Kubernetes 集群纳管、Dask on Ray 与 RDMA 加速实践。具备技术方案评审、Code Review、研发规范制定、项目推进、跨域团队协作和招聘面试经验,将 AI Coding 实践融入日常研发流程,持续关注 AI Native、LLM Infra 与云原生调度技术演进。

核心技能

Expert

  • Kubernetes / 调度体系:精通 K8s 调度器扩展与 Volcano,熟练构建队列调度、优先级抢占、GPU 共享与资源隔离策略。
  • 异构资源纳管:有大规模统一纳管经验(300+ 集群、500+ GPU 卡、1000+ 实例),覆盖资源采集、利用率分析与成本治理,推动利用率提升 30%+。
  • AI任务调度与MLOps:主导基于 Ray / KubeRay 的分布式计算平台建设,实现离线推理加速(6小时→3分钟)、模型灰度发布、回滚与 A/B 测试。
  • 高性能计算网络:具备 V100 / IB GPU 集群纳管与 RDMA 加速实践经验,完成 Dask on Ray 计算链路落地,提升跨节点计算与数据传输效率。
  • 可观测性平台:擅长从0到1构建监控、日志与告警体系,实现故障发现时间从 0.5 天缩短至 5 分钟,数据准确率 99%+。
  • 后端语言:Java、Python、Go

Proficient

  • 分布式计算:Spark、Flink、Hive、Hadoop、YARN、Kafka,有 TB 级日志处理经验。
  • 微服务与网关:Spring Boot、Spring Cloud、FastAPI、Flask、Gin、APISIX,有微服务拆分与容器化交付经验。
  • 数据库与中间件
    • 关系型 / MPP:MySQL、PostgreSQL、DWS (基于 PostgreSQL)
    • NoSQL:Redis、MongoDB
    • 搜索引擎:Elasticsearch、CSS (基于ECK的Elasticsearch服务)
    • 消息队列:Kafka、RabbitMQ
  • 工程化:Docker、CI/CD、镜像构建、方案与接口文档规范、Code Review
  • AI Coding / AI辅助开发:自 2023 年起将 AI Coding 融入日常开发流程,长期使用 GitHub Copilot,并结合公司内部 OpenCode(GLM5)完成代码生成、Code Review、重构与自动化测试等工作。持续对比 Claude Opus、Gemini、DeepSeek、GLM 等模型在代码生成、理解与重构场景中的效果,提升研发效率与代码质量。

工作经历

上海科之锐人才咨询有限公司|软件开发工程师|华为数据底座方向

  • 时间:2023年7月 - 至今
  • 方向:AI基础设施、融合计算、异构资源纳管、GPU调度、MLOps、可观测性

项目一:融合计算中心|Ray / KubeRay / Volcano / MLOps

  • 主导分布式 Python 计算能力整体技术规划与关键技术选型,围绕 Ray / KubeRay / RayService / Dask / Volcano 设计 AI 任务提交、编排、调度、监控、弹性伸缩与生命周期管理能力。
  • 新增纳管高性能 GPU Kubernetes 集群(3 Master + 40 Worker,单节点 72 核 / 512G 内存 / 8 张 V100,并配备 IB 网卡),打通 Dask on Ray 运行链路,并基于 RDMA 加速跨节点计算与数据传输。
  • 基于 Ray 集群优化离线推理任务,将平均推理耗时从 6 小时降低至 30 分钟以内,并进一步优化至 3 分钟以内,显著提升 AI 推理效率与资源利用率。
  • 基于 RayService 建设模型发布、回滚、监控、灰度发布、A/B 测试等 MLOps 能力,支撑模型服务稳定迭代与平台化交付。
  • 基于 Volcano 高价值资源调度机制,结合队列调度、优先级调度、GPU共享和资源隔离,保障 GPU 计算资源高效利用与公平分配。
  • 对接 Prometheus / Grafana / 内部日志告警平台,实现任务、资源、推理链路的可观测与故障定位。

核心技术:Java、Python、Spring Boot、Kubernetes、Ray、KubeRay、RayService、Dask、RDMA、InfiniBand、Volcano、Prometheus、Grafana

项目二:资源高效 / 资源采集 / 资源监控

  • 建设异构资源统一纳管与监控链路,覆盖 300+ MRS 集群、最大 1000+ 节点集群、约 500+ GPU 卡、1000+ 数据库实例、2000+ 作业、500+ 用户应用。
  • 对接云资源接口与内部 IAM,完成资源归属识别、资源亲缘关系、利用率分析、容量治理和运营看板数据同步。
  • 将监控采集频率提升至每分钟一次,覆盖 50+ 指标,监控数据准确率达到 99%+,故障发现时间从平均 0.5 天缩短至 5 分钟以内。
  • 通过资源治理、调度优化和利用率分析,推动资源利用率提升 30%+,整体成本降低 20%+。

核心技术:Java、Flink、Spark、Kafka、Prometheus、Grafana、MRS、DWS (基于 PostgreSQL)、CSS (基于ECK的Elasticsearch服务)

项目三:大数据融合计算引擎 / 数据库管家

  • 参与统一计算与数据服务平台建设,集成 Spark、Flink、Hive、OBS、DWS、CSS 等能力,支撑批处理、流处理、交互式 SQL、统一作业提交与状态监控。
  • 建设数据库统一纳管与查询能力,覆盖 MySQL、MongoDB、Redis、DWS (基于 PostgreSQL)、CSS (基于ECK的Elasticsearch服务) 等 1000+ 数据库与数据服务实例。
  • 对接内部日志、告警、可信平台,完成平台可观测、合规审计、镜像构建与容器化部署。

核心技术:Java、Spring Boot、Spring Cloud、Maven、MRS、DWS、CSS、Spark、Flink、Hive、OBS、EKS

北京可利邦信息技术股份有限公司|大数据 & 后台开发工程师

  • 时间:2021年8月 - 2023年7月
  • 方向:AI中台、隐私计算、Kubernetes平台、模型市场、监控告警、网关平台

核心成果

  • 从0到1主导 AI 中台与隐私计算平台的架构设计与落地,搭建包含 Kubernetes、Docker 镜像仓库、NFS、OpenVPN 在内的完整基础设施层。
  • 独立完成 Prometheus / AlertManager 监控告警体系、APISIX 统一网关中心,以及基于 Elasticsearch / Fluentd / Kibana(ECK)的日志平台建设。
  • 基于 KubeFATE 框架,完成联邦学习平台的容器化部署和产品化封装,推动项目获得信通院和中互金两项权威认证。
  • 打通模型开发到上线的最后一公里,主导开发推理代理服务和模型市场,为平台用户提供模型导入、管理与在线推理服务。

核心技术:Python、Go、Kubernetes、KubeFATE、Docker、Prometheus、AlertManager、APISIX、ECK、Elasticsearch、Fluentd、Kibana、MySQL、Redis、FastAPI、Flask

深圳掌众智能科技股份有限公司|高级 Scala / Java 后端开发

  • 时间:2019年7月 - 2019年11月
  • 方向:高并发广告交易平台、实时计算、日志分析

核心成果

  • 维护 ADX 广告交易平台,支撑每日约 4 亿次广告源请求、约 1 亿次广告展示、TB 级日志生产和 100+ DSP 对接。
  • 设计并实现日志分析系统,构建从 Flume / Kafka 采集、Spark Streaming 准实时计算、Hive / HBase / HDFS 存储到 ECharts 可视化的完整链路。

核心技术:Scala、Java、AKKA、Kafka、Spark Streaming、Hadoop、Hive、HBase、HDFS、MySQL、PostgreSQL、Prometheus

深圳市维知科技有限责任公司|大数据研发工程师

  • 时间:2020年4月 - 2021年8月
  • 参与 AI 中台服务平台建设,负责后端接口、数据库设计、Kubernetes 部署和 Bot / ASR / TTS / OCR 等 AI 引擎接入。
  • 独立维护引擎管理服务与虚拟交互服务,完成 Docker 镜像、部署脚本和交付文档建设。

核心技术:Kotlin、Vert.x、Kubernetes、Docker、Prometheus、Kafka、Hadoop、Hive、Spark、Redis、MySQL、RabbitMQ

文思海辉|初级大数据分析与挖掘顾问

  • 时间:2019年12月 - 2020年4月
  • 参与中广核供应链数据仓库建设,负责 HANA / MSSQL / Oracle 数据迁移方案验证、ETL 自动化流程设计和技术文档输出。

核心技术:SQL、MSSQL、HANA、Inceptor、HyperBase、Search

中诚信国际信用评级有限责任公司|全栈开发工程师|实习

  • 时间:2018年7月 - 2019年6月
  • 参与金融风控 SaaS 平台建设,负责后端开发、数据库设计、SQL、ETL 和数据准确性验证;项目获“2019中国金融创新奖——十佳智能风控创新奖”。

核心技术:Java、Spring Boot、Redis、MySQL、MSSQL、SQL

证书与荣誉

  • 阿里云云计算高级工程师 ACP 认证
  • 国家奖学金
  • 省三好学生
  • 蓝桥杯全国软件和信息技术专业人才大赛决赛三等奖
  • 信通院《联邦学习基础能力评测证书》项目参与
  • 中互金认证《联邦学习产品安全认证证书》项目参与

专业发展 & 技术前瞻

  • Kubernetes方向:备考 CKAD、CKA、CKS 认证,系统强化应用开发、集群管理、安全加固与云原生安全能力。
  • AI大模型方向:备考阿里云 ACP 大模型认证,系统学习 LLM、RAG、Agent、Prompt Engineering、LoRA 微调、模型蒸馏及企业级AI平台建设。
  • 技术前沿关注:持续跟踪 vLLM / TensorRT 推理优化、Ray / KubeRay 分布式计算、RDMA / IB 高性能网络与 AI Native Infra,在日常开发中深度使用 Cursor / Copilot / OpenCode / Claude / Gemini / DeepSeek / GLM 等 AI Coding 工具,持续探索 LLM 在代码生成、审查、重构与自动化测试中的工程化落地。
Licensed under CC BY-NC-SA 4.0
comments powered by Disqus