陈文潇

AI Infra Architect · Huawei Top Minds

陈文潇

清华大学计算机博士,华为天才少年,openFuyao 社区架构师。研究聚焦于大语言模型系统智能运维(AIOps),致力于构建高效、可靠、智能的大规模 AI 系统基础设施。

chenwenxiaolive@gmail.com GitHub Google Scholar
1757+ Google Scholar 引用
h-10 h-index
15+ 学术论文
4 专利申请

研究方向

凭借扎实的算法功底(NOI 2012 金牌、Codeforces Grandmaster),研究工作涵盖 LLM 系统的全栈领域,从推理优化到智能运维。

LLM 推理优化 智能运维 AIOps 深度生成模型 分布式系统 AI Infra AI Agent

教育背景

  • 清华大学 2017.09 - 2022.06
    计算机科学与技术 博士
    导师:裴丹教授
    研究方向:智能运维、异常检测、深度生成模型
  • 清华大学 2013.09 - 2017.06
    计算机科学与技术 学士
    GPA 90.86/100 · 年级排名 Top 10+ · 优秀毕业生 · 国家奖学金

工作经历

  • 华为技术有限公司 2022.07 - 至今
    技术专家(天才少年计划)
    主导智能计算集群系统和 LLM 基础设施的研发工作。3 年内获得 15 项公司级奖励,包括华为杰出工程师(2024)、华为杰出专家(2025)。
  • openFuyao 社区 2024 - 至今
    架构师
    主导昇腾 NPU 的 AI 推理基础设施建设,攻克 PD 分离架构、分布式 KVCache 传输等关键技术,推动 DeepSeek 等主流大模型在昇腾硬件上的高效部署。2025 年度突出贡献者
  • Mooncake 社区 2025 - 至今
    Reviewer & Contributor
    参与 Mooncake 分布式 KVCache 存储引擎的开发与代码审查,贡献 DataManager、Ascend NPU Cache Tier、Local Cache 等核心模块。

代表性项目

openFuyao AI 推理基础设施

2024 - 至今

攻克 PD 分离架构、分布式 KVCache 传输、AscendCacheTier 等关键技术,实现 DeepSeek 等主流大模型在昇腾 910B 上的云原生高效部署。与 Mooncake 社区合作,实现 store 接口 60%-80% 性能提升。

LogAnalyzer:智算集群故障诊断

2024.11 - 至今

面向万卡以上 GPU/NPU 集群的 LLM 驱动智能故障诊断系统。部署于科大讯飞 X1 集群,达成 87.5% 整体诊断准确率,将诊断时间从天级缩短至分钟级。华为全联接大会 2025 联合发布。

LogGPT - 运维日志大模型

2023 - 2024

业界首个免人工标注的运维领域日志分析大模型。在 200+ 服务上实现 80%+ 异常日志识别准确率,将问题诊断时间从小时级缩短至分钟级。

智能北斗(ADN 自运维)

2022 - 2024

自动驾驶网络运维平台核心算法。降低 90% 误报率,实现分钟级故障发现(原为天级)。因此获得华为杰出工程师。

RDMA KVCache 传输加速

2025.01 - 至今

基于 RDMA 的高速 KVCache 传输,解决 LLM 服务中的内存带宽瓶颈,实现高效 KVCache 共享,减少多轮对话和长上下文场景中的冗余计算。已申请 4 项专利。

代表性论文

  • WWW 2018
    Unsupervised Anomaly Detection via Variational Auto-Encoder for Seasonal KPIs in Web Applications
    H Xu*, W Chen*, N Zhao, Z Li, J Bu, Z Li, Y Liu, Y Zhao, D Pei, Y Feng, J Chen, Z Wang, H Qiao
    1287+ 引用 · Alibaba 工业合作
  • INFOCOM 2019
    Unsupervised Anomaly Detection for Intricate KPIs via Adversarial Training of VAE
    W Chen, H Xu, Z Li, D Pei, J Chen, H Qiao, Y Feng, Z Wang
    122 引用 · Alibaba 工业合作
  • IPCCC 2018
    Robust and Unsupervised KPI Anomaly Detection Based on Conditional Variational Autoencoder
    Z Li, W Chen, D Pei
    114 引用 · Alibaba 工业合作
  • WWW 2023
    Unsupervised Anomaly Detection on Microservice Traces through Graph VAE
    Z Xie, H Xu, W Chen, W Li, H Jiang, L Su, H Wang, D Pei
    50 引用
  • FSE 2024
    Chain-of-Event: Interpretable Root Cause Analysis for Microservices through Automatically Learning Weighted Event Causal Graph
    Z Yao, C Pei, W Chen, H Wang, L Su, H Jiang, Z Xie, X Nie, D Pei
    10 引用 · eBay 工业合作
  • ICASSP 2016
    A Deep Bidirectional Long Short-Term Memory Based Multi-Scale Approach for Music Dynamic Emotion Prediction
    X Li, H Xianyu, J Tian, W Chen, F Meng, M Xu, L Cai
    51 引用

…… 另有 9+ 篇论文,详见 Google Scholar

开源贡献

Mooncake(kvcache-ai/Mooncake)— 分布式 KVCache 存储引擎

openFuyao(openFuyao/ofep)— 方案设计

荣誉奖项

2025 华为杰出专家
2024 华为杰出工程师
2022 华为天才少年计划
2025 华为极客大赛二等奖(#13/10万)
2012 NOI 金牌
- Codeforces Grandmaster (2472)
2017 清华大学优秀毕业生