AI Infra Architect · Huawei Top Minds

陈文潇

清华大学计算机博士，华为天才少年，openFuyao 社区架构师。研究聚焦于大语言模型系统与智能运维（AIOps），致力于构建高效、可靠、智能的大规模 AI 系统基础设施。

chenwenxiaolive@gmail.com GitHub Google Scholar

1757+ Google Scholar 引用

h-10 h-index

15+ 学术论文

4 专利申请

研究方向

凭借扎实的算法功底（NOI 2012 金牌、Codeforces Grandmaster），研究工作涵盖 LLM 系统的全栈领域，从推理优化到智能运维。

LLM 推理优化智能运维 AIOps 深度生成模型分布式系统 AI Infra AI Agent

教育背景

清华大学 2017.09 - 2022.06

计算机科学与技术博士

导师：裴丹教授
研究方向：智能运维、异常检测、深度生成模型
清华大学 2013.09 - 2017.06

计算机科学与技术学士

GPA 90.86/100 · 年级排名 Top 10+ · 优秀毕业生 · 国家奖学金

工作经历

华为技术有限公司 2022.07 - 至今

技术专家（天才少年计划）

主导智能计算集群系统和 LLM 基础设施的研发工作。3 年内获得 15 项公司级奖励，包括华为杰出工程师（2024）、华为杰出专家（2025）。
openFuyao 社区 2024 - 至今

架构师

主导昇腾 NPU 的 AI 推理基础设施建设，攻克 PD 分离架构、分布式 KVCache 传输等关键技术，推动 DeepSeek 等主流大模型在昇腾硬件上的高效部署。2025 年度突出贡献者。
Mooncake 社区 2025 - 至今

Reviewer & Contributor

参与 Mooncake 分布式 KVCache 存储引擎的开发与代码审查，贡献 DataManager、Ascend NPU Cache Tier、Local Cache 等核心模块。

代表性项目

openFuyao AI 推理基础设施

2024 - 至今

攻克 PD 分离架构、分布式 KVCache 传输、AscendCacheTier 等关键技术，实现 DeepSeek 等主流大模型在昇腾 910B 上的云原生高效部署。与 Mooncake 社区合作，实现 store 接口 60%-80% 性能提升。

LogAnalyzer：智算集群故障诊断

2024.11 - 至今

面向万卡以上 GPU/NPU 集群的 LLM 驱动智能故障诊断系统。部署于科大讯飞 X1 集群，达成 87.5% 整体诊断准确率，将诊断时间从天级缩短至分钟级。华为全联接大会 2025 联合发布。

LogGPT - 运维日志大模型

2023 - 2024

业界首个免人工标注的运维领域日志分析大模型。在 200+ 服务上实现 80%+ 异常日志识别准确率，将问题诊断时间从小时级缩短至分钟级。

智能北斗（ADN 自运维）

2022 - 2024

自动驾驶网络运维平台核心算法。降低 90% 误报率，实现分钟级故障发现（原为天级）。因此获得华为杰出工程师。

RDMA KVCache 传输加速

2025.01 - 至今

基于 RDMA 的高速 KVCache 传输，解决 LLM 服务中的内存带宽瓶颈，实现高效 KVCache 共享，减少多轮对话和长上下文场景中的冗余计算。已申请 4 项专利。

代表性论文

WWW 2018
Unsupervised Anomaly Detection via Variational Auto-Encoder for Seasonal KPIs in Web Applications

H Xu*, W Chen*, N Zhao, Z Li, J Bu, Z Li, Y Liu, Y Zhao, D Pei, Y Feng, J Chen, Z Wang, H Qiao
1287+ 引用 · Alibaba 工业合作
INFOCOM 2019
Unsupervised Anomaly Detection for Intricate KPIs via Adversarial Training of VAE

W Chen, H Xu, Z Li, D Pei, J Chen, H Qiao, Y Feng, Z Wang
122 引用 · Alibaba 工业合作
IPCCC 2018
Robust and Unsupervised KPI Anomaly Detection Based on Conditional Variational Autoencoder

Z Li, W Chen, D Pei
114 引用 · Alibaba 工业合作
WWW 2023
Unsupervised Anomaly Detection on Microservice Traces through Graph VAE

Z Xie, H Xu, W Chen, W Li, H Jiang, L Su, H Wang, D Pei
50 引用
FSE 2024
Chain-of-Event: Interpretable Root Cause Analysis for Microservices through Automatically Learning Weighted Event Causal Graph

Z Yao, C Pei, W Chen, H Wang, L Su, H Jiang, Z Xie, X Nie, D Pei
10 引用 · eBay 工业合作
ICASSP 2016
A Deep Bidirectional Long Short-Term Memory Based Multi-Scale Approach for Music Dynamic Emotion Prediction

X Li, H Xianyu, J Tian, W Chen, F Meng, M Xu, L Cai
51 引用

…… 另有 9+ 篇论文，详见 Google Scholar

开源贡献

Mooncake（kvcache-ai/Mooncake）— 分布式 KVCache 存储引擎

openFuyao（openFuyao/ofep）— 方案设计

荣誉奖项

2025 华为杰出专家

2024 华为杰出工程师

2025 openFuyao 年度突出贡献者

2022 华为天才少年计划

2025 华为极客大赛二等奖（#13/10万）

2012 NOI 金牌

- Codeforces Grandmaster (2472)

2017 清华大学优秀毕业生

学术与主页链接

Google Scholar

1757+ 引用 · h-index: 10 · i10-index: 11

GitHub

github.com/chenwenxiaolive

chenwenxiaolive@gmail.com