21-技术提升路径报告
角色:李明哲(首席技术顾问)
日期:2025-05-10
基于:Round 1诊断结果
三句话结论
- 最优先学:Multi-Agent架构设计 + MCP/A2A协议,与当前工作强绑定,6个月内可见效;
- 次优先学:LLM推理部署(vLLM/TGI),在荣耀内部有GPU资源可以练手,12个月可落地;
- 长期补足:RLHF训练,这是从"用Agent"到"设计Agent训练数据"的分水岭,决定能否进入顶级团队。
一、技术提升矩阵
| 技术领域 | 当前水平 | 目标水平 | 优先级 | 难度 | 时间投入 | 与工作绑定 | 推荐资源 |
|---|---|---|---|---|---|---|---|
| MCP/A2A协议 | ★★☆☆☆ | ★★★★☆ | 🔴最高 | 低 | 80小时 | ✅强绑定 | Anthropic官方文档 |
| Multi-Agent架构 | ★★★☆☆ | ★★★★☆ | 🔴最高 | 中 | 200小时 | ✅强绑定 | LangGraph/GitHub |
| LLM推理优化 | ★★☆☆☆ | ★★★☆☆ | 🟡次高 | 高 | 300小时 | ✅可绑定 | vLLM GitHub |
| RLHF基础 | ★☆☆☆☆ | ★★☆☆☆ | 🟡次高 | 极高 | 400小时 | 部分绑定 | OpenAI/HuggingFace |
| Agent评测体系 | ★☆☆☆☆ | ★★★☆☆ | 🟡次高 | 中 | 200小时 | ✅可绑定 | AgentBench论文 |
| 具身智能 | ★☆☆☆☆ | ★★☆☆☆ | 🟢长期 | 极高 | 500+小时 | 荣耀布局 | Figure/智元 |
二、分阶段学习路径
阶段1(2025年5-11月,6个月):Multi-Agent + MCP
目标:成为荣耀Multi-Agent方向的内部专家
月度计划
第1-2月:MCP/A2A协议精通
- 精读:Anthropic MCP官方文档(3小时/周)
- 实践:在荣耀项目中应用MCP协议(项目驱动)
- 输出:内部技术文档《MCP协议在手机Agent中的应用实践》
- 验证:主导或参与1个MCP集成项目
第3-4月:Multi-Agent架构设计
- 学习:LangGraph官方教程(4小时/周)
- 实践:设计一个Multi-Agent原型(手机场景)
- 输出:GitHub开源项目(Star目标:50+)
- 学习:AutoGen/MCP Agents/CrewAI对比分析
第5-6月:Multi-Agent系统工程
- 深化:状态一致性/冲突解决/分布式执行
- 实践:参与荣耀Multi-Agent项目实战
- 输出:内部技术分享(PPT+Demo)
资源清单
| 资源类型 | 名称 | 链接 | 备注 |
|---|---|---|---|
| 官方文档 | Anthropic MCP Docs | docs.anthropic.com/mcp | 必读 |
| 官方文档 | Google A2A Protocol | a2a.ai | 2025年4月发布 |
| 开源框架 | LangGraph | github.com/langchain/langgraph | 核心框架 |
| 开源框架 | AutoGen | github.com/microsoft/autogen | 微软出品 |
| 开源框架 | CrewAI | github.com/crewai/crewai | 轻量级 |
| 论文 | AgentBench | arxiv.org/abs/2308 | Agent评测 |
| 论文 | ReAct Prompting | arxiv.org/abs/2210 | 推理框架 |
阶段2(2025年12月-2026年6月,6个月):LLM推理优化
目标:掌握端侧LLM部署和优化,成为LLM工程化的实践者
核心技术栈
LLM推理优化技术栈
├── 推理框架
│ ├── vLLM(paged attention,高吞吐)
│ ├── TensorRT-LLM(NVIDIA官方,高性能)
│ └── Ollama(本地部署,易用性强)
├── 模型量化
│ ├── INT8/INT4量化(AWQ/GPTQ)
│ ├── Qwen/Qwen2量化版
│ └── 端侧模型(Qwen2-0.5B/1.5B/7B)
├── 加速技术
│ ├── Flash Attention
│ ├── Continuous Batching
│ └── Speculative Decoding
└── 部署场景
├── 端侧(手机/IoT)
├── 云端(GPU服务器)
└── 混合部署
荣耀相关的落地场景
- MagicOS的端侧Agent需要LLM在手机端运行(高通/联发科NPU)
- 荣耀Robot Phone的具身智能需要边缘推理
- 跨设备Agent需要端-云协同推理
学习路径
- vLLM入门(1个月):本地部署Qwen-7B,理解Paged Attention原理
- 端侧优化(2个月):Ollama + iOS/Android端侧部署实验
- 量化实践(2个月):用AWQ量化自己的模型,服务荣耀内部测试
- 实战整合(1个月):参与荣耀端侧LLM项目
阶段3(2026年7月-2027年6月,12个月):RLHF基础 + Agent评测
目标:从"用Agent"升级到"设计Agent训练方法"
RLHF入门路径
核心概念(必学):
- Reward Model(奖励模型):如何设计奖励函数
- PPO算法:强化学习核心
- DPO(Direct Preference Optimization):2024年新方法,更简单
- 人类反馈收集:SFT vs RLHF vs DPO
实战方向:
- 在荣耀场景下设计对话质量的Reward标注方案
- 参与荣耀LLM的Post-training评估
论文精读清单:
- "Learning to summarize with RLHF" (OpenAI, 2022)
- "Direct Preference Optimization" (Stanford, 2023)
- "PPO算法原理" ( Schulman et al., 2017)
Agent评测体系
行业现状:
- AgentBench:综合评测(8个环境)
- GAIA:真实世界任务评测
- WebArena:网页Agent评测
- MiniWob++:简单操作评测
实践:在荣耀内部建立Agent效果评估体系(这本身就是一个高价值项目)
三、技术能力认证路径
内部认证
- 荣耀内部AI认证/技术评级(争取Senior/Expert级)
外部认证
| 认证 | 机构 | 费用 | 价值 |
|---|---|---|---|
| Google ML Engineer | 免费 | 大厂认可度高 | |
| AWS ML Specialty | AWS | $300 | 云厂商背书 |
| DeepLearning.AI | Coursera | $49/月 | 吴恩达课程 |
| 阿里云ACE | 阿里云 | ¥1200 | 国内认可度高 |
推荐:以Coursera + 项目实战为主,不建议花大价钱买认证
四、技术提升里程碑
| 时间节点 | 里程碑 | 验证方式 |
|---|---|---|
| 2025年6月 | MCP协议精通 | 内部文档发布 |
| 2025年9月 | Multi-Agent GitHub项目上线 | Star≥50 |
| 2025年12月 | vLLM端侧部署Demo | 可演示Demo |
| 2026年3月 | 主导1个Multi-Agent项目 | 项目上线 |
| 2026年6月 | RLHF基础概念掌握 | 相关工作参与 |
| 2026年12月 | LLM端侧优化实战 | 荣耀项目落地 |
| 2027年6月 | Agent评测体系建设 | 内部工具使用 |
五、风险与备选
风险1:工作太忙没时间学习
→ 应对:将学习与工作绑定,用项目驱动学习,而非单独抽出时间
风险2:荣耀内部技术资源有限
→ 应对:个人购买云GPU资源(每月¥500-1000)用于实验
风险3:技术方向变化
→ 应对:每季度复盘一次,评估技术趋势是否有重大变化
数据来源:技术文档 + 个人经验判断