
本期“至善芯语”集成电路系列讲座邀请到陈巍博士为我们做相关报告与交流,欢迎各位行业同仁、研究生们参会并交流。
讲座信息
报告人:陈巍
主持人:单伟伟
主题:DeepSeek V3/R1架构的深度分析与深度思考
时间:2025年3月11日星期二16:00—17:30
地点:EDA国创中心2楼208会议室
(南京市江北新区星火路17号创智大厦B座)嘉宾介绍

陈巍
大模型+AI芯片专家
博士,高级职称。国际计算机学会(ACM)、中国计算机学会(CCF)专业会员,多个国际人工智能期刊审稿人。主要研究方向为大模型架构、稀疏量化压缩与部署加速,存算一体与3D Chiplet处理器,相关技术成果已被广泛应用于知名IDC和互联网企业。
曾任领域知名人工智能(自然语言处理)企业首席科学家,中国科学院副主任(2012),多个国家科技重大专项课题负责人。中国与美国发明专利软件著作权约70+项(约50+项发明专利已授权)。著有《Sora大模型技术精要—原理、关键技术、模型架构与未来趋势》《GPT-4大模型硬核解读》《ChatGPT大模型技术精要—发展历程、原理、技术架构详解和产业未来》《DeepSeek是否有国运级的创新?2万字解读与硬核分析DeepSeek V3/R1的架构》等。
报告摘要
DeepSeek的最新模型V3和R1都属于MoE(混合专家)架构,并在开源世界产生了较大的影响力。特别是2025年1月开源的DeepSeek-R1,模型性能可挑战OpenAI闭源的o1 模型。本次分享从MoE模型架构与低比特训练框架创新的角度,深入分析DeepSeek V3/R1的架构、训练流程和训练框架设计思想,并给出大模型发展路线和算力芯片范式共生的深度思考。
1.Scaling law与Moore's law的范式共生
2.DeepSeek的架构提升与既要又要
3.V3/R1训练架构与软硬件协同进化
4.V3/R1训练流程与RL变幻莫测的潜力
5.推理芯片的影响分析
6.从DeepSeek到算力竞赛的深度思考