3月30日,HAUST-HNU大模型与安全联合研究团队第21期组会在线召开。本次组会主题是DeepSeek-V3和DeepSeek-R1关键技术研讨。会议由河南师范大学荆军昌副教授主持。
河南科技大学2024级博士研究生权高原汇报了《DeepSeek-V3 Technical Report》。该论文系统性地介绍了DeepSeek-V3大语言模型的架构设计、训练方法及核心技术创新。DeepSeek研究团队提出了一种基于混合专家(MoE)的高效推理框架,通过动态路由机制实现模型参数的稀疏激活(每个token仅激活37B参数),在保持6710亿参数规模的同时显著降低计算成本。论文创新性地采用多头潜在注意力(MLA)机制,通过潜在空间建模捕捉深层语义关系,并结合DeepSeekMoE架构的辅助无丢失负载平衡策略,有效解决了专家网络任务分配不均的难题。训练过程引入多令牌预测目标,通过预训练(14.8万亿token)、监督微调与强化学习三阶段优化,仅消耗2.788M H800 GPU小时即完成稳定训练(无损失峰值/回滚)。在CLUE、GSM8K和HumanEval等基准测试中,该模型在128K长文本处理、数学推理及代码生成任务上均展现出显著优势,其参数量利用率较同类模型提升40%以上。
河南科技大学2024级硕士研究生师灿汇报了《DeepSeek-R1 Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》论文。该论文主要介绍了DeepSeek-R1-Zero采用纯强化学习,不依赖冷启动数据,在多任务中表现强劲。DeepSeek-R1借助冷启动数据和迭代强化学习微调,性能更强大,与OpenAI-o1-1217持平,远超其他模型。将蒸馏的DeepSeek-R1模型运用到其他小模型上,实验结果表明这种简单的蒸馏方法显著增强了小型模型的推理能力。
在交流环节,与会成员主要针对文献的技术路线、创新点及不明之处展开了热烈的讨论,为下一阶段课题研究提供了新思路。
(图文/师灿、权高原 审核/权高原)