AIResearch:面向论文发现、筛选与分发的本地化 Research Ops Pipeline
2026-03-21
AIResearch 将论文发现、预筛、正文解析与结果分发整合为一条本地可复现的 research ops pipeline,适合持续跟踪特定研究方向的研究者与工程师。
1685 字
|
8 分钟
MiniMind GRPO 训练源码深度解析
2026-02-27
深入剖析 MiniMind 项目的 GRPO (Group Relative Policy Optimization) 算法实现。
2764 字
|
14 分钟
PPO (RLHF) 到 DPO 的完整数学推导
2026-02-03
严格按照 DPO 论文推导 Section 3-4 及 Appendix A.1-A.2 的核心公式。
1668 字
|
8 分钟
MiniMind DPO 训练源码深度解析
2026-02-01
深入剖析 MiniMind 项目的 DPO (Direct Preference Optimization) 算法实现。
2708 字
|
14 分钟
MiniMind PPO 训练源码深度解析
2026-01-29
深入剖析 MiniMind 项目的 PPO (Proximal Policy Optimization) 算法实现。
4907 字
|
25 分钟