你好,访客!
2026-01-25
这是我写下的第一篇博客
138 字
|
1 分钟
算法题解索引
汇总所有 AtCoder 和 Codeforces 的算法题解索引。
157 字
|
1 分钟
苏州大学软件工程专业生存指南
苏州大学计算机科学与技术学院软件工程专业学习指南
900 字
|
5 分钟
AIResearch:面向论文发现、筛选与分发的本地化 Research Ops Pipeline
2026-03-21
AIResearch 将论文发现、预筛、正文解析与结果分发整合为一条本地可复现的 research ops pipeline,适合持续跟踪特定研究方向的研究者与工程师。
1685 字
|
8 分钟
MiniMind GRPO 训练源码深度解析
深入剖析 MiniMind 项目的 GRPO (Group Relative Policy Optimization) 算法实现。
2764 字
|
14 分钟
PPO (RLHF) 到 DPO 的完整数学推导
严格按照 DPO 论文推导 Section 3-4 及 Appendix A.1-A.2 的核心公式。
1668 字
|
8 分钟
MiniMind DPO 训练源码深度解析
深入剖析 MiniMind 项目的 DPO (Direct Preference Optimization) 算法实现。
2708 字
|
14 分钟
MiniMind PPO 训练源码深度解析
深入剖析 MiniMind 项目的 PPO (Proximal Policy Optimization) 算法实现。
4907 字
|
25 分钟