Case 3 · 从文献调研到研究提案
💬 交互式驱动 🧠 深度研究
2026-03-20 22:00 → 03-21 01:30 ~3.5h · 26 篇论文 · 3 篇精读 · 1 份提案
🔬 研究流程 (4 Phase)
🔍
Phase 1: 论文发现
22:00 – 22:25
用户提出研究问题 → Agent 搜索 arXiv / Semantic Scholar
筛选 26 篇候选 → 按相关性×影响力排序 Top 10
arxiv_search semantic_scholar tavily
📖
Phase 2: 深度阅读
22:25 – 23:40
用户选择 3 篇精读 → Agent 下载全文 PDF
DNL 模板生成结构化笔记 → 写入 Obsidian Vault
pdf_analysis obsidian_write
🧩
Phase 3: Gap 分析
23:40 – 00:15
交叉对比 3 篇笔记 → 识别研究空白
结合用户研究背景(ReMemR1) → 发现 2 个可行切入点
memory_search cross_analysis
📝
Phase 4: 提案生成
00:15 – 01:30
用户选择方向 → Agent 生成研究提案
3 轮交互迭代 → v3 定稿推送 repo
obsidian_write iterative_refine git push
📊 本次产出
论文扫描26 篇
深度阅读笔记3 份 (DNL)
Research Gap2 个
研究提案1 份 (v3)
人工等价耗时~2 周
🐱
Octivia · Research Assistant
● Deep Research Mode
👤
我想研究 "agent long-term memory + RL" 方向,帮我找找最近的相关工作,看看有没有 research gap
🔍 arxiv_search "agent memory reinforcement learning" · 26 results
🔍 semantic_scholar cross-reference · citation graph · influence score
🐱
找到 26 篇相关工作,筛出 Top 10!(o^▽^o)

🏆 Top 3 最值得精读:
MemAgent-RL — RL 训练 agent 学何时读/写记忆
RetroFormer — 回顾式 policy gradient 优化检索
STILL-ALIVE — 持久化 agent memory benchmark

按相关性×影响力排序 · 完整列表见右侧 →
👤
这三篇都精读一下,DNL 模板出笔记
📄 pdf_analysis ×3 papers · DNL template · writing to Obsidian
⏳ 23:40 · 3 份 DNL 笔记已写入 Obsidian Vault
🐱
三篇读完了!交叉分析发现 2 个 Research Gap

Gap A: RL-for-memory 都假设固定容量 — 没人做自适应容量管理
Gap B: 缺少统一 benchmark 评测跨任务记忆迁移

Gap A 更适合你的 ReMemR1 背景,要以此写提案吗?
👤
方向 A,写吧
🐱
提案 v3 定稿!核心 idea:AdaptMem — 用 RL 训练 agent 动态调整记忆容量与淘汰策略。

三轮迭代完成,已推送 repo ✓
Motivation · Method · 4-week Timeline · Risk Analysis
📄 产出预览
🔍 论文发现 Top 5 / 26
1
MemAgent-RL — RL 控制记忆读写时机
⭐ 核心
2
RetroFormer — 回顾式记忆检索优化
⭐ 核心
3
STILL-ALIVE — 长期记忆 Benchmark
Benchmark
4
Reflexion — Self-reflection for agents
相关
5
MemoryBank — LLM memory management
相关
📖 DNL 笔记预览 (MemAgent-RL)
Motivation: 现有 agent 缺乏主动记忆管理,记忆操作依赖 prompt engineering
Method: 用 PPO 训练 memory controller — 学习 read/write/forget 三种 action
Key Result: WebArena +18% · ALFWorld +23% over SoTA
Limitation: 固定 memory slot 数量(K=16),无法适应不同任务复杂度
Relevance: 直接可扩展 → 自适应 K 是明确 gap
🧩 Research Gap 分析
A
自适应记忆容量 — 所有 RL-memory 工作假设固定 K,无人探索动态扩缩
✓ 选定方向
B
跨任务记忆迁移 — 缺少 benchmark 评测 agent 记忆在新任务上的复用能力
📝 AdaptMem 研究提案 (v3)
💡 Core Idea
RL-trained memory controller with dynamic capacity allocation — agent 自主决定 K 值、淘汰策略和记忆粒度
🏗 Method Overview
① 扩展 MemAgent-RL 为可变 K
② reward shaping: task success + memory efficiency
③ curriculum: 简单任务→复杂任务 progressive training
📅 Timeline (4 weeks)
W1: 复现 baseline · W2: 可变 K 实现
W3: RL training + ablation · W4: 写作
⚠️ Risks
R1: 可变 K 导致 RL 不稳定 → 渐进式课程学习
R2: 评测公平性 → 控制总 memory token 预算
github.com/syr-cn/ResearchClaw · 上朝式科研