Case 3: 一晚上从零到研究提案

🔬 研究流程 (4 Phase)

🔍

Phase 1: 论文发现

22:00 – 22:25

用户提出研究问题 → Agent 搜索 arXiv / Semantic Scholar
筛选 26 篇候选 → 按相关性×影响力排序 Top 10

arxiv_search semantic_scholar tavily

↓

📖

Phase 2: 深度阅读

22:25 – 23:40

用户选择 3 篇精读 → Agent 下载全文 PDF
DNL 模板生成结构化笔记 → 写入 Obsidian Vault

pdf_analysis obsidian_write

↓

🧩

Phase 3: Gap 分析

23:40 – 00:15

交叉对比 3 篇笔记 → 识别研究空白
结合用户研究背景(ReMemR1) → 发现 2 个可行切入点

memory_search cross_analysis

↓

📝

Phase 4: 提案生成

00:15 – 01:30

用户选择方向 → Agent 生成研究提案
3 轮交互迭代 → v3 定稿推送 repo

obsidian_write iterative_refine git push

📊 本次产出

论文扫描26 篇

深度阅读笔记3 份 (DNL)

Research Gap2 个

研究提案1 份 (v3)

人工等价耗时~2 周

🐱

Octivia · Research Assistant

● Deep Research Mode

👤

我想研究 "agent long-term memory + RL" 方向，帮我找找最近的相关工作，看看有没有 research gap

🔍 arxiv_search "agent memory reinforcement learning" · 26 results

🔍 semantic_scholar cross-reference · citation graph · influence score

🐱

找到 26 篇相关工作，筛出 Top 10！(o^▽^o)

🏆 Top 3 最值得精读：
① MemAgent-RL — RL 训练 agent 学何时读/写记忆
② RetroFormer — 回顾式 policy gradient 优化检索
③ STILL-ALIVE — 持久化 agent memory benchmark

按相关性×影响力排序 · 完整列表见右侧 →

👤

这三篇都精读一下，DNL 模板出笔记

📄 pdf_analysis ×3 papers · DNL template · writing to Obsidian

⏳ 23:40 · 3 份 DNL 笔记已写入 Obsidian Vault

🐱

三篇读完了！交叉分析发现 2 个 Research Gap：

Gap A: RL-for-memory 都假设固定容量 — 没人做自适应容量管理
Gap B: 缺少统一 benchmark 评测跨任务记忆迁移

Gap A 更适合你的 ReMemR1 背景，要以此写提案吗？

> papers/memagent-rl.md +142 lines
> papers/retroformer.md +128 lines
> papers/still-alive.md +115 lines

👤

方向 A，写吧

🐱

提案 v3 定稿！核心 idea：AdaptMem — 用 RL 训练 agent 动态调整记忆容量与淘汰策略。

三轮迭代完成，已推送 repo ✓
Motivation · Method · 4-week Timeline · Risk Analysis

> proposals/adaptmem.md +230 lines
> commit e7f2a1c: Add AdaptMem proposal v3
> pushed: origin/main

📄 产出预览

🔍 论文发现 Top 5 / 26

MemAgent-RL — RL 控制记忆读写时机
⭐ 核心

RetroFormer — 回顾式记忆检索优化
⭐ 核心

STILL-ALIVE — 长期记忆 Benchmark
Benchmark

Reflexion — Self-reflection for agents

MemoryBank — LLM memory management

📖 DNL 笔记预览 (MemAgent-RL)

Motivation: 现有 agent 缺乏主动记忆管理，记忆操作依赖 prompt engineering

Method: 用 PPO 训练 memory controller — 学习 read/write/forget 三种 action

Key Result: WebArena +18% · ALFWorld +23% over SoTA

Limitation: 固定 memory slot 数量(K=16)，无法适应不同任务复杂度

Relevance: 直接可扩展 → 自适应 K 是明确 gap

🧩 Research Gap 分析

自适应记忆容量 — 所有 RL-memory 工作假设固定 K，无人探索动态扩缩
✓ 选定方向

跨任务记忆迁移 — 缺少 benchmark 评测 agent 记忆在新任务上的复用能力

📝 AdaptMem 研究提案 (v3)

💡 Core Idea

RL-trained memory controller with dynamic capacity allocation — agent 自主决定 K 值、淘汰策略和记忆粒度

🏗 Method Overview

① 扩展 MemAgent-RL 为可变 K
② reward shaping: task success + memory efficiency
③ curriculum: 简单任务→复杂任务 progressive training

📅 Timeline (4 weeks)

W1: 复现 baseline · W2: 可变 K 实现
W3: RL training + ablation · W4: 写作

⚠️ Risks

R1: 可变 K 导致 RL 不稳定 → 渐进式课程学习
R2: 评测公平性 → 控制总 memory token 预算