long docs
保险 / 监管 / 合同 / 财报 / 研报,格式差异很大。
最终输出只有两件硬东西:答案 CSV 和证据 / 日志。中间所有 Agent 行为都要服务于这两个 artifact。
保险 / 监管 / 合同 / 财报 / 研报,格式差异很大。
单选、多选、判断;多选题必须完全匹配。
超过预算会被 TokenScore 惩罚,不能靠硬塞上下文。
PDF/text/table → blocks.jsonl;保留 page、section、bbox、table_id。
按章节 / 条款 / 表格切块;避免固定窗口切碎金融语义。
BM25 + entity/date/number/table inverted index;先不依赖非 Qwen embedding。
question + each option 分别召回;输出 evidence packets。
只读短证据,判断 support / refute / unknown,不直接自由发挥。
程序化收口:多选排序、去重、非法答案兜底、token 汇总。
A 榜给出候选文档,所以我们不需要先解决开放域路由。先证明解析、检索、判题链路能超过 baseline。
B 榜的核心增量是文档路由。不要另写一套回答逻辑,否则调参空间会爆炸。
最小方案用 lexical + structure 先跑起来;Qwen 只参与合规的语义判断,不做非 Qwen embedding/rerank。
题干关键词 + 选项关键词,按 doc_id scope 检索 top-k blocks。
条款号、章节标题、附注编号是强信号,不能被普通 chunk 淹没。
公司名、产品名、金额、比例、年份单独建倒排,辅助精确召回。
表格转 Markdown + row/col metadata,证据包里保留表头上下文。
token_count 不只是提交字段,也是调参指标。每次 prompt 都必须落日志。
解析、切块、索引用程序做,减少不可控成本。
每题默认一次 Qwen 判题,证据短而密。
只对低置信、多选冲突、证据不足题复核。
我建议第一版就把中间产物固化到文件,方便两个人并行看同一道题为什么错。
题干、候选选项、命中文档、最终答案同屏。
展示 doc_id / page / span,能一键回看原文。
比较两次实验的答案变化、token 变化、错误类型。
路由错、召回错、证据错、判题错、格式错分开记。
产出 blocks.jsonl,保证页码、章节、表格上下文不丢。
实现 A 榜 scoped retrieval,每题输出可读 evidence packets。
Qwen prompt、normalizer、answer.csv、token logs、错题 taxonomy。
10 题人工验链路,100 题自动跑通,A 榜准确率超过官方 baseline。