资料生产 Agent

01 / Framework

闭环总览

文档目标

先标准化，再规模化

资料生产 Agent 的核心，不是单次生成某个成品，而是把原始资料整理成标准字段、标准标签、标准模板可调用的内容底座。

闭环逻辑

先给资料分类，明确来源、用途和呈现形式。
再确定优先成品，倒推出所需字段和模板。
最后通过清洗、拆解、入库和质检完成规模化派生。

02 / Classify

资料分类

按资料来源

上岸仓资料库底层资料馆申论底层库行测底层库时政 FM 库官方网站 / 权威来源

用于区分存量参考、原始补充、考点标签、题源素材和权威来源校验。

按内容用途

系统学习快速记忆做题训练考前复习申论积累时政更新打印交付手机端互动

用途决定成品目标，也决定内容长短、交互方式和学习节奏。

按呈现形式

讲义类卡片类 PDF 文档类思维导图类 H5 页面类训练题类速查表类专题 / 月度包

同一份知识点素材，可以面向不同形式输出完全不同的成品体验。

03 / Product Strategy

成品策略

Phase 1

优先验证基础成品

讲义类、卡片类、PDF 文档类

最接近现有课程资料，便于验证知识点拆解质量

Phase 2

扩展结构化学习能力

思维导图、训练题、速查表

依赖稳定的知识结构和高频考点表达

Phase 3

扩展交付与互动场景

H5 页面、专题资料包、月度资料包

需要更完整的前端交互和多成品组装能力

成品类型	样式结构重点	适合场景
讲义类	标题、引入、定义、规律、例题、解析、小结	课程配套、系统学习
卡片类	标题、核心结论、记忆点、例子、翻转问答	碎片化记忆、考前回顾
H5 页面类	首屏、内容卡、互动模块、练习题、反馈入口	打卡、自测、分享传播

04 / Schema

字段模型

内容结构字段

知识点名称所属科目所属模块所属章节子知识点核心定义考点规律方法技巧典型例题答案解析过程记忆表达图片 / 图表素材来源信息风险标记适用成品

拆解原则

不按页拆，也不按自然段机械拆分。
优先围绕知识点拆，例题必须绑定对应考点。
无法匹配现有标签的内容，进入待审核或新增标签池。

内容填充

根据成品类型调用不同字段，比如 H5 页面重点使用标题、短内容、互动问题、答案反馈和图片素材。

样式填充

不是简单排版，而是控制正文字数、视觉层级、分页规则、点击交互和默认显隐逻辑。

05 / Workflow

处理流程

01 资料来源

02 资料接入

03 资料解析

04 资料清洗

05 知识点拆解

06 素材结构化

07 标签入库

08 模板组装

09 成品输出

10 质检审核

11 入库 / 上线 / 分发

资料清洗重点

去除水印、logo、机构名、广告、二维码、页眉页脚。
保留正文、题干、选项、答案、解析、图表、来源信息。
政治理论和时政资料需额外保留发布时间、发布机构和来源链接。

标签维度

科目、模块、题型、考点、知识点、考法
资料来源、素材类型、适用成品、使用场景
难度阶段、风险标记、审核状态

06 / Quality

质检节点

清洗后质检

检查是否还残留水印、机构名、广告和页眉页脚。

拆解后质检

检查知识点是否拆对，例题是否绑定正确。

标签质检

检查科目、模块、知识点、考法是否准确。

来源质检

检查政治理论和时政资料是否有权威来源。

生成前质检

检查模板所需字段是否齐全，是否满足页面渲染条件。

成品后质检

检查内容完整性、样式正确性和场景匹配度。

07 / Architecture

系统架构

前端操作台

给运营和审核人员的可视化工作面板

资料上传来源选择科目 / 模块选择清洗结果预览拆解结果预览标签修改模板选择成品预览审核通过 / 驳回重新生成批量处理导出下载

后端流程编排

把资料处理链路自动化

OCR 识别资料清洗知识点拆解知识图谱匹配素材结构化标签入库官网补采来源校验模板组装成品生成 LLM 初检规则校验人工审核流日志记录失败重跑