ai-robot-core/spec/intent-driven-script/data-decomposition-methodol...

6.9 KiB
Raw Blame History

多知识库与数据拆解方法论(用于 Intent-Driven Script 系统)

1. 当前落地建议(先执行)

1.1 建议创建的知识库数量与定位

建议先建 4 个核心知识库 + 1 个兜底库(可选)

  1. KB_PRODUCTproduct课程产品库

    • 放什么:课程模块、年级适配、学科能力点、学习路径、阶段价值
    • 不放什么:退款政策、隐私条款、运营口径说明
  2. KB_PARENT_COMMscript/general家长沟通素材库

    • 放什么:家长痛点表达、共情语料、自然过渡语、解释型话术素材
    • 不放什么:硬规则、流程跳转条件
  3. KB_FAQfaq高频问答库

    • 放什么:价格、班型、课时、上课形式、效果周期等标准问答
    • 不放什么:长篇教育理念、复杂诊断内容
  4. KB_POLICYpolicy合规与边界库

    • 放什么:承诺边界、敏感词、隐私说明、不可承诺清单
    • 不放什么:销售话术素材
  5. KB_GENERALgeneral可选兜底知识库

    • 放什么:跨场景通识内容、无法明确归属但需保留的信息
    • 不放什么:高频关键知识(应尽量归入前 4 库)

1.2 标签metadata统一规范

为保证多库检索稳定,所有文档建议统一至少包含以下 metadata

  • grade: 7|8|9|all
  • subject: chinese|math|english|physics|chemistry|all
  • scene: pain_point|transition|module_intro|faq|policy|closing
  • flow_step: step1|step2|step3|step4|step5|none
  • intent_type: ask_grade|ask_weak_point|module_recommend|next_action|faq_answer|compliance
  • audience: parent|student|all
  • priority: 1-10
  • version: 语义版本,如 v1.0.0
  • status: draft|active|deprecated
  • source: 数据来源(运营、教研、历史会话等)

建议附加字段:

  • keywords: 关键词数组
  • effective_from / effective_to: 生效周期
  • owner: 责任人或团队

1.3 检索路由(必须配置)

采用“意图命中 -> 指定库检索 -> metadata 过滤”,避免全库盲检索。

示例:

  • 课程咨询/薄弱点诊断 -> KB_PRODUCT + KB_PARENT_COMM,过滤 grade + subject + flow_step
  • 价格/班型问答 -> KB_FAQ
  • 效果承诺/隐私/敏感问题 -> KB_POLICY
  • 无法命中 -> KB_GENERAL 兜底

2. 数据拆解方法论(给另一个 AI 上下文使用)

2.1 方法目标

把“原始业务文本/用户话术”稳定拆成以下四类输出:

  1. 录入哪个知识库KB
  2. 是否需要新增意图规则Intent Rule
  3. 是否进入现有话术流程步骤Step1-5
  4. 是否必须新建话术流程New Flow

2.2 四层判定框架L1-L4

L1内容性质判定事实 vs 动作)

  • 若是“事实、说明、经验、解释” -> 优先 KB
  • 若是“出现这句话系统要动作” -> Intent Rule

L2交互形态判定单轮 vs 多轮)

  • 单轮问答可完成 -> FAQ/Fixed/RAG
  • 需持续收集槽位并推进 -> Script Flow

L3流程复用判定旧流程 vs 新流程)

满足以下任一项,建议新建 Flow

  • 业务目标变化(诊断变成转化/挽回/投诉)
  • 槽位集合变化(年级+薄弱点变成预算+时间)
  • 语气/合规策略显著不同

L4可执行性判定是否能被系统消费

必须结构化到可执行字段:

  • 文档title/content/metadata
  • 意图keywords/patterns/response_type/priority
  • 流程步骤intent/constraints/fallback/expected_variables

2.3 标准拆解流程7 步)

  1. 提取实体与槽位
    • 年级、学科、能力点、痛点、目标、约束
  2. 识别触发表达
    • 用户会怎么说(口语化表达)
  3. 判断归属层级
    • KB / Intent / Existing Flow / New Flow
  4. 拆分原子片段
    • 每段只承载 1 个核心含义,便于检索
  5. 生成 metadata
    • grade/subject/scene/flow_step/intent_type/priority
  6. 生成可落库对象
    • API 对象KB 文档、Intent 规则、Flow Step 配置
  7. 冲突检查
    • 重复意图、优先级冲突、跨库污染、口径冲突

2.4 输出模板(给另一个 AI 的固定格式)

让另一个 AI 严格按下列结构输出:

## A. 归类结论
- 主归类KB / Intent / Existing Flow / New Flow
- 次归类:...
- 是否需要新建流程:是/否

## B. 理由
- 业务理由:...
- 技术理由:...

## C. 落库建议
### C1. Knowledge Base
- kb_type: ...
- title: ...
- content_chunks: [...]
- metadata: {...}

### C2. Intent Rules如需要
- name: ...
- keywords: [...]
- patterns: [...]
- response_type: fixed|rag|flow|transfer
- priority: ...

### C3. Script Flow如需要
- flow_id/name: ...
- step_no: ...
- script_mode: fixed|flexible|template
- intent: ...
- constraints: [...]
- fallback: ...
- expected_variables: [...]

## D. 风险与冲突
- potential_conflicts: [...]
- mitigation: [...]

2.5 质量门禁Quality Gate

每条拆解结果上线前需通过:

  1. 可路由:意图命中后有明确 response_type
  2. 可检索metadata 完整(至少 6 个核心字段)
  3. 可执行Flow 步骤有 fallback
  4. 不冲突:优先级与已有规则不打架
  5. 可维护owner、version、status 明确

2.6 你当前 5 步流程的映射建议

  • Step1确认年级
    • 主要依赖:KB_PARENT_COMM(礼貌提问素材)
  • Step2年级特点+过渡)
    • 主要依赖:KB_PRODUCT + KB_PARENT_COMM
  • Step3确认薄弱点
    • 主要依赖:KB_PARENT_COMM(示例化引导)
  • Step4模块介绍+综合价值)
    • 主要依赖:KB_PRODUCT
  • Step5下一步建议
    • 主要依赖:KB_PARENT_COMM + KB_FAQ

3. 给另一个 AI 的指令模板(可直接复制)

你是“中台数据拆解器”。
目标:将输入内容拆成可录入的 Knowledge Base / Intent Rules / Script Flow 配置。

请按以下步骤执行:
1) 提取实体:年级、学科、能力点、痛点、目标、约束。
2) 判断主归类四选一KB / Intent / Existing Flow / New Flow。
3) 若归类为 KB输出kb_type、title、chunk 切分、metadata。
4) 若归类为 Intent输出keywords、patterns、response_type、priority。
5) 若归类为 Existing Flow输出对应 step_no、script_mode、intent、constraints、fallback。
6) 若需要 New Flow说明触发条件、目标、槽位、成功标准。
7) 输出风险与冲突检查。

输出必须使用固定结构A归类结论、B理由、C落库建议、D风险与冲突。
禁止输出泛泛建议,必须给出可直接调用 API 的字段。

4. 迭代策略

  • 第 1 周:先按 4 库上线,跑真实会话
  • 第 2 周统计命中率、误召回率、fallback 率
  • 第 3 周:仅在“高干扰场景”再拆细分库(如按学科拆)
  • 每周:清理 deprecated 文档,升级 version

原则:先用 metadata 和路由提升质量,再考虑扩大知识库数量。