# 希沃智教π — AI智能作业批改 技术方案

> **设计目标**：高精度识别手写体与公式，智能判分（含过程分），个性化评语，多维度学情分析
>
> **成本目标**：一次批改的AI推理成本控制在 ¥0.01 以内（传统方案约 ¥0.1-0.3）
>
> **核心策略**：模型路由 × 多层缓存 × 知识蒸馏 × Agent架构

---

## 系统架构

```
┌──────────────────────────────────────────────────────────────────┐
│                         AI 网关层                                │
│     身份认证 | 请求路由 | 限流熔断 | 请求缓存(L1/L2/L3)          │
└───────────────────────────────┬──────────────────────────────────┘
                                │
┌───────────────────────────────▼──────────────────────────────────┐
│                     作业批改编排引擎                              │
│                                                                  │
│  ① 图像预处理 → ② 版面分析 → ③ 多层OCR → ④ 知识点匹配          │
│                                          ↓                       │
│  ⑦ 学情分析 ← ⑥ 评语生成 ← ⑤ 智能判分                          │
│                                          ↑                       │
│                          ⑧ 质量校验Agent（全链路质检）            │
└───────────────────────────────┬──────────────────────────────────┘
                                │
┌───────────────────────────────▼──────────────────────────────────┐
│                    弹性模型池（三层路由）                          │
│                                                                  │
│  Tier 1 (大模型): Qwen2.5-72B / 通义千问-Plus / Qwen2-VL-72B     │
│  Tier 2 (中模型): Qwen2.5-14B / DeepSeek-V2 / Qwen2-VL-7B       │
│  Tier 3 (小模型): PaddleOCR / LaTeX-OCR / BGE-M3 / Qwen2.5-7B   │
└──────────────────────────────────────────────────────────────────┘
```

---

## 核心能力

| 模块 | 解决什么问题 | 技术方案 | 成本 |
|------|------------|---------|------|
| 图像预处理 | 手机拍照的倾斜/反光/模糊 | OpenCV CLAHE + 透视变换 | ¥0 |
| 版面分析 | 题号识别、印刷体vs手写体区分 | PaddleOCR PP-StructureV3 | ¥0 |
| 手写体OCR | 学生手写答案转文本 | PaddleOCR + LoRA微调 | ¥0 |
| 公式识别 | 数学公式→LaTeX代码 | LaTeX-OCR (pix2tex) | ¥0 |
| 多模态Fallback | 低置信度区域二次识别 | Qwen2-VL-7B | ¥0.001/次 |
| 智能判分 | 过程分、部分正确识别 | Qwen2.5-14B/72B + 语义步骤分解 | ¥0.005-0.02 |
| 评语生成 | 个性化、非模板化反馈 | 五维评语模型 + 大模型润色 | ¥0.004/次 |
| 学情分析 | 知识掌握度、薄弱点、趋势 | 知识图谱 + Gini系数 + 时间序列 | ¥0.001/次 |

---

## 低成本高精度四重杠杆

| 杠杆 | 效果 | 说明 |
|------|------|------|
| 🔹 模型路由 | 成本降 70% | 80%简单任务走小模型，20%走大模型 |
| 🔹 三层缓存 | 成本降 60% | L1结果+L2语义+L3知识，拦截 70% 请求 |
| 🔹 量化+蒸馏 | 成本降 90% | INT4量化 + 7B学生模型复制72B教师95%精度 |
| 🔹 批量推理 | 成本降 40% | 同班30份作业批量提交给大模型 |

---

## 关键技术选型

| 领域 | 首选方案 | 替代方案 | 选型理由 |
|------|---------|---------|---------|
| LLM | Qwen2.5-72B (自部署) | 通义千问-Plus API | 中文最强开源，INT4量化后4090可跑 |
| OCR | PaddleOCR PP-OCRv4 | TrOCR / Surya | 中文手写体业界第一，CPU可跑 |
| 公式 | LaTeX-OCR (pix2tex) | UniMERNet | 轻量级，Transformer架构 |
| 向量 | BGE-M3 | gte-Qwen2 | 多语言多粒度，中文最优 |
| 推理引擎 | vLLM | Ollama / TextGen | 高吞吐，支持continuous batching |
| 图数据库 | Neo4j (生产) | NetworkX (原型) | 成熟稳定，Cypher查询 |
| 向量库 | Milvus | Chroma / FAISS | 生产级，云原生 |

---

## MVP快速上线方案

**MVP推荐："全API模式"，零GPU投入，月成本 ¥148**

| 项目 | 配置 | 月成本 |
|------|------|--------|
| 云服务器 | 4C/8G (腾讯云轻量) | ¥68 |
| LLM API | 通义千问-Plus | ¥80 |
| OCR | PaddleOCR (CPU可跑) | ¥0 |
| 存储/DB | 自建 (同服务器) | ¥0 |
| **合计** | | **¥148/月** |

---

> 完整技术栈方案详见 [`smart_grading/智教π完整技术栈方案.md`](smart_grading/智教π完整技术栈方案.md)
>
> 版本：v1.0 | 2026-05-01