first commit

2026-04-23 09:58:47 +08:00
commit 448e078d99
49 changed files with 5188 additions and 0 deletions
--- a/.env.example
+++ b/.env.example
@@ -0,0 +1,89 @@
+# ══════════════════════════════════════════════════
+# AI合规智能中枢 — 环境变量配置
+# 复制本文件为 .env 并填写实际值
+# cp .env.example .env
+# ══════════════════════════════════════════════════
+
+
+# ──────────────────────────────────────────────────
+# LLM 云端 API 配置（至少填写一个）
+# ──────────────────────────────────────────────────
+
+# LLM 提供商：deepseek 或 qwen
+LLM_PROVIDER=deepseek
+
+# DeepSeek API（推荐，约¥1/百万tokens）
+# 申请地址：https://platform.deepseek.com
+DEEPSEEK_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
+# 可选模型：deepseek-chat（通用）、deepseek-reasoner（推理增强）
+DEEPSEEK_MODEL=deepseek-chat
+
+# 阿里云 DashScope / Qwen API（备用）
+# 申请地址：https://dashscope.aliyuncs.com
+DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
+# 可选模型：qwen-plus、qwen-max、qwen-turbo
+QWEN_MODEL=qwen-plus
+
+
+# ──────────────────────────────────────────────────
+# 数据库密码
+# ──────────────────────────────────────────────────
+
+# PostgreSQL 密码（生产环境请使用强密码）
+POSTGRES_PASSWORD=compliance_secure_2026
+
+# Redis 密码
+REDIS_PASSWORD=redis_secure_2026
+
+# Neo4j 密码（不能包含特殊字符）
+NEO4J_PASSWORD=neo4j_secure_2026
+
+
+# ──────────────────────────────────────────────────
+# AI 模型配置
+# ──────────────────────────────────────────────────
+
+# HuggingFace 镜像（国内加速，默认使用 hf-mirror.com）
+HF_ENDPOINT=https://hf-mirror.com
+
+# 嵌入服务设备：cpu 或 cuda（有 GPU 时改为 cuda）
+EMBEDDING_DEVICE=cpu
+
+# MinerU 解析设备：cpu 或 cuda
+MCP_DEVICE=cpu
+
+
+# ──────────────────────────────────────────────────
+# 应用配置
+# ──────────────────────────────────────────────────
+
+# 运行环境：development / production
+APP_ENV=development
+
+# 日志级别：DEBUG / INFO / WARNING / ERROR
+LOG_LEVEL=INFO
+
+# API 认证密钥（用于内部服务间调用）
+API_SECRET_KEY=change_this_to_a_random_secret_key_32chars
+
+
+# ──────────────────────────────────────────────────
+# 监控配置（可选）
+# ──────────────────────────────────────────────────
+
+# Grafana 管理员密码
+GRAFANA_PASSWORD=admin
+
+
+# ──────────────────────────────────────────────────
+# 外部推送配置（闭环③法规监控推送用）
+# ──────────────────────────────────────────────────
+
+# 邮件推送（可选）
+# SMTP_HOST=smtp.example.com
+# SMTP_PORT=587
+# SMTP_USER=your@email.com
+# SMTP_PASSWORD=your_smtp_password
+
+# Webhook 推送（可选，支持飞书/钉钉/企业微信）
+# WEBHOOK_URL=https://hooks.slack.com/services/xxx
--- a/00_整体部署规划.md
+++ b/00_整体部署规划.md
@@ -0,0 +1,277 @@
+# AI合规智能中枢 — 整体部署规划
+
+> **版本：** 调研版 v1.0 | **日期：** 2026.04 | **团队：** T-Systems AI Regulations Team
+
+---
+
+## 一、项目背景
+
+AI+合规智能中枢面向车企与工厂，是一个全链路合规智能平台。主要解决以下痛点：
+
+| 痛点 | 说明 |
+|------|------|
+| 法规来源复杂 | GB、MIIT、UN-ECE、IATF 16949、ISO 45001 等多源并行 |
+| 更新频率高 | 新能源、数据安全、碳排放法规频繁变动 |
+| 跨语言要求 | 中英德法多语言法规并存 |
+| 文档管理分散 | 内部文档与外部法规割裂，难以统一检索 |
+| 被动识别隐患 | EHS 合规靠人工排查，效率低下 |
+
+**调研目标：** 以最小资源投入（Docker Compose 单机）验证三条核心业务闭环的技术可行性。
+
+---
+
+## 二、部署架构概览
+
+```
+┌─────────────────────────────────────────────────────────────────┐
+│                         单台服务器                               │
+│  ┌──────────────┐    ┌──────────────────────────────────────┐  │
+│  │  API 网关     │    │           Docker Compose              │  │
+│  │  Nginx :80   │───▶│                                      │  │
+│  └──────────────┘    │  ┌──────────────────────────────┐   │  │
+│                       │  │       业务服务层               │   │  │
+│                       │  │  compliance-backend :8000     │   │  │
+│                       │  │  celery-worker                │   │  │
+│                       │  │  celery-beat                  │   │  │
+│                       │  └──────────┬───────────────────┘   │  │
+│                       │             │                        │  │
+│                       │  ┌──────────▼───────────────────┐   │  │
+│                       │  │        AI 模型层               │   │  │
+│                       │  │  embedding-service :8010      │   │  │
+│                       │  │  mcp-server(MinerU)  :8011    │   │  │
+│                       │  │  LLM → DeepSeek API (云端)   │   │  │
+│                       │  └──────────┬───────────────────┘   │  │
+│                       │             │                        │  │
+│                       │  ┌──────────▼───────────────────┐   │  │
+│                       │  │        数据层                  │   │  │
+│                       │  │  PostgreSQL :5432             │   │  │
+│                       │  │  Redis      :6379             │   │  │
+│                       │  │  Milvus     :19530            │   │  │
+│                       │  │  Neo4j      :7474/:7687       │   │  │
+│                       │  │  MinIO      (Milvus内置)      │   │  │
+│                       │  └──────────────────────────────┘   │  │
+│                       └──────────────────────────────────────┘  │
+└─────────────────────────────────────────────────────────────────┘
+                              │
+                    ┌─────────▼──────────┐
+                    │   DeepSeek API     │
+                    │   (云端 LLM)       │
+                    └────────────────────┘
+```
+
+---
+
+## 三、原方案 vs 调研方案对比
+
+| 维度 | 原方案（生产级）| 调研方案 | 降级理由 |
+|------|--------------|---------|---------|
+| 编排 | Kubernetes 1.36 + Helm | **Docker Compose** | 无需集群管理，`up -d` 一键启动 |
+| LLM | vLLM + DeepSeek-V3（4×A100）| **DeepSeek/Qwen 云端 API** | 无 GPU 依赖，秒级就绪 |
+| 嵌入模型 | BGE-M3 GPU 服务 | **BGE-M3 CPU 容器** | 调研数据量小，CPU 够用 |
+| Milvus | 分布式集群 + MinIO | **Milvus Standalone**（含内置 MinIO）| 单容器，省去 MinIO 独立部署 |
+| 消息队列 | Kafka 3 节点 | **Redis + Celery**（复用已有 Redis）| 调研无需高吞吐，大幅简化 |
+| 监控 | Prometheus + Grafana + ELK | **仅 Prometheus + Grafana**（可选）| 轻量，后期按需加 |
+| 安全 | JWT + cert-manager + RBAC | **API Key 简单认证** | 调研期无需生产级安全 |
+| CI/CD | GitLab CI 完整流水线 | **无**（手动部署）| 调研期直接 compose up |
+
+---
+
+## 四、硬件最低要求
+
+| 资源 | 最低配置 | 推荐配置 | 说明 |
+|------|---------|---------|------|
+| CPU | 8 核 | 16 核+ | BGE-M3 CPU 模式需要较多核心 |
+| 内存 | 32 GB | 64 GB | Milvus + BGE-M3 + Neo4j 内存消耗较大 |
+| 存储 | 200 GB SSD | 500 GB SSD | 含模型文件（约 5GB）+ 数据 |
+| GPU | **无需** | 1× RTX 3090（24GB）| 有 GPU 可加速嵌入/MinerU |
+| 网络 | 能访问 DeepSeek API | — | LLM 完全在云端 |
+| OS | Ubuntu 22.04 LTS | — | 或 Windows 11 + WSL2 |
+
+**各组件内存估算：**
+
+| 服务 | 内存占用 |
+|------|---------|
+| PostgreSQL | ~1 GB |
+| Redis | ~512 MB |
+| Milvus（含 etcd/minio）| ~4 GB |
+| Neo4j | ~2 GB |
+| BGE-M3（CPU 模式）| ~6 GB |
+| MinerU（CPU 模式）| ~4 GB |
+| compliance-backend | ~1 GB |
+| celery-worker × 1 | ~1 GB |
+| **合计** | **~20 GB** |
+
+---
+
+## 五、五阶段部署步骤（总览）
+
+```
+阶段一：宿主机环境准备
+  └─ 安装 Docker CE / Docker Desktop
+  └─ 配置 nvidia-container-toolkit（有 GPU 时）
+  └─ 创建项目目录，配置 .env
+
+阶段二：基础中间件启动
+  └─ PostgreSQL + Redis（优先启动）
+  └─ etcd + MinIO（Milvus 依赖）
+  └─ Milvus Standalone（向量检索核心）
+  └─ Neo4j Community（知识图谱）
+
+阶段三：AI 模型服务构建与启动
+  └─ 构建 embedding-service（BGE-M3 封装）
+  └─ 构建 mcp-server（MinerU 封装）
+  └─ 预下载模型（BGE-M3 ~2.5GB，MinerU ~2GB）
+
+阶段四：业务微服务启动
+  └─ compliance-backend（FastAPI 主服务）
+  └─ celery-worker（异步任务处理）
+  └─ celery-beat（定时任务调度）
+  └─ nginx（API 网关）
+
+阶段五：验证与闭环测试
+  └─ 健康检查（bash scripts/check_health.sh）
+  └─ 端到端冒烟测试（bash scripts/07_smoke_test.sh）
+  └─ 三条业务闭环验证
+```
+
+---
+
+## 六、三条核心业务闭环
+
+### 闭环①：法规入库 → 检索问答
+
+```
+用户上传 PDF
+    │
+    ▼
+API Gateway（Nginx）
+    │
+    ▼
+kbmp-service（文件接收）
+    │ 异步投递
+    ▼
+Celery Worker
+    │
+    ├─► parse-worker ──► mcp-server（MinerU 解析）
+    │                         │ Markdown + 结构化文本
+    │                         ▼
+    └─► vectorize-worker ──► embedding-service（BGE-M3）
+                                  │ 1024维向量
+                                  ▼
+                             Milvus（向量存储）+ PostgreSQL（元数据）
+
+用户提问
+    │
+    ▼
+BM25 关键词检索 + BGE-M3 向量检索（Milvus hybrid search）
+    │
+    ▼
+Cross-Encoder Reranker（精排 Top-K）
+    │
+    ▼
+DeepSeek API（引文锚定生成）
+    │
+    ▼
+返回答案（含原文引用 + 页码）
+```
+
+### 闭环②：文档上传 → 合规审查
+
+```
+上传供应商/内部文档
+    │
+    ▼
+MinerU 解析 → 条款级分割
+    │
+    ▼
+法规域匹配（vehicle_safety / data_security / ehs）
+    │
+    ▼
+与法规库语义比对（向量相似度 + 关键字匹配）
+    │
+    ▼
+DeepSeek API 风险评分（条款级分析）
+    │
+    ▼
+生成 Markdown 审查报告（风险等级 + 整改建议）
+```
+
+### 闭环③：法规监控 → 变更推送
+
+```
+Celery Beat 定时触发（每天）
+    │
+    ▼
+抓取监控源（国标委 / 工信部 / 应急管理部 / 生环部）
+    │
+    ▼
+内容 Hash 比对（检测变更）
+    │
+    ▼ [有变更]
+NLP Diff 分析（DeepSeek 提取新增/修订/废止条款）
+    │
+    ▼
+增量入库（MinerU 解析 → BGE-M3 → Milvus + PostgreSQL + Neo4j）
+    │
+    ▼
+差距分析（与企业现状比对）
+    │
+    ▼
+推送通知（Email / Webhook / 飞书 / 钉钉）
+    │
+    ▼
+记录变更日志 → 触发整改任务
+```
+
+---
+
+## 七、技术选型决策依据
+
+| 组件 | 选型 | 决策依据 |
+|------|------|---------|
+| 向量数据库 | Milvus 2.4 | 支持 Dense+Sparse 混合检索，BGE-M3 配套，生产可扩展 |
+| 图数据库 | Neo4j 5.x | 法规实体关系建模成熟，APOC 插件丰富，Cypher 查询友好 |
+| 嵌入模型 | BGE-M3 | 中英文双语，支持 dense+sparse+multi-vector，8192 token 上下文 |
+| LLM | DeepSeek API | 推理能力强，成本低（约¥1/百万 tokens），OpenAI 兼容 |
+| 文档解析 | MinerU | GPU 最快 0.21s/页，支持 109 种语言 OCR，布局感知 |
+| 任务队列 | Celery + Redis | 调研阶段够用，比 Kafka 轻量，Redis 可复用 |
+| API 框架 | FastAPI | 异步性能好，OpenAPI 自动生成，Pydantic 数据验证 |
+| 关系数据库 | PostgreSQL + pgvector | 元数据存储 + 备用向量检索，pgvector 镜像开箱即用 |
+
+---
+
+## 八、升级路径（调研 → 生产）
+
+| 维度 | 升级内容 | 触发条件 |
+|------|---------|---------|
+| LLM | API → 本地 vLLM + DeepSeek-V3 | 数据安全要求/API成本超阈值 |
+| Milvus | Standalone → 分布式集群 | 向量数据 > 1000 万条 |
+| 消息队列 | Celery+Redis → Kafka | 并发任务 > 100/分钟 |
+| 编排 | Docker Compose → Kubernetes | 多节点部署/弹性伸缩需求 |
+| 安全 | API Key → JWT + RBAC | 对外提供服务/多租户 |
+| 监控 | Grafana → Grafana + ELK | 日志量大/需要复杂分析 |
+
+---
+
+## 九、文件结构说明
+
+```
+Depolyment/
+├── 00_整体部署规划.md          ← 本文档
+├── 01_技术架构详解.md          ← 六层架构 + 六大微服务详细说明
+├── 02_组件安装指南.md          ← 每个组件的详细安装步骤
+├── 03_业务闭环说明.md          ← 三条闭环的数据流和接口规范
+├── README.md                   ← 快速启动指南
+├── docker-compose.yml          ← 全服务编排
+├── .env.example                ← 环境变量模板
+├── scripts/                    ← 安装与运维脚本（13 个）
+├── services/                   ← 服务源码
+│   ├── embedding/              ← BGE-M3 嵌入服务
+│   ├── mcp-server/             ← MinerU 文档解析服务
+│   └── compliance-backend/     ← 核心业务后端
+├── config/                     ← Nginx、Prometheus 配置
+├── init-sql/                   ← PostgreSQL 初始化 SQL
+├── data/                       ← 运行时数据
+├── logs/                       ← 服务日志
+└── models/                     ← AI 模型缓存
+```
--- a/01_技术架构详解.md
+++ b/01_技术架构详解.md
@@ -0,0 +1,263 @@
+# AI合规智能中枢 — 技术架构详解
+
+> 本文档对应架构文档：`01_分层次技术架构图.html` 和 `02_详细技术架构图.html`
+
+---
+
+## 一、六层架构总览
+
+```
+┌──────────────────────────────────────────────────────────────────┐
+│  L1  应用接入层：Web / Mobile / Bot / API Gateway / RBAC         │
+├──────────────────────────────────────────────────────────────────┤
+│  L2  业务能力层：知识库问答 / 文档审查 / EHS / 法规监控 / 推荐   │
+├──────────────────────────────────────────────────────────────────┤
+│  L3  法规感知层：监控 → 感知 → 解析 → 图谱 → 分析 → 闭环        │
+├──────────────────────────────────────────────────────────────────┤
+│  L4  AI引擎层：RAG / LLM / 文档解析 / 知识图谱推理 / NLP        │
+├──────────────────────────────────────────────────────────────────┤
+│  L5  数据知识层：Milvus / PostgreSQL / Neo4j / Redis / 知识库    │
+├──────────────────────────────────────────────────────────────────┤
+│  L6  基础设施层：安全治理 / 容器编排 / 运维观测 / CI/CD          │
+└──────────────────────────────────────────────────────────────────┘
+```
+
+---
+
+## 二、六大微服务详解
+
+### 2.1 kbmp-service（知识库公开接口）
+
+**职责：** 知识库的统一入口，处理文件上传、检索编排、任务投递。
+
+**核心接口：**
+
+| 方法 | 路径 | 功能 |
+|------|------|------|
+| POST | `/workspace/create` | 创建知识库工作空间 |
+| POST | `/files/upload` | 上传文件（触发解析任务） |
+| POST | `/files/parse` | 手动触发解析 |
+| POST | `/knowledge/retrieval` | 混合检索（BM25 + 向量）|
+| POST | `/chunks/recall` | 原始 Chunk 召回 |
+| POST | `/qa` | 检索 + LLM 问答生成 |
+
+**内部流程：**
+```
+文件上传 → 存储 data/uploads → 投递 Celery 任务（parse-queue）
+    → parse-worker 调用 mcp-server 解析
+    → vectorize-worker 调用 embedding-service 向量化
+    → 写入 Milvus（向量）+ PostgreSQL（元数据）
+```
+
+---
+
+### 2.2 mcp-server（文档解析服务）
+
+**职责：** 将 PDF/Word/Excel 等文档转换为结构化 Markdown，供后续向量化。
+
+**核心接口：**
+
+| 方法 | 路径 | 功能 |
+|------|------|------|
+| POST | `/parse-document` | 通用解析（自动选择引擎）|
+| POST | `/mineru-parse` | MinerU 精准解析 |
+| GET | `/health` | 健康检查 |
+
+**解析策略（降级链）：**
+```
+1. 阿里云文档解析 API（云端高精度）→ [调研版暂不启用]
+2. MinerU（本地，GPU/CPU 均支持）→ 主用
+3. python-docx / PyMuPDF（纯文本降级）→ 兜底
+```
+
+**MinerU 特性：**
+- GPU 最快：0.21 秒/页
+- CPU 模式：约 3-5 秒/页（调研阶段可接受）
+- 支持 109 种语言 OCR
+- 布局感知：区分正文/标题/表格/图片/页眉页脚
+- 输出格式：Markdown + JSON（含结构化元数据）
+
+---
+
+### 2.3 合规业务后端（compliance-backend）
+
+**职责：** 核心业务逻辑，整合三条闭环的业务处理。
+
+**核心接口：**
+
+| 方法 | 路径 | 功能 |
+|------|------|------|
+| POST | `/compliance/upload` | 上传待审查文档 |
+| POST | `/compliance/check` | 智能合规审查 |
+| GET | `/compliance/report/{id}` | 获取审查报告 |
+| POST | `/compliance/regulations/download` | 下载法规 |
+| POST | `/compliance/regulations/update` | 更新法规版本 |
+| POST | `/compliance/access-control` | 权限分级管理 |
+| POST | `/compliance/subscribe` | 订阅变更推送 |
+
+---
+
+### 2.4 法规感知引擎（Regulation Awareness Engine）
+
+**职责：** 定时监控法规源，自动检测变更，触发增量更新。
+
+**六步感知闭环：**
+
+```
+① 法规源监控
+   - 定时抓取：国家标准委、工信部、UN-ECE、EUR-Lex、碳交易平台
+   - 技术：requests + BeautifulSoup + Playwright（动态页面）
+
+② 智能变更感知
+   - Hash 对比（快速过滤）
+   - NLP 版本 Diff（精确识别新增/修订/废止条款）
+
+③ 自动解析入库
+   - MinerU 解析 → 条款级分割
+   - BGE-M3 向量化 → Milvus + PostgreSQL
+
+④ 知识图谱同步
+   - Neo4j 更新：法规-条款-义务关系
+   - 影响分析：哪些企业文档受影响
+
+⑤ 差距分析
+   - AI 比对企业现状 vs 新法规要求
+   - 生成差距报告
+
+⑥ 推送与整改触发
+   - 按角色推送（研发/EHS/采购/法务）
+   - 自动生成整改任务
+```
+
+---
+
+### 2.5 AI 推理引擎（AI Inference Engine）
+
+**职责：** 混合检索、精排、LLM 生成、知识图谱推理。
+
+**混合检索流程：**
+
+```
+用户查询
+    │
+    ├─► BGE-M3 向量化（Dense 1024维）
+    │       │
+    │       └─► Milvus ANN 检索（HNSW，Cosine 相似度）
+    │
+    ├─► BM25 关键词检索（稀疏向量/倒排索引）
+    │
+    └─► 结果融合（RRF 排名融合）
+            │
+            ▼
+    Cross-Encoder Reranker（精排 Top-K）
+            │
+            ▼
+    LLM 生成（DeepSeek API）
+    - System Prompt：引文锚定要求
+    - 输出：答案 + 原文引用 + 来源文档 + 页码
+```
+
+**BGE-M3 三种向量输出：**
+- **Dense Vector**（1024维）：语义相似度，主要用于向量检索
+- **Sparse Vector**（词汇权重）：关键字匹配，等效 BM25
+- **Multi-Vector**（ColBERT 风格）：精细粒度 token 级匹配
+
+---
+
+### 2.6 Worker 集群
+
+**职责：** 异步任务处理，解耦主服务压力。
+
+**Worker 类型：**
+
+| Worker | 队列 | 职责 |
+|--------|------|------|
+| parse-worker | `parse` | 调用 mcp-server 解析文档 |
+| vectorize-worker | `vectorize` | BGE-M3 向量化 + Milvus 写入 |
+| compliance-worker | `compliance` | 合规比对 + 风险评分 |
+| monitor-worker | `monitor` | 法规源定时抓取 |
+| push-worker | `push` | 推送通知（Email/Webhook）|
+
+**调度配置（Celery Beat）：**
+```python
+CELERY_BEAT_SCHEDULE = {
+    "regulation-monitor": {
+        "task": "app.worker.fetch_regulation_updates",
+        "schedule": crontab(hour=2, minute=0),  # 每天凌晨2点
+    },
+    "push-notifications": {
+        "task": "app.worker.send_pending_notifications",
+        "schedule": crontab(minute="*/30"),  # 每30分钟
+    },
+}
+```
+
+---
+
+## 三、数据模型
+
+### 3.1 PostgreSQL 表结构
+
+```
+workspaces          → 知识库工作空间
+files               → 上传文件记录（含解析状态）
+tasks               → 异步任务状态追踪
+compliance_reports  → 合规审查报告
+regulation_sources  → 法规监控源配置
+regulation_updates  → 法规变更记录
+subscriptions       → 推送订阅配置
+audit_logs          → 全链路审计日志
+```
+
+### 3.2 Milvus Collection 结构
+
+```python
+# regulation_chunks / doc_chunks / case_library 共用相同 Schema
+fields = [
+    FieldSchema("id",           VARCHAR, primary_key=True),
+    FieldSchema("file_id",      VARCHAR),          # 关联文件
+    FieldSchema("workspace_id", VARCHAR),          # 所属工作空间
+    FieldSchema("chunk_idx",    INT64),            # 块序号
+    FieldSchema("content",      VARCHAR(65535)),   # 原文内容
+    FieldSchema("dense_vec",    FLOAT_VECTOR(1024)), # BGE-M3 向量
+    FieldSchema("metadata",     JSON),             # 扩展元数据
+]
+# 索引：HNSW，Cosine 相似度，M=16，efConstruction=200
+```
+
+### 3.3 Neo4j 图模型
+
+```cypher
+// 节点类型
+(:Regulation {id, title, code, version, domain, effective_date})
+(:Clause     {id, number, content, clause_type})
+(:Obligation {id, description, obligation_type, subject})
+(:Enterprise {id, name, industry})
+(:RiskItem   {id, description, severity, domain})
+(:Domain     {name, label})
+
+// 关系类型
+(Regulation)-[:CONTAINS]->(Clause)
+(Clause)-[:REQUIRES]->(Obligation)
+(Regulation)-[:SUPERSEDES]->(Regulation)  // 版本替代
+(Clause)-[:MAPS_TO]->(RiskItem)
+(Enterprise)-[:SUBJECT_TO]->(Regulation)
+```
+
+---
+
+## 四、核心技术栈版本锁定
+
+| 组件 | 版本 | Docker 镜像 |
+|------|------|------------|
+| PostgreSQL | 16 + pgvector | `pgvector/pgvector:pg16` |
+| Redis | 7.x | `redis:7-alpine` |
+| Milvus | 2.4.13 | `milvusdb/milvus:v2.4.13` |
+| Neo4j | 5.20 Community | `neo4j:5.20-community` |
+| BGE-M3 | 最新 | BAAI/bge-m3（HuggingFace）|
+| MinerU | 1.x | opendatalab/MinerU（pip）|
+| LangChain | 0.3+ | pip install langchain>=0.3 |
+| FastAPI | 0.115+ | pip install fastapi>=0.115 |
+| Celery | 5.4+ | pip install celery[redis]>=5.4 |
+| Python | 3.12 | python:3.12-slim（Docker）|
+| Nginx | 1.25 | `nginx:1.25-alpine` |
--- a/02_组件安装指南.md
+++ b/02_组件安装指南.md
@@ -0,0 +1,569 @@
+# AI合规智能中枢 — 组件安装指南
+
+> 本文档提供每个组件的详细安装步骤、配置说明和验证方法。
+
+---
+
+## 前置：Docker 环境安装
+
+### Ubuntu 22.04 LTS
+
+```bash
+# 1. 更新包列表
+sudo apt-get update
+
+# 2. 安装依赖
+sudo apt-get install -y ca-certificates curl gnupg lsb-release
+
+# 3. 添加 Docker GPG 密钥
+sudo install -m 0755 -d /etc/apt/keyrings
+curl -fsSL https://download.docker.com/linux/ubuntu/gpg | \
+    sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
+sudo chmod a+r /etc/apt/keyrings/docker.gpg
+
+# 4. 添加 Docker 仓库
+echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] \
+    https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | \
+    sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
+
+# 5. 安装 Docker CE
+sudo apt-get update
+sudo apt-get install -y docker-ce docker-ce-cli containerd.io \
+    docker-buildx-plugin docker-compose-plugin
+
+# 6. 加入 docker 组（免 sudo）
+sudo usermod -aG docker $USER
+newgrp docker
+
+# 7. 验证
+docker --version        # Docker version 27.x.x
+docker compose version  # Docker Compose version v2.x.x
+```
+
+### Windows 11 + WSL2
+
+```powershell
+# PowerShell（管理员）
+
+# 1. 启用 WSL2
+wsl --install -d Ubuntu-22.04
+wsl --set-default-version 2
+
+# 2. 安装 Docker Desktop（需重启）
+winget install -e --id Docker.DockerDesktop
+
+# 3. 重启后，Docker Desktop 设置：
+#    Settings → General → "Use WSL 2 based engine" ✓
+#    Settings → Resources → WSL Integration → Ubuntu-22.04 ✓
+```
+
+### GPU 支持（可选，有 NVIDIA GPU 时）
+
+```bash
+# Ubuntu 安装 nvidia-container-toolkit
+curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \
+    sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
+
+curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
+    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
+    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
+
+sudo apt-get update
+sudo apt-get install -y nvidia-container-toolkit
+sudo nvidia-ctk runtime configure --runtime=docker
+sudo systemctl restart docker
+
+# 验证
+docker run --rm --gpus all nvidia/cuda:12.4-base nvidia-smi
+```
+
+---
+
+## 组件一：PostgreSQL 16 + pgvector
+
+**用途：** 存储元数据（文件记录、任务状态、合规报告、法规变更）
+
+### 配置参数
+
+```yaml
+# docker-compose.yml 中的关键配置
+image: pgvector/pgvector:pg16   # 内置 pgvector 扩展
+POSTGRES_USER: compliance
+POSTGRES_PASSWORD: <your_password>
+POSTGRES_DB: compliance_db
+volumes:
+  - postgres_data:/var/lib/postgresql/data  # 数据持久化
+  - ./init-sql:/docker-entrypoint-initdb.d  # 自动执行初始化 SQL
+ports:
+  - "5432:5432"
+```
+
+### 启动与验证
+
+```bash
+# 启动
+docker compose up -d postgres
+
+# 等待健康（约10秒）
+docker compose ps postgres
+
+# 连接测试
+docker compose exec postgres psql -U compliance -d compliance_db -c "\dt"
+
+# 验证扩展
+docker compose exec postgres psql -U compliance -d compliance_db \
+    -c "SELECT extname FROM pg_extension WHERE extname IN ('vector', 'uuid-ossp');"
+```
+
+### 常用操作
+
+```bash
+# 查看所有表
+docker compose exec postgres psql -U compliance -d compliance_db \
+    -c "\dt" 
+
+# 查询任务状态
+docker compose exec postgres psql -U compliance -d compliance_db \
+    -c "SELECT id, task_type, status, created_at FROM tasks ORDER BY created_at DESC LIMIT 10;"
+
+# 备份数据库
+docker compose exec postgres pg_dump -U compliance compliance_db > backup_$(date +%Y%m%d).sql
+```
+
+---
+
+## 组件二：Redis 7
+
+**用途：** Celery 消息中间件、热数据缓存、分布式锁、会话存储
+
+### 配置参数
+
+```yaml
+image: redis:7-alpine
+command: >
+  redis-server
+  --requirepass <your_password>
+  --maxmemory 2gb
+  --maxmemory-policy allkeys-lru   # 内存满时淘汰最近最少使用的 key
+ports:
+  - "6379:6379"
+```
+
+### 启动与验证
+
+```bash
+# 启动
+docker compose up -d redis
+
+# 连接测试
+docker compose exec redis redis-cli -a <password> ping
+# 应返回：PONG
+
+# 查看 Celery 队列长度
+docker compose exec redis redis-cli -a <password> llen celery
+
+# 查看内存使用
+docker compose exec redis redis-cli -a <password> info memory | grep used_memory_human
+```
+
+---
+
+## 组件三：Milvus 2.4 Standalone
+
+**用途：** 向量数据库，存储 BGE-M3 嵌入向量，支持混合检索
+
+### 架构说明
+
+Milvus Standalone 包含三个内部组件：
+- **etcd**：元数据存储（Collection 定义、索引配置）
+- **MinIO**：向量段文件存储
+- **milvus**：查询/写入引擎
+
+### 启动顺序（严格按顺序）
+
+```bash
+# 1. 先启动 etcd
+docker compose up -d etcd
+sleep 10
+
+# 2. 再启动 MinIO
+docker compose up -d minio
+sleep 10
+
+# 3. 最后启动 Milvus（依赖前两者）
+docker compose up -d milvus
+# Milvus 冷启动约需 60 秒，请耐心等待
+```
+
+### 验证
+
+```bash
+# HTTP 健康检查
+curl http://localhost:9091/healthz
+# 应返回：{"status":"ok"}
+
+# Python 连接测试
+python3 -c "
+from pymilvus import connections, utility
+connections.connect(host='localhost', port='19530')
+print('Collections:', utility.list_collections())
+print('Milvus 连接成功')
+"
+```
+
+### 创建 Collection（向量索引）
+
+```python
+from pymilvus import (connections, Collection, CollectionSchema,
+                       FieldSchema, DataType, utility)
+
+connections.connect(host='localhost', port='19530')
+
+fields = [
+    FieldSchema('id',        DataType.VARCHAR, is_primary=True, max_length=128),
+    FieldSchema('content',   DataType.VARCHAR, max_length=65535),
+    FieldSchema('dense_vec', DataType.FLOAT_VECTOR, dim=1024),  # BGE-M3
+    FieldSchema('metadata',  DataType.JSON),
+]
+
+schema = CollectionSchema(fields, description='法规条款向量库')
+col = Collection('regulation_chunks', schema)
+
+# 创建 HNSW 索引（速度/精度平衡）
+col.create_index('dense_vec', {
+    'metric_type': 'COSINE',
+    'index_type': 'HNSW',
+    'params': {'M': 16, 'efConstruction': 200}
+})
+col.load()
+print('Collection 创建完成')
+```
+
+### 常用查询
+
+```python
+# 向量相似度检索
+results = col.search(
+    data=[query_vector],         # 查询向量（1024维）
+    anns_field='dense_vec',
+    param={'metric_type': 'COSINE', 'params': {'ef': 100}},
+    limit=10,
+    output_fields=['content', 'metadata']
+)
+
+# 查看 Collection 统计
+print(col.num_entities)  # 向量总数
+```
+
+---
+
+## 组件四：Neo4j 5 Community
+
+**用途：** 知识图谱存储，法规-条款-义务实体关系
+
+### 配置参数
+
+```yaml
+image: neo4j:5.20-community
+environment:
+  NEO4J_AUTH: neo4j/<your_password>
+  NEO4J_PLUGINS: '["apoc"]'   # 必须安装 APOC 插件
+  NEO4J_dbms_memory_heap_max__size: 2G
+ports:
+  - "7474:7474"   # Browser UI
+  - "7687:7687"   # Bolt 协议（应用连接用）
+```
+
+### 启动与验证
+
+```bash
+# 启动
+docker compose up -d neo4j
+# 首次启动约需 60 秒（下载 APOC 插件）
+
+# 浏览器访问：http://localhost:7474
+# 用户名：neo4j，密码：见 .env 中 NEO4J_PASSWORD
+
+# 命令行连接
+docker compose exec neo4j cypher-shell -u neo4j -p <password>
+```
+
+### 常用 Cypher 查询
+
+```cypher
+// 查看所有节点类型
+CALL apoc.meta.schema() YIELD value RETURN value;
+
+// 创建法规节点
+CREATE (r:Regulation {
+    id: 'GB18384-2020',
+    title: 'GB 18384-2020 电动汽车安全要求',
+    domain: 'vehicle_safety',
+    effective_date: date('2021-01-01'),
+    version: '2020'
+});
+
+// 法规-条款关系
+MATCH (r:Regulation {id: 'GB18384-2020'})
+CREATE (c:Clause {
+    id: 'GB18384-2020-2.1',
+    number: '2.1',
+    content: '绝缘电阻要求：直流电路绝缘电阻不得低于100Ω/V'
+})
+CREATE (r)-[:CONTAINS]->(c);
+
+// 多跳查询：查找某法规所有义务
+MATCH (r:Regulation {domain: 'vehicle_safety'})-[:CONTAINS]->(c)-[:REQUIRES]->(o)
+RETURN r.title, c.number, o.description LIMIT 20;
+```
+
+---
+
+## 组件五：BGE-M3 嵌入服务
+
+**用途：** 将文本转换为 1024 维向量，支持中英双语，支持 Dense+Sparse 混合检索
+
+### 服务构建
+
+```bash
+# 构建镜像
+docker compose build embedding-service
+
+# 首次启动（会自动下载 BGE-M3 模型约 2.5GB）
+docker compose up -d embedding-service
+
+# 查看下载进度
+docker compose logs -f embedding-service
+```
+
+### 模型预下载（推荐，避免启动超时）
+
+```bash
+# 方法1：通过 hf-mirror.com 加速
+bash scripts/download_models.sh
+
+# 方法2：通过 ModelScope（国内最快）
+pip install modelscope
+python3 -c "
+from modelscope import snapshot_download
+snapshot_download('AI-ModelScope/bge-m3', cache_dir='./models/modelscope')
+"
+```
+
+### API 使用
+
+```bash
+# 健康检查
+curl http://localhost:8010/health
+
+# 生成嵌入向量
+curl -X POST http://localhost:8010/embed \
+    -H "Content-Type: application/json" \
+    -d '{
+        "texts": ["GB 18384 电动汽车碰撞安全", "vehicle crash safety requirements"],
+        "batch_size": 2
+    }'
+# 返回：{"dense": [[...1024个浮点数...], [...]], "sparse": [{...词汇权重...}, {...}]}
+```
+
+### 性能参考
+
+| 模式 | 硬件 | 速度 |
+|------|------|------|
+| CPU | 16核，64GB RAM | 约 2-5 秒/批（batch=16）|
+| GPU | RTX 3090 24GB | 约 0.2-0.5 秒/批（batch=32）|
+
+---
+
+## 组件六：MinerU 文档解析服务
+
+**用途：** 将 PDF/Word/Excel 解析为 Markdown + 结构化 JSON
+
+### 服务构建
+
+```bash
+# 构建镜像（首次约需 10-20 分钟，下载大量依赖）
+docker compose build mcp-server
+
+# 启动服务（首次会下载 MinerU 模型约 2GB）
+docker compose up -d mcp-server
+
+# 查看启动日志
+docker compose logs -f mcp-server
+```
+
+### API 使用
+
+```bash
+# 解析 PDF
+curl -X POST http://localhost:8011/mineru-parse \
+    -F "file=@/path/to/regulation.pdf"
+# 返回：{"markdown": "# 法规标题\n\n## 第一章...", "filename": "regulation.pdf"}
+
+# 解析 Word 文档
+curl -X POST http://localhost:8011/parse-document \
+    -F "file=@/path/to/document.docx"
+```
+
+### 性能参考
+
+| 模式 | 速度 | 说明 |
+|------|------|------|
+| CPU | 3-5 秒/页 | 调研阶段可接受 |
+| GPU（RTX 3090）| 0.21 秒/页 | 生产推荐 |
+
+---
+
+## 组件七：业务后端（compliance-backend）
+
+**用途：** FastAPI 主服务，整合所有业务逻辑
+
+### 关键依赖配置
+
+```bash
+# .env 中必须设置
+DEEPSEEK_API_KEY=sk-xxxx         # DeepSeek API Key
+LLM_PROVIDER=deepseek            # 或 qwen
+DATABASE_URL=postgresql+asyncpg://...
+REDIS_URL=redis://:password@redis:6379/0
+MILVUS_HOST=milvus
+NEO4J_URI=bolt://neo4j:7687
+EMBEDDING_SERVICE_URL=http://embedding-service:8010
+MCP_SERVER_URL=http://mcp-server:8011
+```
+
+### 启动与验证
+
+```bash
+# 启动服务
+docker compose up -d compliance-backend celery-worker celery-beat
+
+# 验证 API 文档
+open http://localhost:8000/docs
+
+# 查看健康状态（包含所有依赖）
+curl http://localhost:8000/health
+```
+
+### Celery Worker 监控
+
+```bash
+# 查看 Worker 状态
+docker compose exec celery-worker celery -A app.worker inspect active
+
+# 查看队列积压
+docker compose exec redis redis-cli -a <password> llen celery
+
+# Worker 日志
+docker compose logs -f celery-worker
+```
+
+---
+
+## 组件八：Nginx API 网关
+
+**用途：** 反向代理，统一路由，TLS 终止（生产）
+
+### 配置说明（config/nginx.conf）
+
+```nginx
+upstream compliance_backend {
+    server compliance-backend:8000;
+}
+
+server {
+    listen 80;
+    client_max_body_size 100M;    # 支持大 PDF 上传
+    proxy_read_timeout 300s;      # LLM 推理超时设置
+
+    location /api/kb/         { proxy_pass http://compliance_backend; }
+    location /api/compliance/ { proxy_pass http://compliance_backend; }
+    location /api/regulation/ { proxy_pass http://compliance_backend; }
+    location /health          { proxy_pass http://compliance_backend; }
+    location /docs            { proxy_pass http://compliance_backend; }
+}
+```
+
+### 启动与验证
+
+```bash
+# 启动
+docker compose up -d nginx
+
+# 测试路由
+curl http://localhost/health
+curl http://localhost/docs  # 应返回 Swagger UI HTML
+```
+
+---
+
+## 完整启动顺序
+
+```bash
+# 方式1：分步启动（推荐，含健康等待）
+bash scripts/06_start_all.sh
+
+# 方式2：手动分步
+docker compose up -d postgres redis        # 等30s
+docker compose up -d etcd minio            # 等30s
+docker compose up -d milvus               # 等60s
+docker compose up -d neo4j                # 等60s
+docker compose build embedding-service mcp-server compliance-backend
+docker compose up -d embedding-service mcp-server  # 等120s（模型加载）
+bash scripts/05_init_db.sh                # 初始化数据库
+docker compose up -d compliance-backend celery-worker celery-beat nginx
+
+# 验证
+bash scripts/check_health.sh
+```
+
+---
+
+## 常见问题
+
+### Q: Milvus 启动失败
+
+```bash
+# 检查 etcd 和 minio 是否健康
+docker compose ps etcd minio
+
+# 查看 Milvus 日志
+docker compose logs milvus | tail -50
+
+# 常见原因：内存不足（Milvus 需要至少 4GB 可用内存）
+free -h
+```
+
+### Q: BGE-M3 模型下载失败
+
+```bash
+# 使用镜像加速
+export HF_ENDPOINT=https://hf-mirror.com
+docker compose up -d embedding-service
+
+# 或使用 ModelScope
+bash scripts/download_models.sh
+```
+
+### Q: DeepSeek API 连接超时
+
+```bash
+# 测试连通性
+curl -X POST https://api.deepseek.com/v1/chat/completions \
+    -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
+    -H "Content-Type: application/json" \
+    -d '{"model": "deepseek-chat", "messages": [{"role": "user", "content": "ping"}]}'
+
+# 常见原因：API Key 未设置或网络问题
+```
+
+### Q: 内存不足
+
+```bash
+# 查看内存使用
+docker stats --no-stream
+
+# 临时解决：减少 BGE-M3 批大小（降低内存峰值）
+# 编辑 .env，添加：
+# EMBEDDING_BATCH_SIZE=4  （默认16）
+```
--- a/03_业务闭环说明.md
+++ b/03_业务闭环说明.md
@@ -0,0 +1,536 @@
+# AI合规智能中枢 — 三条业务闭环说明
+
+> 本文档详细描述三条核心业务闭环的数据流、接口规范和验证方法。
+
+---
+
+## 一、闭环①：法规入库 → 检索问答
+
+### 1.1 业务场景
+
+**触发场景：**
+- 法务/研发人员上传新法规 PDF（如 GB 18384-2020、UN-ECE R155）
+- 系统自动解析、分块、向量化，建立可检索知识库
+- 用户用自然语言提问，系统返回精准答案并标注来源
+
+**用户角色：** 车企研发、法务、合规管理员
+
+### 1.2 数据流
+
+```
+[用户] 上传 PDF
+       │
+       ▼
+POST /api/kb/files/upload
+{workspace_id, file}
+       │
+       ▼
+[kbmp-service]
+  - 存储文件 → data/uploads/{file_id}.pdf
+  - 写入 files 表（status: uploaded）
+  - 投递 Celery 任务 → parse-queue
+  - 返回 {task_id, file_id}
+       │
+       ▼ 异步
+[celery: parse-worker]
+  - 调用 POST http://mcp-server:8011/mineru-parse
+  - 获取 Markdown 文本
+  - 更新 files 表（status: parsed）
+  - 投递 vectorize-queue
+       │
+       ▼ 异步
+[celery: vectorize-worker]
+  - 文本分块（chunk_size=512，overlap=64）
+  - 调用 POST http://embedding-service:8010/embed
+  - 获取 1024维 Dense + Sparse 向量
+  - 写入 Milvus regulation_chunks
+  - 写入 PostgreSQL（chunk 元数据）
+  - 更新 files 表（status: vectorized）
+  - 更新 tasks 表（status: completed）
+
+[用户] 提问
+       │
+       ▼
+POST /api/kb/qa
+{query, workspace_id, top_k=5}
+       │
+       ▼
+[rag-service]
+  1. BGE-M3 向量化查询
+  2. Milvus Dense 向量检索（Cosine，top-20）
+  3. Milvus Sparse 向量检索（BM25 等效，top-20）
+  4. RRF 融合（Reciprocal Rank Fusion）
+  5. Cross-Encoder Reranker 精排（top-5）
+  6. 构建 RAG Prompt（含检索片段）
+  7. DeepSeek API 生成答案（引文锚定）
+       │
+       ▼
+返回：{answer, sources: [{content, file, page, score}], tokens_used}
+```
+
+### 1.3 关键接口
+
+```http
+### 创建工作空间
+POST /api/kb/workspaces
+Content-Type: application/json
+
+{
+    "name": "汽车安全法规库",
+    "description": "GB、UN-ECE 系列法规",
+    "domain": "vehicle_safety"
+}
+
+### 响应
+{
+    "id": "uuid-xxx",
+    "name": "汽车安全法规库",
+    "created_at": "2026-04-22T10:00:00Z"
+}
+```
+
+```http
+### 上传文件
+POST /api/kb/files/upload
+Content-Type: multipart/form-data
+
+file: <binary>
+workspace_id: uuid-xxx
+
+### 响应
+{
+    "file_id": "uuid-yyy",
+    "task_id": "uuid-zzz",
+    "filename": "GB18384-2020.pdf",
+    "status": "processing"
+}
+```
+
+```http
+### 查询任务状态
+GET /api/kb/tasks/{task_id}
+
+### 响应
+{
+    "task_id": "uuid-zzz",
+    "status": "completed",   // pending / running / completed / failed
+    "progress": 100,
+    "file_id": "uuid-yyy",
+    "completed_at": "2026-04-22T10:05:00Z"
+}
+```
+
+```http
+### 智能问答
+POST /api/kb/qa
+Content-Type: application/json
+
+{
+    "query": "电动汽车碰撞后高压系统的断电时间要求是多少？",
+    "workspace_id": "uuid-xxx",
+    "top_k": 5,
+    "return_sources": true
+}
+
+### 响应
+{
+    "answer": "根据 GB 18384-2020 第 2.2 条，碰撞后 5 秒内，高压系统电压应降至 60V 以下。[来源：GB18384-2020.pdf，第3页]",
+    "sources": [
+        {
+            "content": "碰撞后5秒内，高压系统电压应降至60V以下。",
+            "file": "GB18384-2020.pdf",
+            "page": 3,
+            "chunk_idx": 12,
+            "score": 0.94
+        }
+    ],
+    "tokens_used": 1250
+}
+```
+
+### 1.4 分块策略
+
+```python
+# 推荐分块配置（调研阶段）
+CHUNK_SIZE = 512        # 每块最大 token 数
+CHUNK_OVERLAP = 64      # 块间重叠（保留上下文）
+SEPARATOR = "\n\n"      # 优先按段落分割
+
+# 法规文档特殊处理
+# - 识别条款编号（1.1, 2.3.1 等），保证条款完整性
+# - 表格单独处理（不与正文混合）
+# - 图片提取 alt text
+```
+
+---
+
+## 二、闭环②：文档上传 → 合规审查
+
+### 2.1 业务场景
+
+**触发场景：**
+- 采购/供应链人员上传供应商文件（技术规格书、合规声明等）
+- 研发人员上传设计文档，检查是否符合最新法规
+- EHS 工程师上传安全操作规程，验证 ISO 45001 合规性
+
+**用户角色：** 采购、供应链、研发、EHS 工程师
+
+### 2.2 数据流
+
+```
+[用户] 上传供应商文件
+       │
+       ▼
+POST /api/compliance/upload
+{file, regulation_domains}
+       │
+       ▼
+[compliance-backend]
+  - MinerU 解析文档
+  - 条款级分割（识别条款结构）
+  - 法规域匹配（根据内容自动识别：vehicle_safety / data_security / ehs）
+  - 投递 compliance-queue
+       │
+       ▼ 异步
+[celery: compliance-worker]
+  1. 对每个条款，在 Milvus 中检索相关法规要求
+  2. DeepSeek API 评估合规性
+     Prompt: "对比以下供应商条款与法规要求，评估合规性..."
+  3. 生成风险评分（0-100）
+  4. 汇总生成 Markdown 报告
+  5. 存储 compliance_reports 表
+       │
+       ▼
+[用户] 获取报告
+GET /api/compliance/report/{id}
+```
+
+### 2.3 关键接口
+
+```http
+### 上传并审查文档
+POST /api/compliance/upload
+Content-Type: multipart/form-data
+
+file: <binary>
+regulation_domains: ["vehicle_safety", "data_security"]  # 可多选
+
+### 响应
+{
+    "report_id": "uuid-aaa",
+    "file_id": "uuid-bbb",
+    "status": "analyzing",
+    "estimated_time_seconds": 60
+}
+```
+
+```http
+### 直接合规检查（文本输入）
+POST /api/compliance/check
+Content-Type: application/json
+
+{
+    "query": "供应商声明：产品绝缘电阻为50Ω/V，满足行业标准",
+    "regulation_domains": ["vehicle_safety"],
+    "top_k": 3
+}
+
+### 响应
+{
+    "risk_level": "high",
+    "risk_score": 78,
+    "findings": [
+        {
+            "clause": "GB 18384-2020 第2.1条",
+            "requirement": "直流电路绝缘电阻不得低于100Ω/V",
+            "actual": "供应商声明50Ω/V",
+            "gap": "不满足，差距50Ω/V",
+            "severity": "critical"
+        }
+    ],
+    "recommendations": [
+        "要求供应商提升绝缘电阻至100Ω/V以上",
+        "提供经第三方认证的测试报告"
+    ]
+}
+```
+
+```http
+### 获取完整审查报告
+GET /api/compliance/report/{report_id}
+
+### 响应
+{
+    "report_id": "uuid-aaa",
+    "overall_risk_level": "high",
+    "risk_score": 78,
+    "findings": [...],
+    "recommendations": [...],
+    "report_markdown": "# 合规审查报告\n\n## 总体评估\n...",
+    "regulation_domains": ["vehicle_safety"],
+    "llm_model": "deepseek-chat",
+    "created_at": "2026-04-22T11:00:00Z"
+}
+```
+
+### 2.4 风险等级定义
+
+| 风险等级 | 分数 | 说明 | 建议行动 |
+|---------|------|------|---------|
+| low | 0-30 | 基本合规，小幅优化 | 记录并监控 |
+| medium | 31-60 | 部分不符合，需要整改 | 制定整改计划 |
+| high | 61-80 | 重大不符合，需立即处理 | 暂停合作/紧急整改 |
+| critical | 81-100 | 严重违规，可能造成法律风险 | 立即停止/上报管理层 |
+
+---
+
+## 三、闭环③：法规监控 → 变更推送
+
+### 3.1 业务场景
+
+**触发场景：**
+- 国家发布新的新能源汽车数据安全法规
+- 现有法规（如 GB 7258）进行修订
+- 碳排放法规新增企业义务
+
+系统自动检测变更，分析影响，推送给相关角色。
+
+**用户角色：** 合规管理员、法务专员、EHS 工程师（订阅对应域）
+
+### 3.2 数据流
+
+```
+[Celery Beat] 每天凌晨 2:00 触发
+       │
+       ▼
+[celery: monitor-worker]
+  - 读取 regulation_sources 表（所有 is_active=True 的监控源）
+  - 对每个监控源：
+    a. HTTP 抓取页面内容
+    b. 计算 MD5 Hash
+    c. 与 last_hash 对比
+    d. 有变化 → 投递变更分析任务
+       │
+       ▼ [有变更时]
+[celery: compliance-worker]
+  - DeepSeek API 分析变更内容
+    - 提取新增/修订/废止条款
+    - 生成变更摘要
+  - 写入 regulation_updates 表
+  - 触发增量入库（重新向量化变更条款）
+  - 更新 Neo4j 知识图谱
+       │
+       ▼
+[celery: push-worker]
+  - 读取 subscriptions 表
+  - 按域、重要性过滤
+  - 发送推送（Email / Webhook / 飞书）
+  - 标记 is_notified=True
+```
+
+### 3.3 关键接口
+
+```http
+### 配置监控源
+POST /api/regulation/sources
+Content-Type: application/json
+
+{
+    "name": "国家标准全文公开系统",
+    "url": "https://std.samr.gov.cn",
+    "domain": "vehicle_safety",
+    "fetch_interval": 86400,
+    "fetch_config": {
+        "css_selector": ".standard-list .item",
+        "title_selector": ".title",
+        "date_selector": ".date"
+    }
+}
+
+### 响应
+{
+    "id": "uuid-src1",
+    "name": "国家标准全文公开系统",
+    "status": "active",
+    "next_fetch_at": "2026-04-23T02:00:00Z"
+}
+```
+
+```http
+### 查看法规变更记录
+GET /api/regulation/updates?domain=vehicle_safety&limit=10&offset=0
+
+### 响应
+{
+    "total": 25,
+    "updates": [
+        {
+            "id": "uuid-upd1",
+            "title": "GB 18384-2022 电动汽车安全要求（修订版）",
+            "url": "https://std.samr.gov.cn/xxxx",
+            "change_type": "revised",
+            "summary": "主要变更：碰撞断电时间由5秒缩短至3秒；新增涉水安全要求",
+            "importance": "high",
+            "fetched_at": "2026-04-22T02:00:00Z"
+        }
+    ]
+}
+```
+
+```http
+### 手动触发法规源采集（测试用）
+POST /api/regulation/sources/{source_id}/fetch
+
+### 响应
+{
+    "task_id": "uuid-task1",
+    "status": "queued",
+    "source_id": "uuid-src1"
+}
+```
+
+```http
+### 订阅变更推送
+POST /api/regulation/subscribe
+Content-Type: application/json
+
+{
+    "name": "EHS 工程师推送",
+    "channel": "webhook",
+    "target": "https://open.feishu.cn/open-apis/bot/v2/hook/xxxx",
+    "domains": ["ehs", "carbon"],
+    "importance_min": "normal"
+}
+```
+
+### 3.4 内置监控源列表
+
+| 名称 | URL | 域 |
+|------|-----|-----|
+| 国家标准全文公开系统 | https://std.samr.gov.cn | vehicle_safety |
+| 工信部政策法规 | https://www.miit.gov.cn/jgsj/fgs/zcfg | vehicle_safety |
+| 应急管理部法规 | https://www.mem.gov.cn/gk/zcfg | ehs |
+| 生态环境部法规 | https://www.mee.gov.cn/ywgz/fgbz/fl | carbon |
+| 网信办法规 | https://www.cac.gov.cn/zcfg/index.htm | data_security |
+
+---
+
+## 四、接口认证说明（调研版）
+
+调研版使用简单 API Key 认证（在 `Authorization` 头传入）：
+
+```http
+# 所有请求需要携带 API Key
+Authorization: Bearer <API_SECRET_KEY>
+```
+
+> `API_SECRET_KEY` 在 `.env` 中配置，默认值仅供本地调研使用，生产环境必须更换。
+
+---
+
+## 五、完整冒烟测试脚本
+
+```bash
+#!/usr/bin/env bash
+# 完整三条闭环验证
+API="http://localhost"
+KEY="your_api_secret_key"
+HEADER="-H 'Authorization: Bearer $KEY' -H 'Content-Type: application/json'"
+
+# ── 闭环①测试 ────────────────────────────────
+echo "=== 测试闭环①：法规入库 → 问答 ==="
+
+# 1. 创建工作空间
+WS=$(curl -sf -X POST $API/api/kb/workspaces \
+    -H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
+    -d '{"name":"测试法规库","domain":"vehicle_safety"}')
+WS_ID=$(echo $WS | python3 -c "import sys,json; print(json.load(sys.stdin)['id'])")
+echo "工作空间：$WS_ID"
+
+# 2. 上传测试 PDF
+UPLOAD=$(curl -sf -X POST $API/api/kb/files/upload \
+    -H "Authorization: Bearer $KEY" \
+    -F "file=@data/uploads/test_regulation.txt" \
+    -F "workspace_id=$WS_ID")
+TASK_ID=$(echo $UPLOAD | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")
+echo "任务ID：$TASK_ID"
+
+# 3. 等待处理
+for i in {1..30}; do
+    STATUS=$(curl -sf $API/api/kb/tasks/$TASK_ID -H "Authorization: Bearer $KEY" | \
+             python3 -c "import sys,json; print(json.load(sys.stdin)['status'])")
+    [[ "$STATUS" == "completed" ]] && echo "处理完成" && break
+    sleep 5
+done
+
+# 4. 问答测试
+QA=$(curl -sf -X POST $API/api/kb/qa \
+    -H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
+    -d "{\"query\":\"碰撞后高压系统要求\",\"workspace_id\":\"$WS_ID\"}")
+echo "问答结果：$(echo $QA | python3 -c "import sys,json; print(json.load(sys.stdin).get('answer','')[:100])")"
+
+# ── 闭环②测试 ────────────────────────────────
+echo ""
+echo "=== 测试闭环②：合规审查 ==="
+CHECK=$(curl -sf -X POST $API/api/compliance/check \
+    -H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
+    -d '{"query":"绝缘电阻50Ω/V","regulation_domains":["vehicle_safety"]}')
+echo "风险等级：$(echo $CHECK | python3 -c "import sys,json; print(json.load(sys.stdin).get('risk_level','unknown'))")"
+
+# ── 闭环③测试 ────────────────────────────────
+echo ""
+echo "=== 测试闭环③：法规监控 ==="
+SRC=$(curl -sf -X POST $API/api/regulation/sources \
+    -H "Authorization: Bearer $KEY" -H "Content-Type: application/json" \
+    -d '{"name":"测试源","url":"https://std.samr.gov.cn","domain":"vehicle_safety"}')
+echo "监控源：$(echo $SRC | python3 -c "import sys,json; print(json.load(sys.stdin).get('id','failed'))")"
+```
+
+---
+
+## 六、数据流示意图（完整版）
+
+```
+                          ┌─────────────────────────────────┐
+                          │         用户请求                  │
+                          │  Web / API / Mobile / Bot        │
+                          └──────────────┬──────────────────┘
+                                         │
+                                         ▼
+                          ┌─────────────────────────────────┐
+                          │      Nginx API Gateway          │
+                          │  路由 / 限流 / 认证              │
+                          └──────────────┬──────────────────┘
+                                         │
+                    ┌────────────────────┼────────────────────┐
+                    │                    │                    │
+                    ▼                    ▼                    ▼
+          ┌──────────────┐    ┌──────────────────┐  ┌────────────────┐
+          │   知识库      │    │   合规审查         │  │  法规监控      │
+          │  /api/kb/*   │    │ /api/compliance/* │  │/api/regulation/│
+          └──────┬───────┘    └────────┬─────────┘  └───────┬────────┘
+                 │                     │                     │
+                 └──────────┬──────────┘                     │
+                            │                               │
+                            ▼                               ▼
+                  ┌──────────────────┐          ┌──────────────────┐
+                  │   compliance-    │          │  Celery Beat     │
+                  │   backend        │          │  定时调度         │
+                  └──────┬───────────┘          └────────┬─────────┘
+                         │                               │
+              ┌──────────┼──────────┐         ┌──────────┼──────────┐
+              │          │          │         │          │          │
+              ▼          ▼          ▼         ▼          ▼          ▼
+         parse-w   vectorize-w  compliance-w monitor-w  push-w
+              │          │          │         │          │
+              ▼          ▼          │         │          ▼
+         mcp-server  embedding    LLM API   网络抓取   通知推送
+         (MinerU)    (BGE-M3)  (DeepSeek)  (requests)  (Email/Bot)
+              │          │
+              └────┬─────┘
+                   │
+        ┌──────────┼──────────────┐
+        ▼          ▼              ▼
+    PostgreSQL    Milvus        Neo4j
+   (元数据/报告)  (向量检索)    (知识图谱)
+```
--- a/README.md
+++ b/README.md
@@ -0,0 +1,190 @@
+# AI合规智能中枢 — 调研版部署指南
+
+面向车企与工厂的全链路合规智能平台，Docker Compose 单机部署版本，用于验证三条业务闭环。
+
+## 快速开始
+
+### 前置要求
+
+| 资源 | 最低 | 推荐 |
+|------|------|------|
+| CPU | 8核 | 16核+ |
+| 内存 | 32 GB | 64 GB |
+| 存储 | 200 GB SSD | 500 GB SSD |
+| GPU | 无需 | 1× RTX 3090（加速嵌入）|
+| OS | Ubuntu 22.04 LTS 或 Windows 11 + WSL2 | — |
+
+### 1. 安装 Docker
+
+**Ubuntu/Linux：**
+```bash
+bash scripts/00_install_docker_ubuntu.sh
+```
+
+**Windows（PowerShell 管理员）：**
+```powershell
+.\scripts\00_install_docker_windows.ps1
+```
+
+### 2. 配置环境变量
+
+```bash
+cp .env.example .env
+# 编辑 .env，至少填写：
+# - DEEPSEEK_API_KEY（在 https://platform.deepseek.com 申请）
+nano .env
+```
+
+### 3. 一键启动
+
+```bash
+# 拉取镜像（可选，加速首次启动）
+bash scripts/02_pull_images.sh
+
+# 分步启动（推荐，含健康等待）
+bash scripts/06_start_all.sh
+```
+
+### 4. 验证部署
+
+```bash
+# 检查所有服务状态
+bash scripts/check_health.sh
+
+# 运行端到端冒烟测试
+bash scripts/07_smoke_test.sh
+```
+
+---
+
+## 服务访问地址
+
+| 服务 | 地址 | 说明 |
+|------|------|------|
+| API 网关 | http://localhost | Nginx 入口，所有 API 请求入口 |
+| 业务后端 | http://localhost:8000/docs | FastAPI Swagger UI |
+| Neo4j 浏览器 | http://localhost:7474 | 知识图谱可视化 |
+| Grafana | http://localhost:3000 | 监控面板（`--profile monitoring` 启动）|
+| Milvus | localhost:19530 | 向量数据库 gRPC 端口 |
+
+---
+
+## 三条业务闭环
+
+### 闭环①：法规入库 → 检索问答
+
+```bash
+# 上传法规PDF
+curl -X POST http://localhost/api/kb/files/upload \
+  -F "file=@your_regulation.pdf" \
+  -F "workspace_id=auto-regulation"
+
+# 查询任务状态
+curl http://localhost/api/kb/tasks/{task_id}
+
+# 检索问答
+curl -X POST http://localhost/api/kb/qa \
+  -H "Content-Type: application/json" \
+  -d '{"query": "GB 18384 电动汽车碰撞安全要求", "top_k": 5}'
+```
+
+### 闭环②：文档上传 → 合规审查
+
+```bash
+# 上传供应商文件
+curl -X POST http://localhost/api/compliance/upload \
+  -F "file=@supplier_document.pdf"
+
+# 触发合规审查
+curl -X POST http://localhost/api/compliance/check \
+  -H "Content-Type: application/json" \
+  -d '{"doc_id": "xxx", "regulation_domains": ["vehicle_safety", "data_security"]}'
+
+# 获取审查报告
+curl http://localhost/api/compliance/report/{id}
+```
+
+### 闭环③：法规监控 → 变更推送
+
+```bash
+# 配置监控源
+curl -X POST http://localhost/api/regulation/sources \
+  -H "Content-Type: application/json" \
+  -d '{"url": "https://std.samr.gov.cn", "name": "国家标准全文公开"}'
+
+# 查看变更记录
+curl http://localhost/api/regulation/updates
+```
+
+---
+
+## 目录结构
+
+```
+Depolyment/
+├── README.md                   # 本文件
+├── docker-compose.yml          # 全服务编排
+├── .env.example                # 环境变量模板
+├── scripts/                    # 安装与运维脚本
+├── services/
+│   ├── embedding/              # BGE-M3 嵌入服务
+│   ├── mcp-server/             # MinerU 文档解析服务
+│   └── compliance-backend/     # 核心业务后端
+├── config/                     # Nginx、Prometheus 配置
+├── init-sql/                   # PostgreSQL 初始化 SQL
+├── data/                       # 运行时数据（上传文件、解析结果）
+├── logs/                       # 服务日志
+└── models/                     # AI 模型缓存（BGE-M3、MinerU）
+```
+
+---
+
+## 常用操作
+
+```bash
+# 查看所有服务状态
+docker compose ps
+
+# 查看某个服务日志
+docker compose logs -f compliance-backend
+
+# 重启某个服务
+docker compose restart embedding-service
+
+# 停止所有服务（保留数据）
+docker compose stop
+
+# 完全重置（删除所有数据，慎用）
+bash scripts/reset_all.sh
+
+# 启动监控面板
+docker compose --profile monitoring up -d grafana
+```
+
+---
+
+## LLM 切换
+
+默认使用 DeepSeek API，如需切换到 Qwen（阿里云）：
+
+编辑 `.env`：
+```bash
+LLM_PROVIDER=qwen
+DASHSCOPE_API_KEY=your_key_here
+QWEN_MODEL=qwen-plus
+```
+
+然后重启业务服务：
+```bash
+docker compose restart compliance-backend celery-worker
+```
+
+---
+
+## 生产升级路径
+
+调研验证通过后，升级要点：
+1. **LLM**：从 API 切换到本地 vLLM + DeepSeek-V3（需要 4×A100）
+2. **Milvus**：从 Standalone 升级到分布式集群（加独立 MinIO）
+3. **编排**：从 Docker Compose 迁移到 Kubernetes（服务配置文件可复用）
+4. **安全**：启用完整 JWT/RBAC，添加 TLS 证书
--- a/config/nginx.conf
+++ b/config/nginx.conf
@@ -0,0 +1,63 @@
+upstream compliance_backend {
+    server compliance-backend:8000;
+    keepalive 32;
+}
+
+# 文件上传大小限制（法规PDF可能较大）
+client_max_body_size 100M;
+
+server {
+    listen 80;
+    server_name _;
+
+    # 访问日志
+    access_log /var/log/nginx/access.log;
+    error_log  /var/log/nginx/error.log;
+
+    # 超时配置（LLM推理可能较慢）
+    proxy_connect_timeout 60s;
+    proxy_send_timeout    300s;
+    proxy_read_timeout    300s;
+
+    # 通用代理头
+    proxy_set_header Host              $host;
+    proxy_set_header X-Real-IP         $remote_addr;
+    proxy_set_header X-Forwarded-For   $proxy_add_x_forwarded_for;
+    proxy_set_header X-Forwarded-Proto $scheme;
+    proxy_http_version 1.1;
+    proxy_set_header Connection "";
+
+    # ── 知识库接口 ─────────────────────────────
+    location /api/kb/ {
+        proxy_pass http://compliance_backend/api/kb/;
+    }
+
+    # ── 合规审查接口 ───────────────────────────
+    location /api/compliance/ {
+        proxy_pass http://compliance_backend/api/compliance/;
+    }
+
+    # ── 法规监控接口 ───────────────────────────
+    location /api/regulation/ {
+        proxy_pass http://compliance_backend/api/regulation/;
+    }
+
+    # ── 健康检查 ───────────────────────────────
+    location /health {
+        proxy_pass http://compliance_backend/health;
+    }
+
+    # ── API 文档（开发环境）────────────────────
+    location /docs {
+        proxy_pass http://compliance_backend/docs;
+    }
+
+    location /openapi.json {
+        proxy_pass http://compliance_backend/openapi.json;
+    }
+
+    # ── 根路径 ─────────────────────────────────
+    location / {
+        proxy_pass http://compliance_backend/;
+    }
+}
--- a/config/prometheus.yml
+++ b/config/prometheus.yml
@@ -0,0 +1,22 @@
+global:
+  scrape_interval: 15s
+  evaluation_interval: 15s
+
+scrape_configs:
+  - job_name: "compliance-backend"
+    static_configs:
+      - targets: ["compliance-backend:8000"]
+    metrics_path: /metrics
+
+  - job_name: "milvus"
+    static_configs:
+      - targets: ["milvus:9091"]
+    metrics_path: /metrics
+
+  - job_name: "redis"
+    static_configs:
+      - targets: ["redis:6379"]
+
+  - job_name: "postgres"
+    static_configs:
+      - targets: ["postgres:5432"]
--- a/docker-compose.yml
+++ b/docker-compose.yml
@@ -0,0 +1,380 @@
+version: "3.9"
+
+networks:
+  compliance-net:
+    driver: bridge
+
+volumes:
+  postgres_data:
+  redis_data:
+  milvus_data:
+  minio_data:
+  neo4j_data:
+  neo4j_logs:
+
+services:
+
+  # ═══════════════════════════════════════════════
+  # 基础数据层
+  # ═══════════════════════════════════════════════
+
+  postgres:
+    image: pgvector/pgvector:pg16
+    container_name: compliance-postgres
+    restart: unless-stopped
+    environment:
+      POSTGRES_USER: compliance
+      POSTGRES_PASSWORD: ${POSTGRES_PASSWORD:-compliance123}
+      POSTGRES_DB: compliance_db
+    volumes:
+      - postgres_data:/var/lib/postgresql/data
+      - ./init-sql:/docker-entrypoint-initdb.d
+    ports:
+      - "5432:5432"
+    networks: [compliance-net]
+    healthcheck:
+      test: ["CMD-SHELL", "pg_isready -U compliance -d compliance_db"]
+      interval: 10s
+      timeout: 5s
+      retries: 10
+
+  redis:
+    image: redis:7-alpine
+    container_name: compliance-redis
+    restart: unless-stopped
+    command: >
+      redis-server
+      --requirepass ${REDIS_PASSWORD:-redis123}
+      --maxmemory 2gb
+      --maxmemory-policy allkeys-lru
+    volumes:
+      - redis_data:/data
+    ports:
+      - "6379:6379"
+    networks: [compliance-net]
+    healthcheck:
+      test: ["CMD", "redis-cli", "-a", "${REDIS_PASSWORD:-redis123}", "ping"]
+      interval: 10s
+      timeout: 5s
+      retries: 5
+
+  # ═══════════════════════════════════════════════
+  # Milvus 向量数据库（Standalone，含 etcd + minio）
+  # ═══════════════════════════════════════════════
+
+  etcd:
+    image: quay.io/coreos/etcd:v3.5.5
+    container_name: milvus-etcd
+    restart: unless-stopped
+    environment:
+      ETCD_AUTO_COMPACTION_MODE: revision
+      ETCD_AUTO_COMPACTION_RETENTION: "1000"
+      ETCD_QUOTA_BACKEND_BYTES: "4294967296"
+      ETCD_SNAPSHOT_COUNT: "50000"
+    volumes:
+      - milvus_data:/etcd
+    command: >
+      etcd
+      -advertise-client-urls=http://127.0.0.1:2379
+      -listen-client-urls=http://0.0.0.0:2379
+      --data-dir=/etcd
+    networks: [compliance-net]
+    healthcheck:
+      test: ["CMD", "etcdctl", "endpoint", "health"]
+      interval: 30s
+      timeout: 20s
+      retries: 3
+
+  minio:
+    image: minio/minio:RELEASE.2023-03-13T19-46-17Z
+    container_name: milvus-minio
+    restart: unless-stopped
+    environment:
+      MINIO_ACCESS_KEY: minioadmin
+      MINIO_SECRET_KEY: minioadmin
+    volumes:
+      - minio_data:/minio_data
+    command: minio server /minio_data --console-address ":9001"
+    ports:
+      - "9001:9001"   # MinIO 控制台（可选访问）
+    networks: [compliance-net]
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:9000/minio/health/live"]
+      interval: 30s
+      timeout: 20s
+      retries: 3
+
+  milvus:
+    image: milvusdb/milvus:v2.4.13
+    container_name: compliance-milvus
+    restart: unless-stopped
+    command: ["milvus", "run", "standalone"]
+    environment:
+      ETCD_ENDPOINTS: etcd:2379
+      MINIO_ADDRESS: minio:9000
+    volumes:
+      - milvus_data:/var/lib/milvus
+    ports:
+      - "19530:19530"   # gRPC API
+      - "9091:9091"     # HTTP API
+    depends_on:
+      etcd:
+        condition: service_healthy
+      minio:
+        condition: service_healthy
+    networks: [compliance-net]
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:9091/healthz"]
+      interval: 30s
+      timeout: 20s
+      retries: 10
+      start_period: 60s
+
+  # ═══════════════════════════════════════════════
+  # Neo4j 知识图谱数据库
+  # ═══════════════════════════════════════════════
+
+  neo4j:
+    image: neo4j:5.20-community
+    container_name: compliance-neo4j
+    restart: unless-stopped
+    environment:
+      NEO4J_AUTH: neo4j/${NEO4J_PASSWORD:-neo4j123}
+      NEO4J_PLUGINS: '["apoc"]'
+      NEO4J_dbms_security_procedures_unrestricted: apoc.*
+      NEO4J_dbms_memory_heap_initial__size: 512m
+      NEO4J_dbms_memory_heap_max__size: 2G
+      NEO4J_dbms_memory_pagecache_size: 1G
+    volumes:
+      - neo4j_data:/data
+      - neo4j_logs:/logs
+    ports:
+      - "7474:7474"   # Browser UI
+      - "7687:7687"   # Bolt 协议
+    networks: [compliance-net]
+    healthcheck:
+      test: ["CMD-SHELL", "wget -q --spider http://localhost:7474 || exit 1"]
+      interval: 30s
+      timeout: 10s
+      retries: 10
+      start_period: 60s
+
+  # ═══════════════════════════════════════════════
+  # AI 模型服务
+  # ═══════════════════════════════════════════════
+
+  embedding-service:
+    build:
+      context: ./services/embedding
+      dockerfile: Dockerfile
+    image: compliance-embedding:latest
+    container_name: compliance-embedding
+    restart: unless-stopped
+    environment:
+      MODEL_NAME: BAAI/bge-m3
+      HF_ENDPOINT: ${HF_ENDPOINT:-https://hf-mirror.com}
+      DEVICE: ${EMBEDDING_DEVICE:-cpu}
+      MAX_BATCH_SIZE: "16"
+    volumes:
+      - ./models:/app/models
+    ports:
+      - "8010:8010"
+    networks: [compliance-net]
+    deploy:
+      resources:
+        limits:
+          memory: 8G
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:8010/health"]
+      interval: 30s
+      timeout: 10s
+      retries: 5
+      start_period: 120s  # 模型加载需要时间
+
+  mcp-server:
+    build:
+      context: ./services/mcp-server
+      dockerfile: Dockerfile
+    image: compliance-mcp:latest
+    container_name: compliance-mcp
+    restart: unless-stopped
+    environment:
+      DEVICE: ${MCP_DEVICE:-cpu}
+      HF_ENDPOINT: ${HF_ENDPOINT:-https://hf-mirror.com}
+    volumes:
+      - ./models:/app/models
+      - ./data/uploads:/app/uploads
+      - ./data/parsed:/app/parsed
+    ports:
+      - "8011:8011"
+    networks: [compliance-net]
+    deploy:
+      resources:
+        limits:
+          memory: 8G
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:8011/health"]
+      interval: 30s
+      timeout: 10s
+      retries: 5
+      start_period: 120s
+
+  # ═══════════════════════════════════════════════
+  # 业务服务层
+  # ═══════════════════════════════════════════════
+
+  compliance-backend:
+    build:
+      context: ./services/compliance-backend
+      dockerfile: Dockerfile
+    image: compliance-backend:latest
+    container_name: compliance-backend
+    restart: unless-stopped
+    env_file: .env
+    environment:
+      DATABASE_URL: postgresql+asyncpg://compliance:${POSTGRES_PASSWORD:-compliance123}@postgres:5432/compliance_db
+      REDIS_URL: redis://:${REDIS_PASSWORD:-redis123}@redis:6379/0
+      MILVUS_HOST: milvus
+      MILVUS_PORT: "19530"
+      NEO4J_URI: bolt://neo4j:7687
+      NEO4J_USER: neo4j
+      NEO4J_PASSWORD: ${NEO4J_PASSWORD:-neo4j123}
+      EMBEDDING_SERVICE_URL: http://embedding-service:8010
+      MCP_SERVER_URL: http://mcp-server:8011
+      LLM_PROVIDER: ${LLM_PROVIDER:-deepseek}
+      DEEPSEEK_API_KEY: ${DEEPSEEK_API_KEY:-}
+      DEEPSEEK_MODEL: ${DEEPSEEK_MODEL:-deepseek-chat}
+      DASHSCOPE_API_KEY: ${DASHSCOPE_API_KEY:-}
+      QWEN_MODEL: ${QWEN_MODEL:-qwen-plus}
+      LOG_LEVEL: ${LOG_LEVEL:-INFO}
+      APP_ENV: ${APP_ENV:-development}
+    volumes:
+      - ./data:/app/data
+      - ./logs:/app/logs
+    ports:
+      - "8000:8000"
+    depends_on:
+      postgres:
+        condition: service_healthy
+      redis:
+        condition: service_healthy
+      milvus:
+        condition: service_healthy
+      embedding-service:
+        condition: service_healthy
+    networks: [compliance-net]
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:8000/health"]
+      interval: 30s
+      timeout: 10s
+      retries: 5
+      start_period: 30s
+
+  celery-worker:
+    build:
+      context: ./services/compliance-backend
+      dockerfile: Dockerfile
+    image: compliance-backend:latest
+    container_name: compliance-worker
+    restart: unless-stopped
+    command: >
+      celery -A app.worker worker
+      --loglevel=info
+      --concurrency=4
+      --queues=default,parse,vectorize,compliance,monitor,push
+    env_file: .env
+    environment:
+      DATABASE_URL: postgresql+asyncpg://compliance:${POSTGRES_PASSWORD:-compliance123}@postgres:5432/compliance_db
+      REDIS_URL: redis://:${REDIS_PASSWORD:-redis123}@redis:6379/0
+      MILVUS_HOST: milvus
+      MILVUS_PORT: "19530"
+      NEO4J_URI: bolt://neo4j:7687
+      NEO4J_USER: neo4j
+      NEO4J_PASSWORD: ${NEO4J_PASSWORD:-neo4j123}
+      EMBEDDING_SERVICE_URL: http://embedding-service:8010
+      MCP_SERVER_URL: http://mcp-server:8011
+      LLM_PROVIDER: ${LLM_PROVIDER:-deepseek}
+      DEEPSEEK_API_KEY: ${DEEPSEEK_API_KEY:-}
+      DASHSCOPE_API_KEY: ${DASHSCOPE_API_KEY:-}
+    volumes:
+      - ./data:/app/data
+      - ./logs:/app/logs
+    depends_on:
+      redis:
+        condition: service_healthy
+      compliance-backend:
+        condition: service_healthy
+    networks: [compliance-net]
+
+  celery-beat:
+    build:
+      context: ./services/compliance-backend
+      dockerfile: Dockerfile
+    image: compliance-backend:latest
+    container_name: compliance-beat
+    restart: unless-stopped
+    command: >
+      celery -A app.worker beat
+      --loglevel=info
+      --scheduler celery.beat.PersistentScheduler
+    env_file: .env
+    environment:
+      DATABASE_URL: postgresql+asyncpg://compliance:${POSTGRES_PASSWORD:-compliance123}@postgres:5432/compliance_db
+      REDIS_URL: redis://:${REDIS_PASSWORD:-redis123}@redis:6379/0
+      DEEPSEEK_API_KEY: ${DEEPSEEK_API_KEY:-}
+    volumes:
+      - ./data:/app/data
+      - ./logs:/app/logs
+    depends_on:
+      redis:
+        condition: service_healthy
+    networks: [compliance-net]
+
+  # ═══════════════════════════════════════════════
+  # API 网关
+  # ═══════════════════════════════════════════════
+
+  nginx:
+    image: nginx:1.25-alpine
+    container_name: compliance-nginx
+    restart: unless-stopped
+    volumes:
+      - ./config/nginx.conf:/etc/nginx/conf.d/default.conf:ro
+    ports:
+      - "80:80"
+    depends_on:
+      compliance-backend:
+        condition: service_healthy
+    networks: [compliance-net]
+    healthcheck:
+      test: ["CMD", "nginx", "-t"]
+      interval: 30s
+
+  # ═══════════════════════════════════════════════
+  # 监控（可选，--profile monitoring 启动）
+  # ═══════════════════════════════════════════════
+
+  grafana:
+    image: grafana/grafana:11.0.0
+    container_name: compliance-grafana
+    restart: unless-stopped
+    environment:
+      GF_SECURITY_ADMIN_PASSWORD: ${GRAFANA_PASSWORD:-admin}
+      GF_USERS_ALLOW_SIGN_UP: "false"
+    volumes:
+      - ./config/prometheus.yml:/etc/grafana/provisioning/datasources/prometheus.yml:ro
+    ports:
+      - "3000:3000"
+    networks: [compliance-net]
+    profiles: [monitoring]
+
+  prometheus:
+    image: prom/prometheus:v2.51.0
+    container_name: compliance-prometheus
+    restart: unless-stopped
+    volumes:
+      - ./config/prometheus.yml:/etc/prometheus/prometheus.yml:ro
+    ports:
+      - "9090:9090"
+    networks: [compliance-net]
+    profiles: [monitoring]
--- a/init-sql/01_init_schema.sql
+++ b/init-sql/01_init_schema.sql
@@ -0,0 +1,192 @@
+-- AI合规智能中枢 — PostgreSQL 初始化 Schema
+-- 执行时机：容器首次启动时自动执行
+
+-- 启用扩展
+CREATE EXTENSION IF NOT EXISTS "uuid-ossp";
+CREATE EXTENSION IF NOT EXISTS vector;      -- pgvector（pgvector/pgvector:pg16 镜像已内置）
+CREATE EXTENSION IF NOT EXISTS pg_trgm;     -- 全文检索支持
+
+-- ══════════════════════════════════════════════════
+-- 工作空间（知识库）
+-- ══════════════════════════════════════════════════
+CREATE TABLE IF NOT EXISTS workspaces (
+    id          UUID PRIMARY KEY DEFAULT uuid_generate_v4(),
+    name        VARCHAR(255) NOT NULL,
+    description TEXT,
+    domain      VARCHAR(100),   -- vehicle_safety / data_security / ehs / carbon
+    created_by  VARCHAR(255),
+    created_at  TIMESTAMPTZ NOT NULL DEFAULT NOW(),
+    updated_at  TIMESTAMPTZ NOT NULL DEFAULT NOW()
+);
+
+-- ══════════════════════════════════════════════════
+-- 文件记录
+-- ══════════════════════════════════════════════════
+CREATE TABLE IF NOT EXISTS files (
+    id              UUID PRIMARY KEY DEFAULT uuid_generate_v4(),
+    workspace_id    UUID REFERENCES workspaces(id) ON DELETE CASCADE,
+    filename        VARCHAR(500) NOT NULL,
+    original_name   VARCHAR(500) NOT NULL,
+    file_type       VARCHAR(50),            -- pdf / docx / xlsx
+    file_size       BIGINT,
+    storage_path    TEXT,                   -- data/uploads/相对路径
+    parsed_path     TEXT,                   -- data/parsed/相对路径
+    status          VARCHAR(50) DEFAULT 'uploaded',  -- uploaded/parsing/parsed/vectorized/failed
+    error_msg       TEXT,
+    metadata        JSONB DEFAULT '{}',
+    created_at      TIMESTAMPTZ NOT NULL DEFAULT NOW(),
+    updated_at      TIMESTAMPTZ NOT NULL DEFAULT NOW()
+);
+
+CREATE INDEX IF NOT EXISTS idx_files_workspace ON files(workspace_id);
+CREATE INDEX IF NOT EXISTS idx_files_status ON files(status);
+
+-- ══════════════════════════════════════════════════
+-- 异步任务记录
+-- ══════════════════════════════════════════════════
+CREATE TABLE IF NOT EXISTS tasks (
+    id              UUID PRIMARY KEY DEFAULT uuid_generate_v4(),
+    task_type       VARCHAR(100) NOT NULL,   -- parse / vectorize / compliance_check / regulation_fetch
+    status          VARCHAR(50) DEFAULT 'pending', -- pending/running/completed/failed
+    payload         JSONB DEFAULT '{}',
+    result          JSONB,
+    error_msg       TEXT,
+    progress        INTEGER DEFAULT 0,       -- 0-100
+    file_id         UUID REFERENCES files(id),
+    celery_task_id  VARCHAR(255),
+    created_at      TIMESTAMPTZ NOT NULL DEFAULT NOW(),
+    updated_at      TIMESTAMPTZ NOT NULL DEFAULT NOW(),
+    completed_at    TIMESTAMPTZ
+);
+
+CREATE INDEX IF NOT EXISTS idx_tasks_status ON tasks(status);
+CREATE INDEX IF NOT EXISTS idx_tasks_type ON tasks(task_type);
+CREATE INDEX IF NOT EXISTS idx_tasks_file ON tasks(file_id);
+
+-- ══════════════════════════════════════════════════
+-- 合规审查报告
+-- ══════════════════════════════════════════════════
+CREATE TABLE IF NOT EXISTS compliance_reports (
+    id                  UUID PRIMARY KEY DEFAULT uuid_generate_v4(),
+    file_id             UUID REFERENCES files(id),
+    regulation_domains  TEXT[],              -- 适用法规域
+    overall_risk_level  VARCHAR(20),         -- high / medium / low
+    risk_score          DECIMAL(5,2),        -- 0-100
+    findings            JSONB DEFAULT '[]',  -- 问题列表
+    recommendations     JSONB DEFAULT '[]',  -- 整改建议
+    report_markdown     TEXT,               -- 完整报告（Markdown格式）
+    llm_model           VARCHAR(100),        -- 生成时使用的模型
+    created_at          TIMESTAMPTZ NOT NULL DEFAULT NOW()
+);
+
+CREATE INDEX IF NOT EXISTS idx_reports_file ON compliance_reports(file_id);
+CREATE INDEX IF NOT EXISTS idx_reports_risk ON compliance_reports(overall_risk_level);
+
+-- ══════════════════════════════════════════════════
+-- 法规监控源
+-- ══════════════════════════════════════════════════
+CREATE TABLE IF NOT EXISTS regulation_sources (
+    id              UUID PRIMARY KEY DEFAULT uuid_generate_v4(),
+    name            VARCHAR(255) NOT NULL,
+    url             TEXT NOT NULL,
+    source_type     VARCHAR(50) DEFAULT 'webpage',   -- webpage / rss / api
+    domain          VARCHAR(100),                    -- vehicle_safety / ehs 等
+    fetch_interval  INTEGER DEFAULT 86400,           -- 抓取间隔（秒），默认每天
+    is_active       BOOLEAN DEFAULT TRUE,
+    last_fetched_at TIMESTAMPTZ,
+    last_hash       VARCHAR(64),                     -- 内容hash，用于变更检测
+    fetch_config    JSONB DEFAULT '{}',              -- 抓取配置（CSS选择器等）
+    created_at      TIMESTAMPTZ NOT NULL DEFAULT NOW()
+);
+
+CREATE INDEX IF NOT EXISTS idx_sources_active ON regulation_sources(is_active);
+CREATE INDEX IF NOT EXISTS idx_sources_domain ON regulation_sources(domain);
+
+-- ══════════════════════════════════════════════════
+-- 法规变更记录
+-- ══════════════════════════════════════════════════
+CREATE TABLE IF NOT EXISTS regulation_updates (
+    id              UUID PRIMARY KEY DEFAULT uuid_generate_v4(),
+    source_id       UUID REFERENCES regulation_sources(id),
+    title           VARCHAR(500),
+    url             TEXT,
+    change_type     VARCHAR(50),   -- new / revised / revoked / notice
+    summary         TEXT,          -- AI生成的变更摘要
+    raw_content     TEXT,          -- 原始抓取内容
+    diff_content    TEXT,          -- 与上次内容的差异
+    is_notified     BOOLEAN DEFAULT FALSE,
+    importance      VARCHAR(20) DEFAULT 'normal',  -- high / normal / low
+    fetched_at      TIMESTAMPTZ NOT NULL DEFAULT NOW(),
+    published_at    TIMESTAMPTZ
+);
+
+CREATE INDEX IF NOT EXISTS idx_updates_source ON regulation_updates(source_id);
+CREATE INDEX IF NOT EXISTS idx_updates_notified ON regulation_updates(is_notified);
+CREATE INDEX IF NOT EXISTS idx_updates_fetched ON regulation_updates(fetched_at DESC);
+
+-- ══════════════════════════════════════════════════
+-- 推送订阅
+-- ══════════════════════════════════════════════════
+CREATE TABLE IF NOT EXISTS subscriptions (
+    id              UUID PRIMARY KEY DEFAULT uuid_generate_v4(),
+    name            VARCHAR(255),
+    channel         VARCHAR(50) NOT NULL,  -- email / webhook / feishu / dingtalk
+    target          TEXT NOT NULL,         -- 邮件地址 或 Webhook URL
+    domains         TEXT[],               -- 订阅的法规域，为空则订阅全部
+    importance_min  VARCHAR(20) DEFAULT 'normal',
+    is_active       BOOLEAN DEFAULT TRUE,
+    created_at      TIMESTAMPTZ NOT NULL DEFAULT NOW()
+);
+
+-- ══════════════════════════════════════════════════
+-- 全链路审计日志
+-- ══════════════════════════════════════════════════
+CREATE TABLE IF NOT EXISTS audit_logs (
+    id          BIGSERIAL PRIMARY KEY,
+    action      VARCHAR(100) NOT NULL,   -- upload / query / compliance_check / etc
+    resource    VARCHAR(100),
+    resource_id UUID,
+    user_id     VARCHAR(255),
+    ip_address  INET,
+    request     JSONB,
+    response    JSONB,
+    duration_ms INTEGER,
+    created_at  TIMESTAMPTZ NOT NULL DEFAULT NOW()
+);
+
+CREATE INDEX IF NOT EXISTS idx_audit_action ON audit_logs(action);
+CREATE INDEX IF NOT EXISTS idx_audit_created ON audit_logs(created_at DESC);
+CREATE INDEX IF NOT EXISTS idx_audit_user ON audit_logs(user_id);
+
+-- ══════════════════════════════════════════════════
+-- 更新时间自动维护
+-- ══════════════════════════════════════════════════
+CREATE OR REPLACE FUNCTION update_updated_at_column()
+RETURNS TRIGGER AS $$
+BEGIN
+    NEW.updated_at = NOW();
+    RETURN NEW;
+END;
+$$ LANGUAGE plpgsql;
+
+CREATE TRIGGER update_workspaces_updated_at
+    BEFORE UPDATE ON workspaces
+    FOR EACH ROW EXECUTE FUNCTION update_updated_at_column();
+
+CREATE TRIGGER update_files_updated_at
+    BEFORE UPDATE ON files
+    FOR EACH ROW EXECUTE FUNCTION update_updated_at_column();
+
+CREATE TRIGGER update_tasks_updated_at
+    BEFORE UPDATE ON tasks
+    FOR EACH ROW EXECUTE FUNCTION update_updated_at_column();
+
+-- ══════════════════════════════════════════════════
+-- 初始数据：预置监控源
+-- ══════════════════════════════════════════════════
+INSERT INTO regulation_sources (name, url, domain, fetch_interval) VALUES
+    ('国家标准全文公开系统', 'https://std.samr.gov.cn', 'vehicle_safety', 86400),
+    ('工信部政策法规', 'https://www.miit.gov.cn/jgsj/fgs/zcfg/index.html', 'vehicle_safety', 86400),
+    ('应急管理部政策法规', 'https://www.mem.gov.cn/gk/zcfg/', 'ehs', 86400),
+    ('生态环境部政策法规', 'https://www.mee.gov.cn/ywgz/fgbz/fl/', 'carbon', 86400)
+ON CONFLICT DO NOTHING;
--- a/scripts/00_install_docker_ubuntu.sh
+++ b/scripts/00_install_docker_ubuntu.sh
@@ -0,0 +1,117 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# 00_install_docker_ubuntu.sh
+# Ubuntu 22.04 LTS 安装 Docker CE + nvidia-container-toolkit
+# 用法：bash scripts/00_install_docker_ubuntu.sh
+# ══════════════════════════════════════════════════
+set -euo pipefail
+
+RED='\033[0;31m'; GREEN='\033[0;32m'; YELLOW='\033[1;33m'; BLUE='\033[0;34m'; NC='\033[0m'
+info()  { echo -e "${BLUE}[INFO]${NC} $*"; }
+ok()    { echo -e "${GREEN}[OK]${NC} $*"; }
+warn()  { echo -e "${YELLOW}[WARN]${NC} $*"; }
+error() { echo -e "${RED}[ERROR]${NC} $*"; exit 1; }
+
+# ── 检查 root 权限 ──────────────────────────────
+if [[ $EUID -ne 0 ]]; then
+    error "请以 root 或 sudo 运行：sudo bash scripts/00_install_docker_ubuntu.sh"
+fi
+
+# ── 检测 Ubuntu 版本 ────────────────────────────
+. /etc/os-release
+info "检测到 OS：$NAME $VERSION_ID"
+if [[ "$ID" != "ubuntu" ]]; then
+    warn "非 Ubuntu 系统，脚本可能不适用。继续（y/n）？"
+    read -r ans; [[ "$ans" != "y" ]] && exit 0
+fi
+
+# ── Step 1：换国内源（可选）──────────────────────
+info "Step 1/5：配置 APT 源..."
+if [[ "${USE_MIRROR:-false}" == "true" ]]; then
+    sed -i 's/archive.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.list
+    sed -i 's/security.ubuntu.com/mirrors.aliyun.com/g' /etc/apt/sources.list
+    ok "已切换到阿里云镜像"
+fi
+apt-get update -qq
+
+# ── Step 2：安装依赖 ────────────────────────────
+info "Step 2/5：安装依赖包..."
+apt-get install -y -qq \
+    ca-certificates \
+    curl \
+    gnupg \
+    lsb-release \
+    apt-transport-https
+
+# ── Step 3：安装 Docker CE ──────────────────────
+info "Step 3/5：安装 Docker CE..."
+if command -v docker &>/dev/null; then
+    DOCKER_VER=$(docker --version)
+    warn "Docker 已安装：$DOCKER_VER"
+    warn "跳过 Docker 安装。如需重装，请先运行：apt-get remove docker docker-engine docker.io containerd"
+else
+    # 添加 Docker 官方 GPG 密钥
+    install -m 0755 -d /etc/apt/keyrings
+    curl -fsSL https://download.docker.com/linux/ubuntu/gpg | \
+        gpg --dearmor -o /etc/apt/keyrings/docker.gpg
+    chmod a+r /etc/apt/keyrings/docker.gpg
+
+    # 添加 Docker 仓库
+    echo "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.gpg] \
+        https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable" | \
+        tee /etc/apt/sources.list.d/docker.list > /dev/null
+
+    apt-get update -qq
+    apt-get install -y -qq docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin
+
+    # 启动并设置开机自启
+    systemctl enable docker
+    systemctl start docker
+    ok "Docker CE 安装完成"
+fi
+
+# 验证
+docker --version
+docker compose version
+
+# ── Step 4：将当前用户加入 docker 组 ────────────
+info "Step 4/5：配置 Docker 用户组..."
+CURRENT_USER=${SUDO_USER:-$USER}
+if [[ -n "$CURRENT_USER" && "$CURRENT_USER" != "root" ]]; then
+    usermod -aG docker "$CURRENT_USER"
+    ok "用户 $CURRENT_USER 已加入 docker 组（重新登录后生效）"
+fi
+
+# ── Step 5：安装 nvidia-container-toolkit（可选）─
+info "Step 5/5：检查 NVIDIA GPU..."
+if command -v nvidia-smi &>/dev/null; then
+    info "检测到 NVIDIA GPU，安装 nvidia-container-toolkit..."
+    nvidia-smi --query-gpu=name --format=csv,noheader
+
+    # 添加 NVIDIA 仓库
+    curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | \
+        gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
+    curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
+        sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
+        tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
+
+    apt-get update -qq
+    apt-get install -y -qq nvidia-container-toolkit
+    nvidia-ctk runtime configure --runtime=docker
+    systemctl restart docker
+    ok "nvidia-container-toolkit 安装完成"
+else
+    warn "未检测到 NVIDIA GPU，跳过 nvidia-container-toolkit 安装"
+    warn "如有 GPU 请手动安装驱动后重新运行本脚本"
+fi
+
+echo ""
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo -e "${GREEN}  Docker 安装完成！${NC}"
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo ""
+echo "  Docker 版本：$(docker --version)"
+echo "  Compose 版本：$(docker compose version)"
+echo ""
+echo -e "${YELLOW}  注意：${NC}请重新登录以使 docker 组权限生效"
+echo "  验证命令：docker run hello-world"
--- a/scripts/00_install_docker_windows.ps1
+++ b/scripts/00_install_docker_windows.ps1
@@ -0,0 +1,105 @@
+# ══════════════════════════════════════════════════
+# 00_install_docker_windows.ps1
+# Windows 11 安装 Docker Desktop + WSL2 配置
+# 用法：以管理员身份运行 PowerShell，执行：
+#   .\scripts\00_install_docker_windows.ps1
+# ══════════════════════════════════════════════════
+#Requires -RunAsAdministrator
+
+$ErrorActionPreference = "Stop"
+
+function Write-Info  { Write-Host "[INFO] $args" -ForegroundColor Cyan }
+function Write-Ok    { Write-Host "[OK]   $args" -ForegroundColor Green }
+function Write-Warn  { Write-Host "[WARN] $args" -ForegroundColor Yellow }
+function Write-Err   { Write-Host "[ERR]  $args" -ForegroundColor Red; exit 1 }
+
+Write-Info "============================================"
+Write-Info "AI合规智能中枢 — Windows Docker 环境安装"
+Write-Info "============================================"
+
+# ── Step 1：启用 WSL2 ──────────────────────────
+Write-Info "Step 1/4：检查并启用 WSL2..."
+$wslFeature = Get-WindowsOptionalFeature -Online -FeatureName Microsoft-Windows-Subsystem-Linux
+$vmFeature = Get-WindowsOptionalFeature -Online -FeatureName VirtualMachinePlatform
+
+if ($wslFeature.State -ne "Enabled") {
+    Write-Info "启用 WSL 功能..."
+    Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Windows-Subsystem-Linux -NoRestart
+}
+if ($vmFeature.State -ne "Enabled") {
+    Write-Info "启用虚拟机平台..."
+    Enable-WindowsOptionalFeature -Online -FeatureName VirtualMachinePlatform -NoRestart
+}
+
+# 更新 WSL 内核
+Write-Info "更新 WSL2 内核..."
+wsl --update
+wsl --set-default-version 2
+Write-Ok "WSL2 配置完成"
+
+# ── Step 2：安装 Ubuntu WSL 发行版 ─────────────
+Write-Info "Step 2/4：检查 Ubuntu WSL..."
+$wslList = wsl --list --quiet 2>$null
+if ($wslList -notmatch "Ubuntu") {
+    Write-Info "安装 Ubuntu 22.04..."
+    wsl --install -d Ubuntu-22.04
+    Write-Ok "Ubuntu 22.04 安装完成（首次运行需要设置用户名和密码）"
+} else {
+    Write-Ok "Ubuntu WSL 已安装"
+    wsl --list --verbose
+}
+
+# ── Step 3：安装 Docker Desktop ────────────────
+Write-Info "Step 3/4：检查 Docker Desktop..."
+$dockerCmd = Get-Command docker -ErrorAction SilentlyContinue
+if ($dockerCmd) {
+    Write-Ok "Docker 已安装：$(docker --version)"
+} else {
+    # 尝试用 winget 安装
+    $winget = Get-Command winget -ErrorAction SilentlyContinue
+    if ($winget) {
+        Write-Info "通过 winget 安装 Docker Desktop..."
+        winget install -e --id Docker.DockerDesktop --accept-package-agreements --accept-source-agreements
+        Write-Ok "Docker Desktop 安装完成"
+    } else {
+        Write-Warn "未找到 winget，请手动安装 Docker Desktop："
+        Write-Warn "下载地址：https://www.docker.com/products/docker-desktop/"
+        Write-Warn "安装时勾选：Use WSL 2 instead of Hyper-V"
+        Start-Process "https://www.docker.com/products/docker-desktop/"
+        Read-Host "安装完成后按 Enter 继续"
+    }
+}
+
+# ── Step 4：配置 Docker Desktop WSL 集成 ───────
+Write-Info "Step 4/4：提示 Docker Desktop 配置..."
+Write-Warn ""
+Write-Warn "请确认 Docker Desktop 已进行以下配置："
+Write-Warn "  1. Settings → General → 勾选 'Use WSL 2 based engine'"
+Write-Warn "  2. Settings → Resources → WSL Integration → 开启 Ubuntu-22.04"
+Write-Warn "  3. 如有 NVIDIA GPU："
+Write-Warn "     Settings → General → 勾选 'Use GPU with WSL 2'"
+Write-Warn ""
+
+# ── 验证 ───────────────────────────────────────
+Write-Info "验证安装..."
+try {
+    $dockerVer = docker --version
+    $composeVer = docker compose version
+    Write-Ok "Docker: $dockerVer"
+    Write-Ok "Compose: $composeVer"
+} catch {
+    Write-Warn "Docker 命令不可用，可能需要重启后再验证"
+    Write-Warn "重启后运行：docker run hello-world"
+}
+
+Write-Host ""
+Write-Host "============================================" -ForegroundColor Green
+Write-Host "  安装完成！" -ForegroundColor Green
+Write-Host "============================================" -ForegroundColor Green
+Write-Host ""
+Write-Host "后续步骤（在 WSL2 Ubuntu 中执行）：" -ForegroundColor Yellow
+Write-Host "  1. 打开 Ubuntu WSL 终端"
+Write-Host "  2. cd /mnt/c/Projects/AIProjects/AIRegulations/Depolyment"
+Write-Host "  3. bash scripts/01_setup_project.sh"
+Write-Host ""
+Write-Host "如需重启系统请现在重启，然后继续操作。" -ForegroundColor Yellow
--- a/scripts/01_setup_project.sh
+++ b/scripts/01_setup_project.sh
@@ -0,0 +1,73 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# 01_setup_project.sh
+# 初始化项目：创建目录、生成 .env 文件
+# 用法：bash scripts/01_setup_project.sh
+# ══════════════════════════════════════════════════
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+
+RED='\033[0;31m'; GREEN='\033[0;32m'; YELLOW='\033[1;33m'; BLUE='\033[0;34m'; NC='\033[0m'
+info()  { echo -e "${BLUE}[INFO]${NC} $*"; }
+ok()    { echo -e "${GREEN}[OK]${NC} $*"; }
+warn()  { echo -e "${YELLOW}[WARN]${NC} $*"; }
+
+cd "$PROJECT_DIR"
+info "项目目录：$PROJECT_DIR"
+
+# ── 创建运行时目录 ──────────────────────────────
+info "创建运行时目录..."
+mkdir -p data/uploads data/parsed logs models
+mkdir -p services/embedding services/mcp-server
+mkdir -p services/compliance-backend/app/{core,api,services,models}
+ok "目录结构创建完成"
+
+# ── 复制 .env 文件 ──────────────────────────────
+if [[ ! -f ".env" ]]; then
+    cp .env.example .env
+    warn "已创建 .env 文件，请编辑并填写必要配置："
+    warn "  必填：DEEPSEEK_API_KEY（或 DASHSCOPE_API_KEY）"
+    warn "  可选：修改各组件密码"
+    echo ""
+    echo -e "${YELLOW}是否现在编辑 .env 文件？(y/n)${NC}"
+    read -r ans
+    if [[ "$ans" == "y" ]]; then
+        ${EDITOR:-nano} .env
+    fi
+else
+    ok ".env 文件已存在，跳过复制"
+fi
+
+# ── 验证 .env 关键字段 ──────────────────────────
+info "验证 .env 配置..."
+source .env 2>/dev/null || true
+
+if [[ -z "${DEEPSEEK_API_KEY:-}" && -z "${DASHSCOPE_API_KEY:-}" ]]; then
+    warn "⚠️  未设置 LLM API Key！"
+    warn "  请在 .env 中设置 DEEPSEEK_API_KEY 或 DASHSCOPE_API_KEY"
+    warn "  DeepSeek 申请：https://platform.deepseek.com"
+else
+    ok "LLM API Key 已配置"
+fi
+
+# ── 验证 Docker ─────────────────────────────────
+info "检查 Docker 环境..."
+if ! command -v docker &>/dev/null; then
+    warn "Docker 未安装，请先运行：bash scripts/00_install_docker_ubuntu.sh"
+    exit 1
+fi
+docker compose version > /dev/null
+ok "Docker Compose 可用：$(docker compose version)"
+
+# ── 显示下一步 ──────────────────────────────────
+echo ""
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo -e "${GREEN}  项目初始化完成！${NC}"
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo ""
+echo "下一步操作："
+echo "  1. 拉取镜像（可选，较慢）：bash scripts/02_pull_images.sh"
+echo "  2. 启动全部服务：         bash scripts/06_start_all.sh"
+echo "  3. 检查健康状态：         bash scripts/check_health.sh"
--- a/scripts/02_pull_images.sh
+++ b/scripts/02_pull_images.sh
@@ -0,0 +1,46 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# 02_pull_images.sh
+# 预拉取所有 Docker 镜像（离线/弱网环境准备）
+# 用法：bash scripts/02_pull_images.sh
+# ══════════════════════════════════════════════════
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+cd "$PROJECT_DIR"
+
+BLUE='\033[0;34m'; GREEN='\033[0;32m'; YELLOW='\033[1;33m'; NC='\033[0m'
+info() { echo -e "${BLUE}[INFO]${NC} $*"; }
+ok()   { echo -e "${GREEN}[OK]${NC} $*"; }
+
+# 所有基础镜像列表
+IMAGES=(
+    "pgvector/pgvector:pg16"
+    "redis:7-alpine"
+    "quay.io/coreos/etcd:v3.5.5"
+    "minio/minio:RELEASE.2023-03-13T19-46-17Z"
+    "milvusdb/milvus:v2.4.13"
+    "neo4j:5.20-community"
+    "nginx:1.25-alpine"
+    "grafana/grafana:11.0.0"
+    "prom/prometheus:v2.51.0"
+)
+
+info "开始拉取 ${#IMAGES[@]} 个基础镜像..."
+echo ""
+
+for img in "${IMAGES[@]}"; do
+    info "拉取：$img"
+    docker pull "$img"
+    ok "完成：$img"
+    echo ""
+done
+
+info "所有基础镜像拉取完成"
+echo ""
+info "自定义服务镜像（embedding/mcp/backend）将在 build 时自动拉取基础层"
+echo ""
+echo -e "${YELLOW}提示：如在国内网络环境下 quay.io 或 milvusdb 拉取慢，${NC}"
+echo -e "${YELLOW}可配置 Docker 镜像加速器：/etc/docker/daemon.json${NC}"
+echo '  {"registry-mirrors": ["https://docker.mirrors.ustc.edu.cn"]}'
--- a/scripts/03_start_infra.sh
+++ b/scripts/03_start_infra.sh
@@ -0,0 +1,93 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# 03_start_infra.sh
+# 分步启动基础设施（含健康等待），顺序：
+# PostgreSQL + Redis → etcd + MinIO → Milvus → Neo4j
+# 用法：bash scripts/03_start_infra.sh
+# ══════════════════════════════════════════════════
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+cd "$PROJECT_DIR"
+
+RED='\033[0;31m'; GREEN='\033[0;32m'; YELLOW='\033[1;33m'; BLUE='\033[0;34m'; NC='\033[0m'
+info()  { echo -e "${BLUE}[INFO]${NC} $*"; }
+ok()    { echo -e "${GREEN}[OK]${NC} $*"; }
+warn()  { echo -e "${YELLOW}[WARN]${NC} $*"; }
+error() { echo -e "${RED}[ERROR]${NC} $*"; exit 1; }
+
+# 等待服务健康的函数
+wait_healthy() {
+    local service=$1
+    local max_wait=${2:-120}
+    local interval=5
+    local elapsed=0
+
+    info "等待 $service 健康就绪..."
+    while [[ $elapsed -lt $max_wait ]]; do
+        local status
+        status=$(docker compose ps --format json "$service" 2>/dev/null | \
+                 python3 -c "import sys,json; d=json.load(sys.stdin); print(d.get('Health','unknown'))" 2>/dev/null || echo "unknown")
+
+        if [[ "$status" == "healthy" ]]; then
+            ok "$service 已就绪"
+            return 0
+        fi
+
+        echo -n "."
+        sleep $interval
+        elapsed=$((elapsed + interval))
+    done
+    echo ""
+    error "$service 等待超时（${max_wait}s），请检查：docker compose logs $service"
+}
+
+info "══════════════════════════════════════════"
+info "  启动基础设施层"
+info "══════════════════════════════════════════"
+
+# ── Step 1：PostgreSQL + Redis ──────────────────
+info "Step 1/4：启动 PostgreSQL 和 Redis..."
+docker compose up -d postgres redis
+
+wait_healthy postgres 90
+wait_healthy redis 30
+ok "数据层就绪"
+
+# ── Step 2：etcd + MinIO（Milvus 依赖）─────────
+info "Step 2/4：启动 etcd 和 MinIO（Milvus 依赖）..."
+docker compose up -d etcd minio
+
+wait_healthy etcd 60
+wait_healthy minio 60
+ok "对象存储层就绪"
+
+# ── Step 3：Milvus ──────────────────────────────
+info "Step 3/4：启动 Milvus（向量数据库）..."
+docker compose up -d milvus
+
+info "Milvus 初始化需要约 60 秒，请耐心等待..."
+wait_healthy milvus 180
+ok "Milvus 就绪"
+
+# ── Step 4：Neo4j ───────────────────────────────
+info "Step 4/4：启动 Neo4j（知识图谱）..."
+docker compose up -d neo4j
+
+wait_healthy neo4j 120
+ok "Neo4j 就绪"
+
+# ── 汇总 ────────────────────────────────────────
+echo ""
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo -e "${GREEN}  基础设施启动完成！${NC}"
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo ""
+echo "  PostgreSQL : localhost:5432"
+echo "  Redis      : localhost:6379"
+echo "  Milvus     : localhost:19530 (gRPC), localhost:9091 (HTTP)"
+echo "  Neo4j      : localhost:7474 (Browser), localhost:7687 (Bolt)"
+echo "  MinIO 控制台: localhost:9001 (admin/minioadmin)"
+echo ""
+echo "下一步：bash scripts/04_build_services.sh"
--- a/scripts/04_build_services.sh
+++ b/scripts/04_build_services.sh
@@ -0,0 +1,59 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# 04_build_services.sh
+# 构建自定义服务 Docker 镜像
+# embedding-service / mcp-server / compliance-backend
+# 用法：bash scripts/04_build_services.sh
+# ══════════════════════════════════════════════════
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+cd "$PROJECT_DIR"
+
+BLUE='\033[0;34m'; GREEN='\033[0;32m'; YELLOW='\033[1;33m'; NC='\033[0m'
+info() { echo -e "${BLUE}[INFO]${NC} $*"; }
+ok()   { echo -e "${GREEN}[OK]${NC} $*"; }
+warn() { echo -e "${YELLOW}[WARN]${NC} $*"; }
+
+info "══════════════════════════════════════════"
+info "  构建自定义服务镜像"
+info "══════════════════════════════════════════"
+warn "首次构建较慢（需下载 Python 依赖 + AI 模型）"
+warn "BGE-M3 模型约 2.5GB，MinerU 模型约 2GB"
+echo ""
+
+# ── 构建嵌入服务 ────────────────────────────────
+info "构建 embedding-service（BGE-M3）..."
+START=$(date +%s)
+docker compose build embedding-service
+END=$(date +%s)
+ok "embedding-service 构建完成（$(( END - START ))s）"
+echo ""
+
+# ── 构建 MinerU 解析服务 ────────────────────────
+info "构建 mcp-server（MinerU）..."
+START=$(date +%s)
+docker compose build mcp-server
+END=$(date +%s)
+ok "mcp-server 构建完成（$(( END - START ))s）"
+echo ""
+
+# ── 构建业务后端 ────────────────────────────────
+info "构建 compliance-backend..."
+START=$(date +%s)
+docker compose build compliance-backend
+END=$(date +%s)
+ok "compliance-backend 构建完成（$(( END - START ))s）"
+echo ""
+
+# ── 列出构建的镜像 ──────────────────────────────
+info "已构建的镜像："
+docker images | grep -E "compliance-(embedding|mcp|backend)" || true
+
+echo ""
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo -e "${GREEN}  所有服务镜像构建完成！${NC}"
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo ""
+echo "下一步：bash scripts/05_init_db.sh"
--- a/scripts/05_init_db.sh
+++ b/scripts/05_init_db.sh
@@ -0,0 +1,124 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# 05_init_db.sh
+# 初始化数据库：PostgreSQL Schema + Milvus Collections + Neo4j Constraints
+# 用法：bash scripts/05_init_db.sh
+# 前提：postgres / milvus / neo4j 已运行且健康
+# ══════════════════════════════════════════════════
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+cd "$PROJECT_DIR"
+
+RED='\033[0;31m'; GREEN='\033[0;32m'; YELLOW='\033[1;33m'; BLUE='\033[0;34m'; NC='\033[0m'
+info()  { echo -e "${BLUE}[INFO]${NC} $*"; }
+ok()    { echo -e "${GREEN}[OK]${NC} $*"; }
+warn()  { echo -e "${YELLOW}[WARN]${NC} $*"; }
+error() { echo -e "${RED}[ERROR]${NC} $*"; exit 1; }
+
+source .env 2>/dev/null || true
+POSTGRES_PASSWORD=${POSTGRES_PASSWORD:-compliance123}
+NEO4J_PASSWORD=${NEO4J_PASSWORD:-neo4j123}
+
+# ── Step 1：PostgreSQL Schema ───────────────────
+info "Step 1/3：初始化 PostgreSQL Schema..."
+if docker compose ps postgres | grep -q "healthy"; then
+    docker compose exec -T postgres psql \
+        -U compliance -d compliance_db \
+        -f /docker-entrypoint-initdb.d/01_init_schema.sql \
+        2>&1 | tail -5 || warn "SQL 可能部分已存在（IF NOT EXISTS），这是正常的"
+    ok "PostgreSQL Schema 初始化完成"
+else
+    error "PostgreSQL 未运行，请先执行：bash scripts/03_start_infra.sh"
+fi
+
+# ── Step 2：Milvus Collections ──────────────────
+info "Step 2/3：初始化 Milvus Collections..."
+if docker compose ps milvus | grep -q "healthy"; then
+    docker compose run --rm --no-deps compliance-backend \
+        python3 -c "
+import asyncio
+from pymilvus import connections, Collection, CollectionSchema, FieldSchema, DataType, utility
+
+connections.connect(host='milvus', port='19530')
+print('Milvus 连接成功')
+
+def create_collection(name, description):
+    if utility.has_collection(name):
+        print(f'  Collection {name} 已存在，跳过')
+        return
+
+    fields = [
+        FieldSchema(name='id',        dtype=DataType.VARCHAR, is_primary=True, max_length=128),
+        FieldSchema(name='file_id',   dtype=DataType.VARCHAR, max_length=128),
+        FieldSchema(name='workspace_id', dtype=DataType.VARCHAR, max_length=128),
+        FieldSchema(name='chunk_idx', dtype=DataType.INT64),
+        FieldSchema(name='content',   dtype=DataType.VARCHAR, max_length=65535),
+        FieldSchema(name='dense_vec', dtype=DataType.FLOAT_VECTOR, dim=1024),  # BGE-M3 dense
+        FieldSchema(name='metadata',  dtype=DataType.JSON),
+    ]
+    schema = CollectionSchema(fields, description=description)
+    col = Collection(name, schema)
+
+    # 创建向量索引（HNSW，适合调研阶段）
+    index_params = {
+        'metric_type': 'COSINE',
+        'index_type':  'HNSW',
+        'params': {'M': 16, 'efConstruction': 200}
+    }
+    col.create_index('dense_vec', index_params)
+    col.load()
+    print(f'  Collection {name} 创建完成')
+
+create_collection('regulation_chunks', '法规条款向量库')
+create_collection('doc_chunks',        '企业文档向量库')
+create_collection('case_library',      '行业案例库')
+
+print('Milvus 初始化完成')
+" 2>&1
+    ok "Milvus Collections 初始化完成"
+else
+    error "Milvus 未运行，请先执行：bash scripts/03_start_infra.sh"
+fi
+
+# ── Step 3：Neo4j 约束和索引 ────────────────────
+info "Step 3/3：初始化 Neo4j 约束和索引..."
+sleep 5  # Neo4j 可能还在预热
+
+docker compose exec -T neo4j cypher-shell \
+    -u neo4j -p "$NEO4J_PASSWORD" \
+    --format plain <<'CYPHER'
+// 节点约束（唯一性）
+CREATE CONSTRAINT regulation_id IF NOT EXISTS
+    FOR (r:Regulation) REQUIRE r.id IS UNIQUE;
+CREATE CONSTRAINT clause_id IF NOT EXISTS
+    FOR (c:Clause) REQUIRE c.id IS UNIQUE;
+CREATE CONSTRAINT obligation_id IF NOT EXISTS
+    FOR (o:Obligation) REQUIRE o.id IS UNIQUE;
+
+// 全文索引（模糊查询）
+CREATE FULLTEXT INDEX regulation_fulltext IF NOT EXISTS
+    FOR (r:Regulation) ON EACH [r.title, r.code, r.domain];
+CREATE FULLTEXT INDEX clause_fulltext IF NOT EXISTS
+    FOR (c:Clause) ON EACH [c.content, c.title];
+
+// 插入示例节点（验证连通性）
+MERGE (d:Domain {name: 'vehicle_safety', label: '车辆安全法规'});
+MERGE (d:Domain {name: 'data_security',  label: '数据安全法规'});
+MERGE (d:Domain {name: 'ehs',            label: 'EHS安全法规'});
+MERGE (d:Domain {name: 'carbon',         label: '碳排放法规'});
+RETURN '初始化完成' AS result;
+CYPHER
+    ok "Neo4j 约束和索引初始化完成"
+
+echo ""
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo -e "${GREEN}  数据库初始化完成！${NC}"
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo ""
+echo "  PostgreSQL: 所有表已创建"
+echo "  Milvus:     regulation_chunks / doc_chunks / case_library"
+echo "  Neo4j:      约束 + 全文索引 + 基础域节点"
+echo ""
+echo "下一步：bash scripts/06_start_all.sh"
--- a/scripts/06_start_all.sh
+++ b/scripts/06_start_all.sh
@@ -0,0 +1,98 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# 06_start_all.sh
+# 一键启动所有服务（完整流程）
+# 用法：bash scripts/06_start_all.sh
+# ══════════════════════════════════════════════════
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+cd "$PROJECT_DIR"
+
+RED='\033[0;31m'; GREEN='\033[0;32m'; YELLOW='\033[1;33m'; BLUE='\033[0;34m'; NC='\033[0m'
+info()  { echo -e "${BLUE}[INFO]${NC} $*"; }
+ok()    { echo -e "${GREEN}[OK]${NC} $*"; }
+warn()  { echo -e "${YELLOW}[WARN]${NC} $*"; }
+error() { echo -e "${RED}[ERROR]${NC} $*"; exit 1; }
+
+echo ""
+echo -e "${BLUE}╔══════════════════════════════════════════╗${NC}"
+echo -e "${BLUE}║   AI合规智能中枢 — 全服务启动           ║${NC}"
+echo -e "${BLUE}╚══════════════════════════════════════════╝${NC}"
+echo ""
+
+# ── 前置检查 ────────────────────────────────────
+if [[ ! -f ".env" ]]; then
+    error ".env 文件不存在，请先运行：bash scripts/01_setup_project.sh"
+fi
+
+source .env 2>/dev/null || true
+if [[ -z "${DEEPSEEK_API_KEY:-}" && -z "${DASHSCOPE_API_KEY:-}" ]]; then
+    warn "⚠️  未设置 LLM API Key，LLM 功能将不可用"
+    warn "请在 .env 中设置 DEEPSEEK_API_KEY 或 DASHSCOPE_API_KEY"
+    echo ""
+fi
+
+# ── Phase 1：基础设施 ────────────────────────────
+info "Phase 1/4：启动基础设施..."
+bash "$SCRIPT_DIR/03_start_infra.sh"
+echo ""
+
+# ── Phase 2：构建服务镜像 ────────────────────────
+info "Phase 2/4：构建服务镜像（首次较慢）..."
+docker compose build embedding-service mcp-server compliance-backend 2>&1 | \
+    grep -E "(Step|Successfully|=>|ERROR)" || true
+ok "镜像构建完成"
+echo ""
+
+# ── Phase 3：初始化数据库 ────────────────────────
+info "Phase 3/4：初始化数据库..."
+bash "$SCRIPT_DIR/05_init_db.sh"
+echo ""
+
+# ── Phase 4：启动所有服务 ────────────────────────
+info "Phase 4/4：启动 AI 模型服务和业务服务..."
+docker compose up -d embedding-service mcp-server
+info "等待 AI 模型加载（BGE-M3/MinerU 约需 2-3 分钟）..."
+sleep 30
+
+# 等待嵌入服务就绪
+for i in {1..20}; do
+    if curl -sf http://localhost:8010/health > /dev/null 2>&1; then
+        ok "embedding-service 就绪"
+        break
+    fi
+    echo -n "."
+    sleep 10
+done
+
+docker compose up -d compliance-backend celery-worker celery-beat nginx
+info "等待业务服务启动..."
+sleep 15
+
+for i in {1..12}; do
+    if curl -sf http://localhost:8000/health > /dev/null 2>&1; then
+        ok "compliance-backend 就绪"
+        break
+    fi
+    echo -n "."
+    sleep 5
+done
+
+# ── 最终状态 ────────────────────────────────────
+echo ""
+echo -e "${GREEN}╔══════════════════════════════════════════╗${NC}"
+echo -e "${GREEN}║   所有服务启动完成！                     ║${NC}"
+echo -e "${GREEN}╚══════════════════════════════════════════╝${NC}"
+echo ""
+docker compose ps --format "table {{.Service}}\t{{.Status}}\t{{.Ports}}"
+echo ""
+echo -e "${BLUE}访问地址：${NC}"
+echo "  API 网关      : http://localhost"
+echo "  API 文档      : http://localhost/docs"
+echo "  Neo4j 浏览器  : http://localhost:7474"
+echo "  MinIO 控制台  : http://localhost:9001"
+echo ""
+echo -e "${YELLOW}运行冒烟测试：${NC}"
+echo "  bash scripts/07_smoke_test.sh"
--- a/scripts/07_smoke_test.sh
+++ b/scripts/07_smoke_test.sh
@@ -0,0 +1,183 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# 07_smoke_test.sh
+# 端到端冒烟测试：验证三条业务闭环
+# 用法：bash scripts/07_smoke_test.sh
+# ══════════════════════════════════════════════════
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+cd "$PROJECT_DIR"
+
+RED='\033[0;31m'; GREEN='\033[0;32m'; YELLOW='\033[1;33m'; BLUE='\033[0;34m'; NC='\033[0m'
+info()  { echo -e "${BLUE}[INFO]${NC} $*"; }
+ok()    { echo -e "${GREEN}[✓]${NC} $*"; }
+fail()  { echo -e "${RED}[✗]${NC} $*"; FAILED=$((FAILED+1)); }
+warn()  { echo -e "${YELLOW}[~]${NC} $*"; }
+
+FAILED=0
+API_BASE="http://localhost"
+
+echo ""
+echo -e "${BLUE}══════════════════════════════════════════${NC}"
+echo -e "${BLUE}  AI合规智能中枢 端到端冒烟测试${NC}"
+echo -e "${BLUE}══════════════════════════════════════════${NC}"
+echo ""
+
+# ── 基础健康检查 ────────────────────────────────
+info "=== 基础设施健康检查 ==="
+
+check_service() {
+    local name=$1; local url=$2
+    if curl -sf "$url" > /dev/null 2>&1; then
+        ok "$name"
+    else
+        fail "$name（$url 不可达）"
+    fi
+}
+
+check_service "API 网关 (Nginx)"           "http://localhost/health"
+check_service "业务后端 (FastAPI)"         "http://localhost:8000/health"
+check_service "嵌入服务 (BGE-M3)"          "http://localhost:8010/health"
+check_service "解析服务 (MinerU)"           "http://localhost:8011/health"
+check_service "Milvus HTTP"               "http://localhost:9091/healthz"
+check_service "Neo4j Browser"             "http://localhost:7474"
+echo ""
+
+# ── 嵌入服务测试 ────────────────────────────────
+info "=== 嵌入服务测试 ==="
+EMBED_RESP=$(curl -sf -X POST http://localhost:8010/embed \
+    -H "Content-Type: application/json" \
+    -d '{"texts": ["GB 18384 电动汽车碰撞安全要求"], "batch_size": 1}' 2>/dev/null || echo "{}")
+
+if echo "$EMBED_RESP" | python3 -c "import sys,json; d=json.load(sys.stdin); assert len(d.get('dense',[])[0])==1024" 2>/dev/null; then
+    ok "BGE-M3 嵌入：返回 1024 维向量"
+else
+    fail "BGE-M3 嵌入失败，响应：${EMBED_RESP:0:200}"
+fi
+echo ""
+
+# ── 创建测试 PDF ────────────────────────────────
+info "=== 创建测试文档 ==="
+TEST_PDF="$PROJECT_DIR/data/uploads/test_regulation.txt"
+cat > "$TEST_PDF" << 'EOF'
+GB 18384-2020 电动汽车安全要求
+
+第一章 总则
+本标准规定了电动汽车的安全要求，适用于M1类纯电动汽车。
+
+第二章 电气安全
+2.1 绝缘电阻要求
+    直流电路绝缘电阻不得低于100Ω/V。
+2.2 碰撞安全
+    车辆碰撞后，高压电系统应自动断电。
+    碰撞后5秒内，高压系统电压应降至60V以下。
+
+第三章 防水要求
+高压系统防护等级应达到IP67。
+EOF
+ok "测试文档创建：$TEST_PDF"
+echo ""
+
+# ── 闭环①：文件上传 → 向量化 → 问答 ───────────
+info "=== 闭环①：法规入库 → 检索问答 ==="
+
+# 创建工作空间
+WORKSPACE_RESP=$(curl -sf -X POST "$API_BASE/api/kb/workspaces" \
+    -H "Content-Type: application/json" \
+    -d '{"name": "测试法规库", "domain": "vehicle_safety"}' 2>/dev/null || echo "{}")
+WS_ID=$(echo "$WORKSPACE_RESP" | python3 -c "import sys,json; print(json.load(sys.stdin).get('id',''))" 2>/dev/null || echo "")
+
+if [[ -n "$WS_ID" ]]; then
+    ok "工作空间创建：$WS_ID"
+else
+    warn "工作空间创建失败（可能接口未完全实现），跳过后续上传测试"
+    WS_ID="test-workspace"
+fi
+
+# 上传文件
+UPLOAD_RESP=$(curl -sf -X POST "$API_BASE/api/kb/files/upload" \
+    -F "file=@$TEST_PDF" \
+    -F "workspace_id=$WS_ID" 2>/dev/null || echo "{}")
+TASK_ID=$(echo "$UPLOAD_RESP" | python3 -c "import sys,json; print(json.load(sys.stdin).get('task_id',''))" 2>/dev/null || echo "")
+
+if [[ -n "$TASK_ID" ]]; then
+    ok "文件上传任务已创建：$TASK_ID"
+
+    # 轮询任务状态（最多等待120秒）
+    info "等待向量化完成..."
+    for i in {1..24}; do
+        TASK_STATUS=$(curl -sf "$API_BASE/api/kb/tasks/$TASK_ID" 2>/dev/null | \
+            python3 -c "import sys,json; print(json.load(sys.stdin).get('status','unknown'))" 2>/dev/null || echo "unknown")
+        if [[ "$TASK_STATUS" == "completed" ]]; then
+            ok "向量化完成（${i}×5s）"
+            break
+        elif [[ "$TASK_STATUS" == "failed" ]]; then
+            fail "向量化失败"
+            break
+        fi
+        echo -n "."
+        sleep 5
+    done
+    echo ""
+
+    # 检索问答
+    QA_RESP=$(curl -sf -X POST "$API_BASE/api/kb/qa" \
+        -H "Content-Type: application/json" \
+        -d "{\"query\": \"碰撞后高压系统电压要求\", \"workspace_id\": \"$WS_ID\", \"top_k\": 3}" 2>/dev/null || echo "{}")
+    ANSWER=$(echo "$QA_RESP" | python3 -c "import sys,json; print(json.load(sys.stdin).get('answer','')[:100])" 2>/dev/null || echo "")
+
+    if [[ -n "$ANSWER" ]]; then
+        ok "问答成功：${ANSWER}..."
+    else
+        warn "问答返回空（LLM API 可能未配置或响应缓慢）"
+    fi
+else
+    warn "文件上传失败（接口可能未实现）"
+fi
+echo ""
+
+# ── 闭环②：合规审查 ────────────────────────────
+info "=== 闭环②：文档上传 → 合规审查 ==="
+
+CHECK_RESP=$(curl -sf -X POST "$API_BASE/api/compliance/check" \
+    -H "Content-Type: application/json" \
+    -d '{"query": "供应商文件是否符合GB 18384碰撞安全要求", "domains": ["vehicle_safety"]}' 2>/dev/null || echo "{}")
+RISK=$(echo "$CHECK_RESP" | python3 -c "import sys,json; print(json.load(sys.stdin).get('risk_level','unknown'))" 2>/dev/null || echo "unknown")
+
+if [[ "$RISK" != "unknown" && -n "$RISK" ]]; then
+    ok "合规审查完成，风险等级：$RISK"
+else
+    warn "合规审查接口返回空（功能可能未完全实现）"
+fi
+echo ""
+
+# ── 闭环③：法规监控 ────────────────────────────
+info "=== 闭环③：法规监控源配置 ==="
+
+SOURCE_RESP=$(curl -sf -X POST "$API_BASE/api/regulation/sources" \
+    -H "Content-Type: application/json" \
+    -d '{"name": "测试监控源", "url": "https://std.samr.gov.cn", "domain": "vehicle_safety"}' 2>/dev/null || echo "{}")
+SOURCE_ID=$(echo "$SOURCE_RESP" | python3 -c "import sys,json; print(json.load(sys.stdin).get('id',''))" 2>/dev/null || echo "")
+
+if [[ -n "$SOURCE_ID" ]]; then
+    ok "监控源配置成功：$SOURCE_ID"
+else
+    warn "监控源配置返回空（功能可能未完全实现）"
+fi
+echo ""
+
+# ── 汇总 ────────────────────────────────────────
+echo ""
+echo -e "${BLUE}══════════════════════════════════════════${NC}"
+if [[ $FAILED -eq 0 ]]; then
+    echo -e "${GREEN}  全部检查通过！${NC}"
+else
+    echo -e "${YELLOW}  完成，${FAILED} 项失败${NC}（部分功能可能尚未实现）"
+fi
+echo -e "${BLUE}══════════════════════════════════════════${NC}"
+echo ""
+echo "查看服务日志："
+echo "  docker compose logs -f compliance-backend"
+echo "  docker compose logs -f celery-worker"
--- a/scripts/check_health.sh
+++ b/scripts/check_health.sh
@@ -0,0 +1,66 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# check_health.sh
+# 检查所有服务的健康状态和资源使用
+# 用法：bash scripts/check_health.sh
+# ══════════════════════════════════════════════════
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+cd "$PROJECT_DIR"
+
+GREEN='\033[0;32m'; RED='\033[0;31m'; YELLOW='\033[1;33m'; BLUE='\033[0;34m'; NC='\033[0m'
+
+echo ""
+echo -e "${BLUE}══════════════════════════════════════════${NC}"
+echo -e "${BLUE}  服务健康检查报告${NC}"
+echo -e "${BLUE}══════════════════════════════════════════${NC}"
+echo ""
+
+# Docker 服务状态
+echo -e "${BLUE}【Docker Compose 服务状态】${NC}"
+docker compose ps --format "table {{.Service}}\t{{.Status}}\t{{.Ports}}"
+echo ""
+
+# HTTP 端点检查
+echo -e "${BLUE}【HTTP 健康端点】${NC}"
+check_http() {
+    local name=$1; local url=$2
+    if curl -sf --max-time 5 "$url" > /dev/null 2>&1; then
+        echo -e "  ${GREEN}[OK]${NC}  $name ($url)"
+    else
+        echo -e "  ${RED}[FAIL]${NC} $name ($url)"
+    fi
+}
+
+check_http "API 网关"         "http://localhost/health"
+check_http "业务后端"         "http://localhost:8000/health"
+check_http "嵌入服务"         "http://localhost:8010/health"
+check_http "解析服务"         "http://localhost:8011/health"
+check_http "Milvus"           "http://localhost:9091/healthz"
+check_http "Neo4j"            "http://localhost:7474"
+echo ""
+
+# 资源使用
+echo -e "${BLUE}【容器资源使用】${NC}"
+docker stats --no-stream --format \
+    "table {{.Name}}\t{{.CPUPerc}}\t{{.MemUsage}}\t{{.MemPerc}}" \
+    2>/dev/null | head -15
+echo ""
+
+# 磁盘使用
+echo -e "${BLUE}【磁盘使用】${NC}"
+df -h . | tail -1 | awk '{print "  项目目录：已用 "$3"，可用 "$4"（" $5 " 使用率）"}'
+docker system df 2>/dev/null | head -6
+echo ""
+
+# LLM 配置检查
+echo -e "${BLUE}【LLM API 配置】${NC}"
+source .env 2>/dev/null || true
+if [[ -n "${DEEPSEEK_API_KEY:-}" ]]; then
+    echo -e "  ${GREEN}[OK]${NC}  DeepSeek API Key 已配置"
+elif [[ -n "${DASHSCOPE_API_KEY:-}" ]]; then
+    echo -e "  ${GREEN}[OK]${NC}  DashScope (Qwen) API Key 已配置"
+else
+    echo -e "  ${YELLOW}[WARN]${NC} 未配置 LLM API Key（LLM 功能不可用）"
+fi
+echo ""
--- a/scripts/download_models.sh
+++ b/scripts/download_models.sh
@@ -0,0 +1,91 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# download_models.sh
+# 预下载 AI 模型到 ./models 目录（加速容器启动）
+# 支持 HuggingFace 镜像加速（国内网络）
+# 用法：bash scripts/download_models.sh
+# ══════════════════════════════════════════════════
+set -euo pipefail
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+cd "$PROJECT_DIR"
+
+BLUE='\033[0;34m'; GREEN='\033[0;32m'; YELLOW='\033[1;33m'; NC='\033[0m'
+info() { echo -e "${BLUE}[INFO]${NC} $*"; }
+ok()   { echo -e "${GREEN}[OK]${NC} $*"; }
+warn() { echo -e "${YELLOW}[WARN]${NC} $*"; }
+
+MODELS_DIR="$PROJECT_DIR/models"
+mkdir -p "$MODELS_DIR"
+
+# 设置镜像加速
+export HF_ENDPOINT="${HF_ENDPOINT:-https://hf-mirror.com}"
+export HF_HOME="$MODELS_DIR"
+info "HuggingFace 镜像：$HF_ENDPOINT"
+info "模型保存路径：$MODELS_DIR"
+echo ""
+
+# ── 方法1：通过 huggingface_hub 下载 ────────────
+download_hf() {
+    local repo=$1; local local_name=$2
+    info "下载 $repo..."
+    if python3 -c "
+import os
+os.environ['HF_ENDPOINT'] = '${HF_ENDPOINT}'
+os.environ['HF_HOME'] = '${MODELS_DIR}'
+from huggingface_hub import snapshot_download
+snapshot_download(repo_id='$repo', cache_dir='${MODELS_DIR}')
+print('下载完成')
+" 2>&1; then
+        ok "$repo 下载成功"
+    else
+        warn "$repo HuggingFace 下载失败，尝试 ModelScope..."
+        download_modelscope "$repo" "$local_name"
+    fi
+}
+
+# ── 方法2：通过 ModelScope 下载（备用）──────────
+download_modelscope() {
+    local hf_name=$1
+    local ms_name=${2:-$1}
+    python3 -c "
+try:
+    from modelscope import snapshot_download
+    snapshot_download(model_id='$ms_name', cache_dir='${MODELS_DIR}/modelscope')
+    print('ModelScope 下载完成')
+except ImportError:
+    print('ModelScope 未安装，跳过')
+except Exception as e:
+    print(f'ModelScope 下载失败: {e}')
+" 2>&1 || warn "ModelScope 下载也失败，模型将在容器启动时自动下载"
+}
+
+# ── 检查 Python 环境 ────────────────────────────
+if ! python3 -c "import huggingface_hub" 2>/dev/null; then
+    warn "未安装 huggingface_hub，尝试安装..."
+    pip3 install -q huggingface_hub modelscope 2>/dev/null || \
+        warn "安装失败，模型将在容器首次启动时下载"
+fi
+
+# ── 下载模型列表 ────────────────────────────────
+info "=== 下载 BGE-M3 嵌入模型（约 2.5GB）==="
+download_hf "BAAI/bge-m3" "BAAI/bge-m3"
+echo ""
+
+info "=== 下载 BGE-Reranker 精排模型（约 1.1GB）==="
+download_hf "BAAI/bge-reranker-v2-m3" "BAAI/bge-reranker-v2-m3"
+echo ""
+
+# MinerU 模型通过容器内脚本下载（依赖 magic-pdf 配置）
+info "=== MinerU 模型说明 ==="
+warn "MinerU 模型（约 2GB）将在 mcp-server 容器首次启动时自动下载"
+warn "如需预下载，请在 mcp-server 容器内运行：mineru-models-download"
+echo ""
+
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo -e "${GREEN}  模型下载完成！${NC}"
+echo -e "${GREEN}══════════════════════════════════════════${NC}"
+echo ""
+echo "已下载到：$MODELS_DIR"
+du -sh "$MODELS_DIR" 2>/dev/null || true
--- a/scripts/reset_all.sh
+++ b/scripts/reset_all.sh
@@ -0,0 +1,37 @@
+#!/usr/bin/env bash
+# ══════════════════════════════════════════════════
+# reset_all.sh
+# ⚠️  危险操作：停止所有服务并删除所有数据（慎用！）
+# 用法：bash scripts/reset_all.sh
+# ══════════════════════════════════════════════════
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+PROJECT_DIR="$(dirname "$SCRIPT_DIR")"
+cd "$PROJECT_DIR"
+
+RED='\033[0;31m'; YELLOW='\033[1;33m'; NC='\033[0m'
+
+echo ""
+echo -e "${RED}╔══════════════════════════════════════════╗${NC}"
+echo -e "${RED}║  ⚠️   警告：此操作将删除所有数据！       ║${NC}"
+echo -e "${RED}║  包括：PostgreSQL / Milvus / Neo4j 数据  ║${NC}"
+echo -e "${RED}║  以及所有上传的文件和日志                ║${NC}"
+echo -e "${RED}╚══════════════════════════════════════════╝${NC}"
+echo ""
+echo -e "${YELLOW}确认要重置所有数据吗？（输入 'yes' 确认，其他取消）${NC}"
+read -r CONFIRM
+
+if [[ "$CONFIRM" != "yes" ]]; then
+    echo "已取消"
+    exit 0
+fi
+
+echo ""
+echo "停止所有服务..."
+docker compose down --volumes --remove-orphans
+
+echo "清理数据目录..."
+rm -rf data/uploads/* data/parsed/* logs/*
+echo "✓ 数据目录已清空（保留目录结构）"
+
+echo ""
+echo -e "${YELLOW}重置完成。重新启动：bash scripts/06_start_all.sh${NC}"
--- a/services/compliance-backend/Dockerfile
+++ b/services/compliance-backend/Dockerfile
@@ -0,0 +1,24 @@
+FROM python:3.12-slim
+
+WORKDIR /app
+
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    curl \
+    && rm -rf /var/lib/apt/lists/*
+
+# 使用 uv 加速依赖安装
+RUN pip install uv --no-cache-dir
+
+COPY pyproject.toml .
+RUN uv pip install --system --no-cache -r pyproject.toml \
+    --index-url https://pypi.tuna.tsinghua.edu.cn/simple \
+    --trusted-host pypi.tuna.tsinghua.edu.cn
+
+COPY app/ ./app/
+
+HEALTHCHECK --interval=30s --timeout=10s --start-period=30s --retries=5 \
+    CMD curl -f http://localhost:8000/health || exit 1
+
+EXPOSE 8000
+
+CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "8000", "--workers", "2"]
--- a/services/compliance-backend/app/init.py
+++ b/services/compliance-backend/app/init.py
--- a/services/compliance-backend/app/api/init.py
+++ b/services/compliance-backend/app/api/init.py
--- a/services/compliance-backend/app/api/compliance.py
+++ b/services/compliance-backend/app/api/compliance.py
@@ -0,0 +1,95 @@
+import uuid
+import logging
+from fastapi import APIRouter, HTTPException
+from pydantic import BaseModel
+from langchain.schema import HumanMessage, SystemMessage
+
+from ..core.llm import get_llm, COMPLIANCE_CHECK_PROMPT
+from ..services.rag import hybrid_search
+
+logger = logging.getLogger(__name__)
+router = APIRouter(prefix="/api/compliance", tags=["合规审查"])
+
+
+class ComplianceCheckRequest(BaseModel):
+    query: str
+    regulation_domains: list[str] = ["vehicle_safety"]
+    top_k: int = 5
+
+
+class ComplianceCheckResponse(BaseModel):
+    risk_level: str
+    risk_score: float
+    findings: list[dict]
+    recommendations: list[str]
+    sources: list[dict]
+
+
+@router.post("/check", response_model=ComplianceCheckResponse)
+async def check_compliance(req: ComplianceCheckRequest):
+    """
+    对输入内容进行合规性检查，与法规库比对后给出风险评估。
+    """
+    # 检索相关法规（从多个域检索）
+    all_chunks = []
+    for domain in req.regulation_domains:
+        chunks = await hybrid_search(
+            req.query,
+            collection_name="regulation_chunks",
+            top_k=req.top_k,
+        )
+        all_chunks.extend(chunks)
+
+    # 去重 + 按分数排序
+    seen = set()
+    unique_chunks = []
+    for c in sorted(all_chunks, key=lambda x: x["score"], reverse=True):
+        if c["id"] not in seen:
+            seen.add(c["id"])
+            unique_chunks.append(c)
+    top_chunks = unique_chunks[:req.top_k]
+
+    if not top_chunks:
+        return ComplianceCheckResponse(
+            risk_level="unknown",
+            risk_score=0,
+            findings=[{"issue": "未找到相关法规，请先上传法规文档"}],
+            recommendations=["上传相关法规文档到知识库后重试"],
+            sources=[],
+        )
+
+    # 构建法规上下文
+    regulations_text = "\n\n".join(
+        f"[{i+1}] {c['content'][:500]}" for i, c in enumerate(top_chunks)
+    )
+
+    prompt = COMPLIANCE_CHECK_PROMPT.format(
+        content=req.query,
+        regulations=regulations_text,
+    )
+
+    llm = get_llm(temperature=0.0)
+    try:
+        response = await llm.ainvoke([HumanMessage(content=prompt)])
+        analysis = response.content
+    except Exception as e:
+        logger.error(f"LLM 合规分析失败：{e}")
+        analysis = f"LLM 分析失败：{e}"
+
+    # 简单解析 LLM 输出（生产可用结构化输出）
+    risk_level = "medium"
+    risk_score = 50.0
+    if "critical" in analysis.lower() or "严重" in analysis:
+        risk_level, risk_score = "critical", 90.0
+    elif "high" in analysis.lower() or "高风险" in analysis:
+        risk_level, risk_score = "high", 70.0
+    elif "low" in analysis.lower() or "低风险" in analysis:
+        risk_level, risk_score = "low", 20.0
+
+    return ComplianceCheckResponse(
+        risk_level=risk_level,
+        risk_score=risk_score,
+        findings=[{"analysis": analysis}],
+        recommendations=["请参考上述分析进行整改"],
+        sources=[{"content": c["content"][:200], "score": c["score"]} for c in top_chunks],
+    )
--- a/services/compliance-backend/app/api/kb.py
+++ b/services/compliance-backend/app/api/kb.py
@@ -0,0 +1,114 @@
+import uuid
+import logging
+from pathlib import Path
+
+from fastapi import APIRouter, Depends, UploadFile, File, Form, HTTPException, BackgroundTasks
+from pydantic import BaseModel
+from sqlalchemy.ext.asyncio import AsyncSession
+from sqlalchemy import select
+
+from ..core.deps import get_db
+from ..models.db import Workspace, File as FileRecord, Task
+from ..services.rag import hybrid_search, rerank, generate_answer
+from ..worker import process_file_task
+
+logger = logging.getLogger(__name__)
+router = APIRouter(prefix="/api/kb", tags=["知识库"])
+
+UPLOAD_DIR = Path("/app/data/uploads")
+UPLOAD_DIR.mkdir(parents=True, exist_ok=True)
+
+
+class WorkspaceCreate(BaseModel):
+    name: str
+    description: str = ""
+    domain: str = "general"
+
+
+class QARequest(BaseModel):
+    query: str
+    workspace_id: str | None = None
+    top_k: int = 5
+    return_sources: bool = True
+
+
+@router.post("/workspaces")
+async def create_workspace(req: WorkspaceCreate, db: AsyncSession = Depends(get_db)):
+    ws = Workspace(name=req.name, description=req.description, domain=req.domain)
+    db.add(ws)
+    await db.flush()
+    return {"id": str(ws.id), "name": ws.name, "domain": ws.domain}
+
+
+@router.post("/files/upload")
+async def upload_file(
+    background_tasks: BackgroundTasks,
+    file: UploadFile = File(...),
+    workspace_id: str = Form(default=""),
+    db: AsyncSession = Depends(get_db),
+):
+    content = await file.read()
+    file_id = str(uuid.uuid4())
+    suffix = Path(file.filename or "doc").suffix
+    save_path = UPLOAD_DIR / f"{file_id}{suffix}"
+    save_path.write_bytes(content)
+
+    file_record = FileRecord(
+        id=uuid.UUID(file_id),
+        filename=f"{file_id}{suffix}",
+        original_name=file.filename or "unknown",
+        file_type=suffix.lstrip("."),
+        file_size=len(content),
+        storage_path=str(save_path),
+        workspace_id=uuid.UUID(workspace_id) if workspace_id else None,
+        status="uploaded",
+    )
+    db.add(file_record)
+
+    task = Task(
+        task_type="parse_and_vectorize",
+        status="pending",
+        file_id=uuid.UUID(file_id),
+        payload={"workspace_id": workspace_id},
+    )
+    db.add(task)
+    await db.flush()
+
+    # 异步触发 Celery 任务
+    celery_task = process_file_task.delay(file_id, str(task.id), workspace_id)
+    task.celery_task_id = celery_task.id
+    await db.flush()
+
+    return {"file_id": file_id, "task_id": str(task.id), "status": "processing"}
+
+
+@router.get("/tasks/{task_id}")
+async def get_task(task_id: str, db: AsyncSession = Depends(get_db)):
+    result = await db.execute(select(Task).where(Task.id == uuid.UUID(task_id)))
+    task = result.scalar_one_or_none()
+    if not task:
+        raise HTTPException(status_code=404, detail="任务不存在")
+    return {
+        "task_id": str(task.id),
+        "status": task.status,
+        "progress": task.progress,
+        "file_id": str(task.file_id) if task.file_id else None,
+        "error_msg": task.error_msg,
+        "completed_at": task.completed_at.isoformat() if task.completed_at else None,
+    }
+
+
+@router.post("/qa")
+async def qa(req: QARequest):
+    chunks = await hybrid_search(req.query, workspace_id=req.workspace_id, top_k=req.top_k * 2)
+    ranked = await rerank(req.query, chunks, top_k=req.top_k)
+    result = await generate_answer(req.query, ranked)
+    if not req.return_sources:
+        result.pop("sources", None)
+    return result
+
+
+@router.post("/knowledge/retrieval")
+async def retrieval(req: QARequest):
+    chunks = await hybrid_search(req.query, workspace_id=req.workspace_id, top_k=req.top_k)
+    return {"chunks": chunks, "total": len(chunks)}
--- a/services/compliance-backend/app/api/regulation.py
+++ b/services/compliance-backend/app/api/regulation.py
@@ -0,0 +1,111 @@
+import uuid
+import logging
+from fastapi import APIRouter, Depends, HTTPException
+from pydantic import BaseModel
+from sqlalchemy.ext.asyncio import AsyncSession
+from sqlalchemy import select, desc
+
+from ..core.deps import get_db
+from ..models.db import RegulationSource, RegulationUpdate
+from ..worker import fetch_regulation_source
+
+logger = logging.getLogger(__name__)
+router = APIRouter(prefix="/api/regulation", tags=["法规监控"])
+
+
+class SourceCreate(BaseModel):
+    name: str
+    url: str
+    domain: str = "vehicle_safety"
+    fetch_interval: int = 86400
+    fetch_config: dict = {}
+
+
+class SubscribeRequest(BaseModel):
+    name: str
+    channel: str        # email / webhook / feishu / dingtalk
+    target: str
+    domains: list[str] = []
+    importance_min: str = "normal"
+
+
+@router.post("/sources")
+async def create_source(req: SourceCreate, db: AsyncSession = Depends(get_db)):
+    source = RegulationSource(
+        name=req.name,
+        url=req.url,
+        domain=req.domain,
+        fetch_interval=req.fetch_interval,
+        fetch_config=req.fetch_config,
+    )
+    db.add(source)
+    await db.flush()
+    return {
+        "id": str(source.id),
+        "name": source.name,
+        "url": source.url,
+        "domain": source.domain,
+        "status": "active",
+    }
+
+
+@router.get("/sources")
+async def list_sources(db: AsyncSession = Depends(get_db)):
+    result = await db.execute(
+        select(RegulationSource).where(RegulationSource.is_active == True)
+    )
+    sources = result.scalars().all()
+    return [{"id": str(s.id), "name": s.name, "url": s.url, "domain": s.domain} for s in sources]
+
+
+@router.post("/sources/{source_id}/fetch")
+async def manual_fetch(source_id: str, db: AsyncSession = Depends(get_db)):
+    """手动触发某个监控源的抓取（测试用）"""
+    result = await db.execute(
+        select(RegulationSource).where(RegulationSource.id == uuid.UUID(source_id))
+    )
+    source = result.scalar_one_or_none()
+    if not source:
+        raise HTTPException(status_code=404, detail="监控源不存在")
+
+    task = fetch_regulation_source.delay(source_id)
+    return {"task_id": task.id, "status": "queued", "source_id": source_id}
+
+
+@router.get("/updates")
+async def get_updates(
+    domain: str | None = None,
+    limit: int = 20,
+    offset: int = 0,
+    db: AsyncSession = Depends(get_db),
+):
+    query = select(RegulationUpdate).order_by(desc(RegulationUpdate.fetched_at))
+    result = await db.execute(query.limit(limit).offset(offset))
+    updates = result.scalars().all()
+    return {
+        "updates": [
+            {
+                "id": str(u.id),
+                "title": u.title,
+                "url": u.url,
+                "change_type": u.change_type,
+                "summary": u.summary,
+                "importance": u.importance,
+                "fetched_at": u.fetched_at.isoformat() if u.fetched_at else None,
+            }
+            for u in updates
+        ]
+    }
+
+
+@router.post("/subscribe")
+async def subscribe(req: SubscribeRequest, db: AsyncSession = Depends(get_db)):
+    from ..models.db import Workspace  # 借用DB session
+    # 简化版：仅记录订阅（推送逻辑在 push-worker 中实现）
+    return {
+        "id": str(uuid.uuid4()),
+        "name": req.name,
+        "channel": req.channel,
+        "domains": req.domains,
+        "status": "active",
+    }
--- a/services/compliance-backend/app/core/init.py
+++ b/services/compliance-backend/app/core/init.py
--- a/services/compliance-backend/app/core/config.py
+++ b/services/compliance-backend/app/core/config.py
@@ -0,0 +1,37 @@
+from pydantic_settings import BaseSettings, SettingsConfigDict
+
+
+class Settings(BaseSettings):
+    model_config = SettingsConfigDict(env_file=".env", extra="ignore")
+
+    # 应用
+    app_env: str = "development"
+    log_level: str = "INFO"
+    api_secret_key: str = "change_this_key"
+
+    # 数据库
+    database_url: str = "postgresql+asyncpg://compliance:compliance123@postgres:5432/compliance_db"
+    redis_url: str = "redis://:redis123@redis:6379/0"
+
+    # Milvus
+    milvus_host: str = "milvus"
+    milvus_port: int = 19530
+
+    # Neo4j
+    neo4j_uri: str = "bolt://neo4j:7687"
+    neo4j_user: str = "neo4j"
+    neo4j_password: str = "neo4j123"
+
+    # AI 服务
+    embedding_service_url: str = "http://embedding-service:8010"
+    mcp_server_url: str = "http://mcp-server:8011"
+
+    # LLM
+    llm_provider: str = "deepseek"   # deepseek / qwen
+    deepseek_api_key: str = ""
+    deepseek_model: str = "deepseek-chat"
+    dashscope_api_key: str = ""
+    qwen_model: str = "qwen-plus"
+
+
+settings = Settings()
--- a/services/compliance-backend/app/core/deps.py
+++ b/services/compliance-backend/app/core/deps.py
@@ -0,0 +1,54 @@
+from functools import lru_cache
+from typing import AsyncGenerator
+
+import httpx
+from neo4j import AsyncGraphDatabase
+from pymilvus import connections, Collection
+from sqlalchemy.ext.asyncio import AsyncSession, create_async_engine, async_sessionmaker
+
+from .config import settings
+
+# ── PostgreSQL ──────────────────────────────────
+engine = create_async_engine(settings.database_url, pool_size=10, max_overflow=20)
+AsyncSessionLocal = async_sessionmaker(engine, expire_on_commit=False)
+
+
+async def get_db() -> AsyncGenerator[AsyncSession, None]:
+    async with AsyncSessionLocal() as session:
+        try:
+            yield session
+            await session.commit()
+        except Exception:
+            await session.rollback()
+            raise
+
+
+# ── Milvus ──────────────────────────────────────
+def get_milvus_collection(name: str) -> Collection:
+    connections.connect(host=settings.milvus_host, port=settings.milvus_port)
+    return Collection(name)
+
+
+# ── Neo4j ───────────────────────────────────────
+_neo4j_driver = None
+
+
+def get_neo4j():
+    global _neo4j_driver
+    if _neo4j_driver is None:
+        _neo4j_driver = AsyncGraphDatabase.driver(
+            settings.neo4j_uri,
+            auth=(settings.neo4j_user, settings.neo4j_password),
+        )
+    return _neo4j_driver
+
+
+# ── HTTP 客户端（复用连接池）────────────────────
+_http_client = None
+
+
+def get_http_client() -> httpx.AsyncClient:
+    global _http_client
+    if _http_client is None:
+        _http_client = httpx.AsyncClient(timeout=120.0)
+    return _http_client
--- a/services/compliance-backend/app/core/llm.py
+++ b/services/compliance-backend/app/core/llm.py
@@ -0,0 +1,56 @@
+from langchain_openai import ChatOpenAI
+from tenacity import retry, stop_after_attempt, wait_exponential
+from .config import settings
+
+
+def get_llm(temperature: float = 0.1) -> ChatOpenAI:
+    """获取 LLM 客户端（DeepSeek 或 Qwen，均兼容 OpenAI API）"""
+    if settings.llm_provider == "deepseek":
+        return ChatOpenAI(
+            model=settings.deepseek_model,
+            api_key=settings.deepseek_api_key,
+            base_url="https://api.deepseek.com/v1",
+            temperature=temperature,
+            max_retries=3,
+            timeout=120,
+        )
+    elif settings.llm_provider == "qwen":
+        return ChatOpenAI(
+            model=settings.qwen_model,
+            api_key=settings.dashscope_api_key,
+            base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
+            temperature=temperature,
+            max_retries=3,
+            timeout=120,
+        )
+    raise ValueError(f"不支持的 LLM 提供商：{settings.llm_provider}")
+
+
+RAG_SYSTEM_PROMPT = """你是一位专业的汽车行业合规专家，具备深厚的法规知识（GB标准、UN-ECE、ISO 45001、IATF 16949等）。
+
+回答规则：
+1. 仅基于提供的参考文献回答，不添加不在文献中的信息
+2. 每个关键陈述必须标注来源（格式：[来源：文件名，第X页]）
+3. 如果参考文献不足以回答问题，明确说明
+4. 使用专业但清晰的语言，适合工程师和法务人员阅读
+5. 对于数值要求（如绝缘电阻值、时间限制等），精确引用原文"""
+
+
+COMPLIANCE_CHECK_PROMPT = """你是一位专业的汽车合规审查专家。
+
+请对以下内容进行合规性评估：
+
+【待审查内容】
+{content}
+
+【相关法规要求】
+{regulations}
+
+请按以下格式输出：
+1. 整体风险等级：[low/medium/high/critical]
+2. 风险分数：[0-100]
+3. 发现的合规问题（逐条列出）：
+   - 问题描述
+   - 违反的具体法规条款
+   - 严重程度
+4. 整改建议（具体可操作）"""
--- a/services/compliance-backend/app/main.py
+++ b/services/compliance-backend/app/main.py
@@ -0,0 +1,84 @@
+import logging
+import time
+
+import structlog
+from fastapi import FastAPI, Request
+from fastapi.middleware.cors import CORSMiddleware
+from prometheus_fastapi_instrumentator import Instrumentator
+
+from .api import kb, compliance, regulation
+from .core.config import settings
+
+# 结构化日志配置
+structlog.configure(
+    wrapper_class=structlog.make_filtering_bound_logger(
+        getattr(logging, settings.log_level.upper(), logging.INFO)
+    )
+)
+logger = structlog.get_logger()
+
+app = FastAPI(
+    title="AI合规智能中枢 API",
+    description="面向车企与工厂的全链路合规智能平台",
+    version="0.1.0",
+    docs_url="/docs",
+    redoc_url="/redoc",
+)
+
+# CORS（开发环境）
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"] if settings.app_env == "development" else [],
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+
+# Prometheus 指标
+Instrumentator().instrument(app).expose(app)
+
+# 注册路由
+app.include_router(kb.router)
+app.include_router(compliance.router)
+app.include_router(regulation.router)
+
+
+@app.middleware("http")
+async def log_requests(request: Request, call_next):
+    start = time.time()
+    response = await call_next(request)
+    duration_ms = int((time.time() - start) * 1000)
+    logger.info(
+        "request",
+        method=request.method,
+        path=request.url.path,
+        status=response.status_code,
+        duration_ms=duration_ms,
+    )
+    return response
+
+
+@app.get("/health")
+async def health():
+    """健康检查（含依赖服务检测）"""
+    import httpx
+    from .core.config import settings
+
+    checks = {"status": "ok", "services": {}}
+
+    # 检查嵌入服务
+    try:
+        async with httpx.AsyncClient(timeout=5) as client:
+            r = await client.get(f"{settings.embedding_service_url}/health")
+            checks["services"]["embedding"] = "ok" if r.status_code == 200 else "degraded"
+    except Exception:
+        checks["services"]["embedding"] = "unavailable"
+
+    # 检查 MCP Server
+    try:
+        async with httpx.AsyncClient(timeout=5) as client:
+            r = await client.get(f"{settings.mcp_server_url}/health")
+            checks["services"]["mcp"] = "ok" if r.status_code == 200 else "degraded"
+    except Exception:
+        checks["services"]["mcp"] = "unavailable"
+
+    return checks
--- a/services/compliance-backend/app/models/init.py
+++ b/services/compliance-backend/app/models/init.py
--- a/services/compliance-backend/app/models/db.py
+++ b/services/compliance-backend/app/models/db.py
@@ -0,0 +1,113 @@
+import uuid
+from datetime import datetime
+
+from sqlalchemy import Column, String, Integer, BigInteger, Boolean, Text, ARRAY, Numeric
+from sqlalchemy import DateTime, ForeignKey, func
+from sqlalchemy.dialects.postgresql import UUID, JSONB, INET
+from sqlalchemy.orm import DeclarativeBase, relationship
+
+
+class Base(DeclarativeBase):
+    pass
+
+
+class Workspace(Base):
+    __tablename__ = "workspaces"
+
+    id = Column(UUID(as_uuid=True), primary_key=True, default=uuid.uuid4)
+    name = Column(String(255), nullable=False)
+    description = Column(Text)
+    domain = Column(String(100))
+    created_by = Column(String(255))
+    created_at = Column(DateTime(timezone=True), server_default=func.now())
+    updated_at = Column(DateTime(timezone=True), server_default=func.now(), onupdate=func.now())
+
+    files = relationship("File", back_populates="workspace")
+
+
+class File(Base):
+    __tablename__ = "files"
+
+    id = Column(UUID(as_uuid=True), primary_key=True, default=uuid.uuid4)
+    workspace_id = Column(UUID(as_uuid=True), ForeignKey("workspaces.id", ondelete="CASCADE"))
+    filename = Column(String(500), nullable=False)
+    original_name = Column(String(500), nullable=False)
+    file_type = Column(String(50))
+    file_size = Column(BigInteger)
+    storage_path = Column(Text)
+    parsed_path = Column(Text)
+    status = Column(String(50), default="uploaded")
+    error_msg = Column(Text)
+    metadata = Column(JSONB, default={})
+    created_at = Column(DateTime(timezone=True), server_default=func.now())
+    updated_at = Column(DateTime(timezone=True), server_default=func.now(), onupdate=func.now())
+
+    workspace = relationship("Workspace", back_populates="files")
+    tasks = relationship("Task", back_populates="file")
+
+
+class Task(Base):
+    __tablename__ = "tasks"
+
+    id = Column(UUID(as_uuid=True), primary_key=True, default=uuid.uuid4)
+    task_type = Column(String(100), nullable=False)
+    status = Column(String(50), default="pending")
+    payload = Column(JSONB, default={})
+    result = Column(JSONB)
+    error_msg = Column(Text)
+    progress = Column(Integer, default=0)
+    file_id = Column(UUID(as_uuid=True), ForeignKey("files.id"))
+    celery_task_id = Column(String(255))
+    created_at = Column(DateTime(timezone=True), server_default=func.now())
+    updated_at = Column(DateTime(timezone=True), server_default=func.now(), onupdate=func.now())
+    completed_at = Column(DateTime(timezone=True))
+
+    file = relationship("File", back_populates="tasks")
+
+
+class ComplianceReport(Base):
+    __tablename__ = "compliance_reports"
+
+    id = Column(UUID(as_uuid=True), primary_key=True, default=uuid.uuid4)
+    file_id = Column(UUID(as_uuid=True), ForeignKey("files.id"))
+    regulation_domains = Column(ARRAY(Text))
+    overall_risk_level = Column(String(20))
+    risk_score = Column(Numeric(5, 2))
+    findings = Column(JSONB, default=[])
+    recommendations = Column(JSONB, default=[])
+    report_markdown = Column(Text)
+    llm_model = Column(String(100))
+    created_at = Column(DateTime(timezone=True), server_default=func.now())
+
+
+class RegulationSource(Base):
+    __tablename__ = "regulation_sources"
+
+    id = Column(UUID(as_uuid=True), primary_key=True, default=uuid.uuid4)
+    name = Column(String(255), nullable=False)
+    url = Column(Text, nullable=False)
+    source_type = Column(String(50), default="webpage")
+    domain = Column(String(100))
+    fetch_interval = Column(Integer, default=86400)
+    is_active = Column(Boolean, default=True)
+    last_fetched_at = Column(DateTime(timezone=True))
+    last_hash = Column(String(64))
+    fetch_config = Column(JSONB, default={})
+    created_at = Column(DateTime(timezone=True), server_default=func.now())
+
+
+class RegulationUpdate(Base):
+    __tablename__ = "regulation_updates"
+
+    id = Column(UUID(as_uuid=True), primary_key=True, default=uuid.uuid4)
+    source_id = Column(UUID(as_uuid=True), ForeignKey("regulation_sources.id"))
+    title = Column(String(500))
+    url = Column(Text)
+    change_type = Column(String(50))
+    summary = Column(Text)
+    raw_content = Column(Text)
+    diff_content = Column(Text)
+    is_notified = Column(Boolean, default=False)
+    importance = Column(String(20), default="normal")
+    fetched_at = Column(DateTime(timezone=True), server_default=func.now())
+    published_at = Column(DateTime(timezone=True))
--- a/services/compliance-backend/app/services/init.py
+++ b/services/compliance-backend/app/services/init.py
--- a/services/compliance-backend/app/services/embed.py
+++ b/services/compliance-backend/app/services/embed.py
@@ -0,0 +1,21 @@
+import httpx
+from tenacity import retry, stop_after_attempt, wait_exponential
+from ..core.config import settings
+
+
+@retry(stop=stop_after_attempt(3), wait=wait_exponential(min=1, max=10))
+async def embed_texts(texts: list[str], batch_size: int = 12) -> dict:
+    """调用嵌入服务，返回 dense 和 sparse 向量"""
+    async with httpx.AsyncClient(timeout=120.0) as client:
+        resp = await client.post(
+            f"{settings.embedding_service_url}/embed",
+            json={"texts": texts, "batch_size": batch_size},
+        )
+        resp.raise_for_status()
+        return resp.json()
+
+
+async def embed_single(text: str) -> list[float]:
+    """嵌入单条文本，返回 dense 向量"""
+    result = await embed_texts([text], batch_size=1)
+    return result["dense"][0]
--- a/services/compliance-backend/app/services/graph.py
+++ b/services/compliance-backend/app/services/graph.py
@@ -0,0 +1,65 @@
+import logging
+from ..core.deps import get_neo4j
+
+logger = logging.getLogger(__name__)
+
+
+async def create_regulation_node(regulation: dict) -> str:
+    """在 Neo4j 中创建法规节点"""
+    driver = get_neo4j()
+    async with driver.session() as session:
+        result = await session.run(
+            """
+            MERGE (r:Regulation {id: $id})
+            SET r.title = $title,
+                r.domain = $domain,
+                r.version = $version,
+                r.code = $code
+            RETURN r.id as id
+            """,
+            id=regulation.get("id"),
+            title=regulation.get("title", ""),
+            domain=regulation.get("domain", ""),
+            version=regulation.get("version", ""),
+            code=regulation.get("code", ""),
+        )
+        record = await result.single()
+        return record["id"] if record else None
+
+
+async def create_clause_node(clause: dict, regulation_id: str) -> str:
+    """创建条款节点并关联到法规"""
+    driver = get_neo4j()
+    async with driver.session() as session:
+        result = await session.run(
+            """
+            MATCH (r:Regulation {id: $reg_id})
+            MERGE (c:Clause {id: $id})
+            SET c.number = $number,
+                c.content = $content
+            MERGE (r)-[:CONTAINS]->(c)
+            RETURN c.id as id
+            """,
+            reg_id=regulation_id,
+            id=clause.get("id"),
+            number=clause.get("number", ""),
+            content=clause.get("content", "")[:2000],
+        )
+        record = await result.single()
+        return record["id"] if record else None
+
+
+async def search_related_regulations(domain: str, limit: int = 10) -> list[dict]:
+    """查询指定域下的所有法规"""
+    driver = get_neo4j()
+    async with driver.session() as session:
+        result = await session.run(
+            """
+            MATCH (r:Regulation {domain: $domain})
+            RETURN r.id as id, r.title as title, r.code as code, r.version as version
+            LIMIT $limit
+            """,
+            domain=domain,
+            limit=limit,
+        )
+        return [dict(record) async for record in result]
--- a/services/compliance-backend/app/services/monitor.py
+++ b/services/compliance-backend/app/services/monitor.py
@@ -0,0 +1,59 @@
+import hashlib
+import logging
+import httpx
+from bs4 import BeautifulSoup
+from datetime import datetime, timezone
+
+logger = logging.getLogger(__name__)
+
+
+async def fetch_url(url: str, timeout: int = 30) -> str | None:
+    """抓取 URL 内容"""
+    try:
+        async with httpx.AsyncClient(
+            timeout=timeout,
+            headers={"User-Agent": "Mozilla/5.0 (compliance-monitor/1.0)"},
+            follow_redirects=True,
+        ) as client:
+            resp = await client.get(url)
+            resp.raise_for_status()
+            return resp.text
+    except Exception as e:
+        logger.warning(f"抓取 {url} 失败：{e}")
+        return None
+
+
+def extract_text(html: str) -> str:
+    """提取 HTML 中的主要文本内容"""
+    soup = BeautifulSoup(html, "html.parser")
+    for tag in soup(["script", "style", "nav", "footer", "header"]):
+        tag.decompose()
+    return soup.get_text(separator="\n", strip=True)
+
+
+def compute_hash(content: str) -> str:
+    return hashlib.md5(content.encode("utf-8")).hexdigest()
+
+
+async def check_source_for_updates(source: dict) -> dict | None:
+    """
+    检查监控源是否有更新。
+    返回 None 表示无变化，返回 dict 表示有新内容。
+    """
+    html = await fetch_url(source["url"])
+    if not html:
+        return None
+
+    text = extract_text(html)
+    new_hash = compute_hash(text)
+
+    if source.get("last_hash") == new_hash:
+        logger.info(f"监控源 {source['name']} 无变化")
+        return None
+
+    return {
+        "source_id": source["id"],
+        "raw_content": text[:50000],  # 最多保存 50KB
+        "new_hash": new_hash,
+        "fetched_at": datetime.now(timezone.utc).isoformat(),
+    }
--- a/services/compliance-backend/app/services/parse.py
+++ b/services/compliance-backend/app/services/parse.py
@@ -0,0 +1,43 @@
+import httpx
+from tenacity import retry, stop_after_attempt, wait_exponential
+from ..core.config import settings
+
+
+@retry(stop=stop_after_attempt(3), wait=wait_exponential(min=2, max=30))
+async def parse_document(file_content: bytes, filename: str) -> dict:
+    """调用 mcp-server 解析文档，返回 Markdown"""
+    async with httpx.AsyncClient(timeout=300.0) as client:
+        resp = await client.post(
+            f"{settings.mcp_server_url}/parse-document",
+            files={"file": (filename, file_content, "application/octet-stream")},
+        )
+        resp.raise_for_status()
+        return resp.json()
+
+
+def chunk_text(text: str, chunk_size: int = 512, overlap: int = 64) -> list[dict]:
+    """将文本按 token 数分块（简单版，按字符数估算）"""
+    chars_per_chunk = chunk_size * 2  # 中文约2字符/token
+    chars_overlap = overlap * 2
+    chunks = []
+    start = 0
+    idx = 0
+
+    while start < len(text):
+        end = min(start + chars_per_chunk, len(text))
+        # 尝试在段落边界截断
+        if end < len(text):
+            for sep in ["\n\n", "\n", "。", ".", " "]:
+                pos = text.rfind(sep, start, end)
+                if pos > start + chars_per_chunk // 2:
+                    end = pos + len(sep)
+                    break
+
+        chunk_text = text[start:end].strip()
+        if chunk_text:
+            chunks.append({"idx": idx, "content": chunk_text, "start": start, "end": end})
+            idx += 1
+
+        start = max(start + 1, end - chars_overlap)
+
+    return chunks
--- a/services/compliance-backend/app/services/rag.py
+++ b/services/compliance-backend/app/services/rag.py
@@ -0,0 +1,92 @@
+import logging
+from langchain.schema import HumanMessage, SystemMessage
+from pymilvus import connections, Collection
+
+from .embed import embed_single, embed_texts
+from ..core.llm import get_llm, RAG_SYSTEM_PROMPT
+from ..core.config import settings
+
+logger = logging.getLogger(__name__)
+
+
+def _get_collection(name: str) -> Collection:
+    connections.connect(host=settings.milvus_host, port=settings.milvus_port)
+    return Collection(name)
+
+
+async def hybrid_search(
+    query: str,
+    collection_name: str = "regulation_chunks",
+    top_k: int = 10,
+    workspace_id: str | None = None,
+) -> list[dict]:
+    """混合检索：BGE-M3 向量检索（调研版简化，省去 BM25 融合）"""
+    query_vec = await embed_single(query)
+
+    col = _get_collection(collection_name)
+
+    expr = f'workspace_id == "{workspace_id}"' if workspace_id else None
+    results = col.search(
+        data=[query_vec],
+        anns_field="dense_vec",
+        param={"metric_type": "COSINE", "params": {"ef": 100}},
+        limit=top_k,
+        expr=expr,
+        output_fields=["content", "metadata", "file_id", "chunk_idx"],
+    )
+
+    chunks = []
+    for hits in results:
+        for hit in hits:
+            chunks.append({
+                "id": hit.id,
+                "content": hit.entity.get("content", ""),
+                "score": float(hit.score),
+                "file_id": hit.entity.get("file_id", ""),
+                "chunk_idx": hit.entity.get("chunk_idx", 0),
+                "metadata": hit.entity.get("metadata", {}),
+            })
+    return chunks
+
+
+async def rerank(query: str, chunks: list[dict], top_k: int = 5) -> list[dict]:
+    """简化版精排（调研版按 score 直接排序，生产可换 Cross-Encoder）"""
+    return sorted(chunks, key=lambda x: x["score"], reverse=True)[:top_k]
+
+
+async def generate_answer(query: str, chunks: list[dict]) -> dict:
+    """基于检索结果，调用 LLM 生成引文锚定的答案"""
+    if not chunks:
+        return {"answer": "未找到相关法规内容，请上传相关法规文档后重试。", "sources": []}
+
+    # 构建 RAG 上下文
+    context_parts = []
+    for i, chunk in enumerate(chunks, 1):
+        meta = chunk.get("metadata", {})
+        source_info = f"[来源 {i}：{meta.get('filename', '未知文件')}，第 {meta.get('page', '?')} 页]"
+        context_parts.append(f"{source_info}\n{chunk['content']}")
+
+    context = "\n\n---\n\n".join(context_parts)
+    user_prompt = f"参考文献：\n\n{context}\n\n问题：{query}\n\n请基于以上参考文献回答，并标注来源。"
+
+    llm = get_llm(temperature=0.1)
+    messages = [SystemMessage(content=RAG_SYSTEM_PROMPT), HumanMessage(content=user_prompt)]
+
+    try:
+        response = await llm.ainvoke(messages)
+        answer = response.content
+    except Exception as e:
+        logger.error(f"LLM 生成失败：{e}")
+        answer = f"LLM 生成失败：{e}。检索到的相关内容：{chunks[0]['content'][:200]}..."
+
+    sources = [
+        {
+            "content": c["content"][:300],
+            "file_id": c.get("file_id", ""),
+            "chunk_idx": c.get("chunk_idx", 0),
+            "score": c.get("score", 0),
+            "metadata": c.get("metadata", {}),
+        }
+        for c in chunks
+    ]
+    return {"answer": answer, "sources": sources}
--- a/services/compliance-backend/app/worker.py
+++ b/services/compliance-backend/app/worker.py
@@ -0,0 +1,212 @@
+import uuid
+import logging
+from datetime import datetime, timezone
+from celery import Celery
+from celery.schedules import crontab
+
+from .core.config import settings
+
+logger = logging.getLogger(__name__)
+
+# Celery 配置
+celery_app = Celery(
+    "compliance",
+    broker=settings.redis_url,
+    backend=settings.redis_url,
+)
+celery_app.conf.update(
+    task_serializer="json",
+    accept_content=["json"],
+    result_serializer="json",
+    timezone="Asia/Shanghai",
+    task_routes={
+        "app.worker.process_file_task": {"queue": "parse"},
+        "app.worker.fetch_regulation_source": {"queue": "monitor"},
+        "app.worker.send_notifications": {"queue": "push"},
+    },
+    beat_schedule={
+        "daily-regulation-monitor": {
+            "task": "app.worker.run_all_monitors",
+            "schedule": crontab(hour=2, minute=0),
+        },
+    },
+)
+
+# ── 文件处理任务（解析 + 向量化）────────────────
+
+@celery_app.task(name="app.worker.process_file_task", bind=True, max_retries=3)
+def process_file_task(self, file_id: str, task_id: str, workspace_id: str):
+    """解析文档并向量化存入 Milvus"""
+    import asyncio
+    asyncio.run(_process_file(file_id, task_id, workspace_id))
+
+
+async def _process_file(file_id: str, task_id: str, workspace_id: str):
+    from pathlib import Path
+    from sqlalchemy import select
+    from .core.deps import AsyncSessionLocal, get_milvus_collection
+    from .models.db import File, Task
+    from .services.parse import parse_document, chunk_text
+    from .services.embed import embed_texts
+
+    async with AsyncSessionLocal() as db:
+        # 查找文件记录
+        result = await db.execute(select(File).where(File.id == uuid.UUID(file_id)))
+        file_record = result.scalar_one_or_none()
+        if not file_record:
+            logger.error(f"文件 {file_id} 不存在")
+            return
+
+        task_result = await db.execute(select(Task).where(Task.id == uuid.UUID(task_id)))
+        task = task_result.scalar_one_or_none()
+
+        try:
+            # 更新状态
+            file_record.status = "parsing"
+            if task:
+                task.status = "running"
+                task.progress = 10
+            await db.commit()
+
+            # Step 1：解析文档
+            file_content = Path(file_record.storage_path).read_bytes()
+            parse_result = await parse_document(file_content, file_record.original_name)
+            markdown = parse_result.get("markdown", "")
+
+            if not markdown.strip():
+                raise ValueError("文档解析结果为空")
+
+            file_record.status = "parsed"
+            if task:
+                task.progress = 40
+            await db.commit()
+
+            # Step 2：分块
+            chunks = chunk_text(markdown, chunk_size=512, overlap=64)
+            logger.info(f"文件 {file_id} 分割为 {len(chunks)} 块")
+
+            # Step 3：向量化（分批处理）
+            batch_size = 16
+            col = get_milvus_collection("regulation_chunks")
+
+            for i in range(0, len(chunks), batch_size):
+                batch = chunks[i:i + batch_size]
+                texts = [c["content"] for c in batch]
+                embed_result = await embed_texts(texts, batch_size=batch_size)
+                dense_vecs = embed_result["dense"]
+
+                entities = [
+                    [f"{file_id}_{c['idx']}" for c in batch],
+                    [file_id] * len(batch),
+                    [workspace_id] * len(batch),
+                    [c["idx"] for c in batch],
+                    [c["content"] for c in batch],
+                    dense_vecs,
+                    [{"filename": file_record.original_name, "page": c.get("page", 0)} for c in batch],
+                ]
+                col.insert(entities)
+
+                if task:
+                    task.progress = 40 + int(60 * (i + batch_size) / len(chunks))
+                    await db.commit()
+
+            col.flush()
+
+            # 完成
+            file_record.status = "vectorized"
+            if task:
+                task.status = "completed"
+                task.progress = 100
+                task.completed_at = datetime.now(timezone.utc)
+            await db.commit()
+            logger.info(f"文件 {file_id} 处理完成")
+
+        except Exception as e:
+            logger.error(f"文件 {file_id} 处理失败：{e}")
+            file_record.status = "failed"
+            file_record.error_msg = str(e)
+            if task:
+                task.status = "failed"
+                task.error_msg = str(e)
+            await db.commit()
+            raise
+
+
+# ── 法规监控任务 ────────────────────────────────
+
+@celery_app.task(name="app.worker.run_all_monitors")
+def run_all_monitors():
+    """定时触发所有活跃监控源"""
+    import asyncio
+    asyncio.run(_run_all_monitors())
+
+
+async def _run_all_monitors():
+    from sqlalchemy import select
+    from .core.deps import AsyncSessionLocal
+    from .models.db import RegulationSource
+
+    async with AsyncSessionLocal() as db:
+        result = await db.execute(
+            select(RegulationSource).where(RegulationSource.is_active == True)
+        )
+        sources = result.scalars().all()
+        for source in sources:
+            fetch_regulation_source.delay(str(source.id))
+            logger.info(f"触发监控源抓取：{source.name}")
+
+
+@celery_app.task(name="app.worker.fetch_regulation_source", bind=True, max_retries=2)
+def fetch_regulation_source(self, source_id: str):
+    import asyncio
+    asyncio.run(_fetch_source(source_id))
+
+
+async def _fetch_source(source_id: str):
+    import hashlib
+    from sqlalchemy import select
+    from .core.deps import AsyncSessionLocal
+    from .models.db import RegulationSource, RegulationUpdate
+    from .services.monitor import check_source_for_updates
+
+    async with AsyncSessionLocal() as db:
+        result = await db.execute(
+            select(RegulationSource).where(RegulationSource.id == uuid.UUID(source_id))
+        )
+        source = result.scalar_one_or_none()
+        if not source:
+            return
+
+        source_dict = {
+            "id": str(source.id),
+            "name": source.name,
+            "url": source.url,
+            "last_hash": source.last_hash,
+        }
+        update_data = await check_source_for_updates(source_dict)
+
+        if update_data:
+            logger.info(f"检测到变更：{source.name}")
+            source.last_hash = update_data["new_hash"]
+            source.last_fetched_at = datetime.now(timezone.utc)
+
+            update = RegulationUpdate(
+                source_id=uuid.UUID(source_id),
+                change_type="updated",
+                raw_content=update_data["raw_content"][:50000],
+                importance="normal",
+            )
+            db.add(update)
+            await db.commit()
+        else:
+            source.last_fetched_at = datetime.now(timezone.utc)
+            await db.commit()
+
+
+@celery_app.task(name="app.worker.send_notifications")
+def send_notifications():
+    logger.info("推送通知任务执行（待实现）")
+
+
+# 导出供 FastAPI 使用
+worker = celery_app
--- a/services/compliance-backend/pyproject.toml
+++ b/services/compliance-backend/pyproject.toml
@@ -0,0 +1,29 @@
+[project]
+name = "compliance-backend"
+version = "0.1.0"
+description = "AI合规智能中枢 — 业务后端"
+requires-python = ">=3.12"
+dependencies = [
+    "fastapi>=0.115",
+    "uvicorn[standard]>=0.30",
+    "pydantic>=2.7",
+    "pydantic-settings>=2.4",
+    "sqlalchemy[asyncio]>=2.0",
+    "asyncpg>=0.29",
+    "redis[asyncio]>=5.0",
+    "celery[redis]>=5.4",
+    "pymilvus>=2.4",
+    "neo4j>=5.20",
+    "langchain>=0.3",
+    "langchain-openai>=0.2",
+    "langchain-community>=0.3",
+    "llama-index-core>=0.11",
+    "httpx>=0.27",
+    "python-multipart>=0.0.9",
+    "python-jose[cryptography]>=3.3",
+    "structlog>=24.0",
+    "prometheus-fastapi-instrumentator>=7.0",
+    "tenacity>=8.5",
+    "beautifulsoup4>=4.12",
+    "requests>=2.32",
+]
--- a/services/embedding/Dockerfile
+++ b/services/embedding/Dockerfile
@@ -0,0 +1,24 @@
+FROM python:3.12-slim
+
+WORKDIR /app
+
+# 系统依赖
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    curl \
+    && rm -rf /var/lib/apt/lists/*
+
+# Python 依赖（先装，利用构建缓存）
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt \
+    --index-url https://pypi.tuna.tsinghua.edu.cn/simple \
+    --trusted-host pypi.tuna.tsinghua.edu.cn
+
+COPY main.py .
+
+# 健康检查
+HEALTHCHECK --interval=30s --timeout=10s --start-period=120s --retries=3 \
+    CMD curl -f http://localhost:8010/health || exit 1
+
+EXPOSE 8010
+
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8010", "--workers", "1"]
--- a/services/embedding/main.py
+++ b/services/embedding/main.py
@@ -0,0 +1,87 @@
+import os
+import logging
+from contextlib import asynccontextmanager
+from typing import Optional
+
+from fastapi import FastAPI, HTTPException
+from pydantic import BaseModel, Field
+
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+
+MODEL_NAME = os.getenv("MODEL_NAME", "BAAI/bge-m3")
+MODEL_CACHE = os.getenv("HF_HOME", "/app/models")
+DEVICE = os.getenv("DEVICE", "cpu")
+MAX_BATCH = int(os.getenv("MAX_BATCH_SIZE", "16"))
+
+# 设置 HuggingFace 镜像
+if os.getenv("HF_ENDPOINT"):
+    os.environ["HF_ENDPOINT"] = os.getenv("HF_ENDPOINT")
+
+model = None
+
+
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    global model
+    logger.info(f"加载模型 {MODEL_NAME}，设备：{DEVICE}")
+    try:
+        from FlagEmbedding import BGEM3FlagModel
+        model = BGEM3FlagModel(
+            MODEL_NAME,
+            use_fp16=(DEVICE != "cpu"),
+            cache_dir=MODEL_CACHE,
+        )
+        logger.info("BGE-M3 模型加载完成")
+    except Exception as e:
+        logger.error(f"模型加载失败：{e}")
+        raise
+    yield
+    logger.info("服务关闭")
+
+
+app = FastAPI(title="BGE-M3 嵌入服务", lifespan=lifespan)
+
+
+class EmbedRequest(BaseModel):
+    texts: list[str] = Field(..., min_length=1, max_length=100)
+    batch_size: int = Field(default=12, ge=1, le=MAX_BATCH)
+    return_dense: bool = True
+    return_sparse: bool = True
+
+
+class EmbedResponse(BaseModel):
+    dense: Optional[list[list[float]]] = None
+    sparse: Optional[list[dict]] = None
+    model: str
+    count: int
+
+
+@app.post("/embed", response_model=EmbedResponse)
+def embed(req: EmbedRequest) -> EmbedResponse:
+    if model is None:
+        raise HTTPException(status_code=503, detail="模型未就绪")
+    if len(req.texts) > 100:
+        raise HTTPException(status_code=400, detail="单次最多 100 条文本")
+
+    try:
+        output = model.encode(
+            req.texts,
+            batch_size=req.batch_size,
+            return_dense=req.return_dense,
+            return_sparse=req.return_sparse,
+        )
+        return EmbedResponse(
+            dense=output["dense_vecs"].tolist() if req.return_dense else None,
+            sparse=[dict(w) for w in output["lexical_weights"]] if req.return_sparse else None,
+            model=MODEL_NAME,
+            count=len(req.texts),
+        )
+    except Exception as e:
+        logger.error(f"嵌入生成失败：{e}")
+        raise HTTPException(status_code=500, detail=str(e))
+
+
+@app.get("/health")
+def health():
+    return {"status": "ok", "model": MODEL_NAME, "device": DEVICE, "ready": model is not None}
--- a/services/embedding/requirements.txt
+++ b/services/embedding/requirements.txt
@@ -0,0 +1,10 @@
+fastapi>=0.115
+uvicorn[standard]>=0.30
+pydantic>=2.7
+FlagEmbedding>=1.3
+# CPU 版本 PyTorch（减小镜像体积）
+torch>=2.3.0 --index-url https://download.pytorch.org/whl/cpu
+transformers>=4.44
+sentence-transformers>=3.0
+huggingface-hub>=0.24
+numpy>=1.26
--- a/services/mcp-server/Dockerfile
+++ b/services/mcp-server/Dockerfile
@@ -0,0 +1,38 @@
+FROM python:3.12-slim
+
+WORKDIR /app
+
+# 系统依赖（MinerU 需要 libGL）
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    curl \
+    libgl1-mesa-glx \
+    libglib2.0-0 \
+    libsm6 \
+    libxrender1 \
+    libxext6 \
+    && rm -rf /var/lib/apt/lists/*
+
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt \
+    --index-url https://pypi.tuna.tsinghua.edu.cn/simple \
+    --trusted-host pypi.tuna.tsinghua.edu.cn
+
+# 预下载 MinerU 模型（构建时执行，加速启动）
+RUN python -c "
+import os
+os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
+try:
+    from magic_pdf.model.doc_analyze_by_custom_model import ModelSingleton
+    print('MinerU 模型下载完成')
+except Exception as e:
+    print(f'模型下载跳过（将在运行时下载）: {e}')
+" || true
+
+COPY main.py .
+
+HEALTHCHECK --interval=30s --timeout=10s --start-period=120s --retries=3 \
+    CMD curl -f http://localhost:8011/health || exit 1
+
+EXPOSE 8011
+
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8011", "--workers", "1"]
--- a/services/mcp-server/main.py
+++ b/services/mcp-server/main.py
@@ -0,0 +1,136 @@
+import os
+import tempfile
+import logging
+from pathlib import Path
+
+from fastapi import FastAPI, UploadFile, File, HTTPException
+from pydantic import BaseModel
+
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+
+DEVICE = os.getenv("DEVICE", "cpu")
+UPLOAD_DIR = Path(os.getenv("UPLOAD_DIR", "/app/uploads"))
+PARSED_DIR = Path(os.getenv("PARSED_DIR", "/app/parsed"))
+
+UPLOAD_DIR.mkdir(parents=True, exist_ok=True)
+PARSED_DIR.mkdir(parents=True, exist_ok=True)
+
+app = FastAPI(title="MinerU 文档解析服务")
+
+SUPPORTED_TYPES = {
+    "application/pdf": "pdf",
+    "application/vnd.openxmlformats-officedocument.wordprocessingml.document": "docx",
+    "application/msword": "doc",
+    "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet": "xlsx",
+}
+
+
+def parse_pdf_mineru(pdf_path: str) -> str:
+    """使用 MinerU 解析 PDF"""
+    try:
+        from magic_pdf.data.data_reader_writer import FileBasedDataWriter
+        from magic_pdf.pipe.UnicodeFormulaPDFPipe import UnicodeFormulaPDFPipe
+
+        with tempfile.TemporaryDirectory() as tmpdir:
+            writer = FileBasedDataWriter(tmpdir)
+            pipe = UnicodeFormulaPDFPipe(pdf_path, writer)
+            pipe.pipe_classify()
+            pipe.pipe_analyze()
+            pipe.pipe_parse()
+            md_content = pipe.pipe_mk_uni_format(tmpdir, drop_mode="none")
+        return md_content or ""
+    except Exception as e:
+        logger.warning(f"MinerU 解析失败，降级到 PyMuPDF：{e}")
+        return parse_pdf_pymupdf(pdf_path)
+
+
+def parse_pdf_pymupdf(pdf_path: str) -> str:
+    """降级：使用 PyMuPDF 提取文本"""
+    try:
+        import fitz  # PyMuPDF
+        doc = fitz.open(pdf_path)
+        pages = []
+        for i, page in enumerate(doc):
+            text = page.get_text()
+            if text.strip():
+                pages.append(f"## 第 {i+1} 页\n\n{text}")
+        return "\n\n".join(pages)
+    except Exception as e:
+        return f"[解析失败：{e}]"
+
+
+def parse_docx(file_path: str) -> str:
+    """解析 Word 文档"""
+    try:
+        from docx import Document
+        doc = Document(file_path)
+        parts = []
+        for para in doc.paragraphs:
+            if para.text.strip():
+                style = para.style.name if para.style else ""
+                if "Heading" in style:
+                    level = style.replace("Heading ", "").strip()
+                    try:
+                        prefix = "#" * int(level)
+                    except ValueError:
+                        prefix = "##"
+                    parts.append(f"{prefix} {para.text}")
+                else:
+                    parts.append(para.text)
+        for table in doc.tables:
+            rows = []
+            for row in table.rows:
+                rows.append(" | ".join(cell.text.strip() for cell in row.cells))
+            if rows:
+                parts.append("\n".join(rows))
+        return "\n\n".join(parts)
+    except Exception as e:
+        return f"[Word 解析失败：{e}]"
+
+
+class ParseResponse(BaseModel):
+    filename: str
+    markdown: str
+    page_count: int
+    parser: str
+
+
+@app.post("/mineru-parse", response_model=ParseResponse)
+async def mineru_parse(file: UploadFile = File(...)) -> ParseResponse:
+    content = await file.read()
+    suffix = Path(file.filename or "doc.pdf").suffix.lower()
+
+    with tempfile.NamedTemporaryFile(suffix=suffix, delete=False) as tmp:
+        tmp.write(content)
+        tmp_path = tmp.name
+
+    try:
+        if suffix == ".pdf":
+            markdown = parse_pdf_mineru(tmp_path)
+            parser = "mineru"
+        elif suffix in (".docx", ".doc"):
+            markdown = parse_docx(tmp_path)
+            parser = "python-docx"
+        else:
+            raise HTTPException(status_code=415, detail=f"不支持的文件类型：{suffix}")
+
+        page_count = markdown.count("## 第") if suffix == ".pdf" else markdown.count("\n\n")
+        return ParseResponse(
+            filename=file.filename or "unknown",
+            markdown=markdown,
+            page_count=max(page_count, 1),
+            parser=parser,
+        )
+    finally:
+        os.unlink(tmp_path)
+
+
+@app.post("/parse-document", response_model=ParseResponse)
+async def parse_document(file: UploadFile = File(...)) -> ParseResponse:
+    return await mineru_parse(file)
+
+
+@app.get("/health")
+def health():
+    return {"status": "ok", "device": DEVICE}
--- a/services/mcp-server/requirements.txt
+++ b/services/mcp-server/requirements.txt
@@ -0,0 +1,11 @@
+fastapi>=0.115
+uvicorn[standard]>=0.30
+pydantic>=2.7
+python-multipart>=0.0.9
+httpx>=0.27
+# MinerU 文档解析
+mineru[pipeline]>=1.0
+# Word/Excel 降级解析
+python-docx>=1.1
+openpyxl>=3.1
+PyMuPDF>=1.24   # PDF 降级解析