Fix SSE route dependency and align architecture docs

This commit is contained in:
ash66
2026-05-18 16:32:42 +08:00
parent 86b9ac806a
commit 3f69cad404
149 changed files with 4786 additions and 5957 deletions

View File

@@ -6,10 +6,10 @@
本次实现的核心功能(最小可用版本):
- ✅ PDF/DOCX文档解析MinerU + PyMuPDF
-智能分块(章节级+条款级双粒度切割)
-BGE-M3嵌入Dense+Sparse双路向量
- ✅ Milvus向量数据库存储与混合检索
- ✅ PDF/DOC/DOCX 文档解析(阿里云文档智能
-基于阿里云 `vector_chunks` 的统一切片
-OpenAI 兼容 embedding`text-embedding-v3`1536维
- ✅ Milvus 向量数据库存储与 dense-only 检索
- ✅ FastAPI接口封装
## 项目结构
@@ -19,8 +19,10 @@ AIRegulation-DocAnalysis-Demo/
├── backend/
│ ├── app/
│ │ ├── api/ # FastAPI 接口层
│ │ ├── application/ # 用例编排层
│ │ ├── domain/ # 领域模型与稳定端口
│ │ ├── infrastructure/ # MinIO / Milvus / 阿里云 / embedding / session 适配
│ │ ├── config/ # 配置与日志
│ │ ├── services/ # 解析、分块、嵌入、存储、Agent
│ │ └── workers/
│ ├── requirements.txt
│ └── main.py
@@ -52,15 +54,7 @@ docker-compose up -d
docker-compose logs -f milvus
```
### 3. 运行验证脚本
```bash
python tests/verify_mvp.py
```
根级测试脚本会自动把 `backend/` 加入导入路径,并从 `app.*` 加载当前后端代码。
### 4. 启动API服务
### 3. 启动API服务
```bash
PYTHONPATH=backend uvicorn app.main:app --reload --port 8000
@@ -91,11 +85,11 @@ curl -X POST http://localhost:8000/api/v1/knowledge/search \
| 类别 | 技术 |
|------|------|
| 文档解析 | MinerU + PyMuPDF + python-docx |
| 分块策略 | 章节级+条款级双粒度切割 |
| 嵌入模型 | BGE-M31024维 Dense + Sparse |
| 文档解析 | 阿里云文档智能 + python-docx |
| 分块策略 | 阿里云 `vector_chunks` |
| 嵌入模型 | `text-embedding-v3`1536维 Dense |
| 向量数据库 | Milvus 2.4本地Docker部署 |
| 检索方式 | Dense+Sparse混合检索 + RRF融合 |
| 检索方式 | Dense-only 检索 |
| API框架 | FastAPI |
## 配置
@@ -107,9 +101,14 @@ curl -X POST http://localhost:8000/api/v1/knowledge/search \
MILVUS_HOST=localhost
MILVUS_PORT=19530
# 嵌入模型配置
EMBEDDING_MODEL=BAAI/bge-m3
EMBEDDING_DIM=1024
# 阿里云文档解析
ALIBABA_ACCESS_KEY_ID=your_aliyun_access_key_id
ALIBABA_ACCESS_KEY_SECRET=your_aliyun_access_key_secret
# embedding 配置
EMBEDDING_MODEL=text-embedding-v3
EMBEDDING_DIM=1536
EMBEDDING_API_KEY=your_embedding_api_key_here
# 分块配置
CHUNK_SIZE=512
@@ -117,7 +116,7 @@ CHUNK_SIZE=512
## 后续迭代不在本次MVP范围
- LLM摘要生成DeepSeek/Qwen API
- LLM摘要生成当前上传主链路默认不生成
- 文档上传UI界面
- 混合检索问答功能
- 法规变更监控与自动更新