Fix SSE route dependency and align architecture docs
This commit is contained in:
43
README.md
43
README.md
@@ -6,10 +6,10 @@
|
||||
|
||||
本次实现的核心功能(最小可用版本):
|
||||
|
||||
- ✅ PDF/DOCX文档解析(MinerU + PyMuPDF)
|
||||
- ✅ 智能分块(章节级+条款级双粒度切割)
|
||||
- ✅ BGE-M3嵌入(Dense+Sparse双路向量)
|
||||
- ✅ Milvus向量数据库存储与混合检索
|
||||
- ✅ PDF/DOC/DOCX 文档解析(阿里云文档智能)
|
||||
- ✅ 基于阿里云 `vector_chunks` 的统一切片
|
||||
- ✅ OpenAI 兼容 embedding(`text-embedding-v3`,1536维)
|
||||
- ✅ Milvus 向量数据库存储与 dense-only 检索
|
||||
- ✅ FastAPI接口封装
|
||||
|
||||
## 项目结构
|
||||
@@ -19,8 +19,10 @@ AIRegulation-DocAnalysis-Demo/
|
||||
├── backend/
|
||||
│ ├── app/
|
||||
│ │ ├── api/ # FastAPI 接口层
|
||||
│ │ ├── application/ # 用例编排层
|
||||
│ │ ├── domain/ # 领域模型与稳定端口
|
||||
│ │ ├── infrastructure/ # MinIO / Milvus / 阿里云 / embedding / session 适配
|
||||
│ │ ├── config/ # 配置与日志
|
||||
│ │ ├── services/ # 解析、分块、嵌入、存储、Agent
|
||||
│ │ └── workers/
|
||||
│ ├── requirements.txt
|
||||
│ └── main.py
|
||||
@@ -52,15 +54,7 @@ docker-compose up -d
|
||||
docker-compose logs -f milvus
|
||||
```
|
||||
|
||||
### 3. 运行验证脚本
|
||||
|
||||
```bash
|
||||
python tests/verify_mvp.py
|
||||
```
|
||||
|
||||
根级测试脚本会自动把 `backend/` 加入导入路径,并从 `app.*` 加载当前后端代码。
|
||||
|
||||
### 4. 启动API服务
|
||||
### 3. 启动API服务
|
||||
|
||||
```bash
|
||||
PYTHONPATH=backend uvicorn app.main:app --reload --port 8000
|
||||
@@ -91,11 +85,11 @@ curl -X POST http://localhost:8000/api/v1/knowledge/search \
|
||||
|
||||
| 类别 | 技术 |
|
||||
|------|------|
|
||||
| 文档解析 | MinerU + PyMuPDF + python-docx |
|
||||
| 分块策略 | 章节级+条款级双粒度切割 |
|
||||
| 嵌入模型 | BGE-M3(1024维 Dense + Sparse) |
|
||||
| 文档解析 | 阿里云文档智能 + python-docx |
|
||||
| 分块策略 | 阿里云 `vector_chunks` |
|
||||
| 嵌入模型 | `text-embedding-v3`(1536维 Dense) |
|
||||
| 向量数据库 | Milvus 2.4(本地Docker部署) |
|
||||
| 检索方式 | Dense+Sparse混合检索 + RRF融合 |
|
||||
| 检索方式 | Dense-only 检索 |
|
||||
| API框架 | FastAPI |
|
||||
|
||||
## 配置
|
||||
@@ -107,9 +101,14 @@ curl -X POST http://localhost:8000/api/v1/knowledge/search \
|
||||
MILVUS_HOST=localhost
|
||||
MILVUS_PORT=19530
|
||||
|
||||
# 嵌入模型配置
|
||||
EMBEDDING_MODEL=BAAI/bge-m3
|
||||
EMBEDDING_DIM=1024
|
||||
# 阿里云文档解析
|
||||
ALIBABA_ACCESS_KEY_ID=your_aliyun_access_key_id
|
||||
ALIBABA_ACCESS_KEY_SECRET=your_aliyun_access_key_secret
|
||||
|
||||
# embedding 配置
|
||||
EMBEDDING_MODEL=text-embedding-v3
|
||||
EMBEDDING_DIM=1536
|
||||
EMBEDDING_API_KEY=your_embedding_api_key_here
|
||||
|
||||
# 分块配置
|
||||
CHUNK_SIZE=512
|
||||
@@ -117,7 +116,7 @@ CHUNK_SIZE=512
|
||||
|
||||
## 后续迭代(不在本次MVP范围)
|
||||
|
||||
- LLM摘要生成(DeepSeek/Qwen API)
|
||||
- LLM摘要生成(当前上传主链路默认不生成)
|
||||
- 文档上传UI界面
|
||||
- 混合检索问答功能
|
||||
- 法规变更监控与自动更新
|
||||
|
||||
Reference in New Issue
Block a user