初始化

2026-05-11 11:22:55 +08:00
parent 5f6c571434
commit 80dcd070f7
39 changed files with 1997 additions and 0 deletions
--- a/.env
+++ b/.env
@@ -0,0 +1,52 @@
 # DashScope API
 DASHSCOPE_API_KEY=your_api_key_here
 # PostgreSQL
 POSTGRES_HOST=localhost
 POSTGRES_PORT=5432
 POSTGRES_USER=postgresql
 POSTGRES_PASSWORD=postgresql123456
 POSTGRES_DB=mydb
 # Redis
 REDIS_HOST=localhost
 REDIS_PORT=6379
 REDIS_PASSWORD=redis@123
 # Milvus
 MILVUS_HOST=localhost
 MILVUS_PORT=19530
 # MinIO
 MINIO_ENDPOINT=localhost:9000
 MINIO_ACCESS_KEY=minioadmin
 MINIO_SECRET_KEY=minioadmin
 # Neo4j
 NEO4J_URI=bolt://localhost:7687
 NEO4J_USER=neo4j
 NEO4J_PASSWORD=neo4j123
 # RabbitMQ
 RABBITMQ_HOST=localhost
 RABBITMQ_PORT=5672
 RABBITMQ_USER=admin
 RABBITMQ_PASSWORD=admin@123
 # LLM配置
 LLM_MODEL=qwen-max
 EMBEDDING_MODEL=text-embedding-v3
 EMBEDDING_DIM=1536
 # 检索配置
 VECTOR_TOP_K=10
 BM25_TOP_K=10
 FINAL_TOP_K=5
 # 分块配置
 CHUNK_SIZE=800
 CHUNK_OVERLAP=50
 # 服务配置
 API_HOST=0.0.0.0
 API_PORT=8000
--- a/.env.example
+++ b/.env.example
@@ -0,0 +1,24 @@
 # DashScope API
 DASHSCOPE_API_KEY=your_api_key_here
 # Milvus
 MILVUS_HOST=localhost
 MILVUS_PORT=19530
 # LLM配置
 LLM_MODEL=qwen-max
 EMBEDDING_MODEL=text-embedding-v3
 EMBEDDING_DIM=1536
 # 检索配置
 VECTOR_TOP_K=10
 BM25_TOP_K=10
 FINAL_TOP_K=5
 # 分块配置
 CHUNK_SIZE=800
 CHUNK_OVERLAP=50
 # 服务配置
 API_HOST=0.0.0.0
 API_PORT=8000
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,10 @@
 # Python-generated files
 __pycache__/
 *.py[oc]
 build/
 dist/
 wheels/
 *.egg-info
 # Virtual environments
 .venv
--- a/.python-version
+++ b/.python-version
@@ -0,0 +1 @@
 3.9
--- a/18
+++ b/18
@@ -0,0 +1,18 @@
 FROM python:3.11-slim
 WORKDIR /app
 # 安装依赖
 COPY requirements.txt .
 RUN pip install --no-cache-dir -r requirements.txt
 # 复制代码
 COPY app/ ./app/
 COPY data/ ./data/
 # 环境变量
 ENV API_HOST=0.0.0.0
 ENV API_PORT=8000
 # 启动命令
 CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "8000"]
--- a/app/init.py
+++ b/app/init.py
@@ -0,0 +1,3 @@
 from .main import app
 __all__ = ["app"]
--- a/app/api/init.py
+++ b/app/api/init.py
@@ -0,0 +1,3 @@
 from .routes import api_router
 __all__ = ["api_router"]
--- a/app/api/routes/init.py
+++ b/app/api/routes/init.py
@@ -0,0 +1,13 @@
 from fastapi import APIRouter
 from .docs import router as docs_router
 from .rag import router as rag_router
 from .compliance import router as compliance_router
 from .status import router as status_router
 api_router = APIRouter()
 api_router.include_router(docs_router)
 api_router.include_router(rag_router)
 api_router.include_router(compliance_router)
 api_router.include_router(status_router)
 __all__ = ["api_router"]
--- a/app/api/routes/compliance.py
+++ b/app/api/routes/compliance.py
@@ -0,0 +1,96 @@
 from fastapi import APIRouter, UploadFile, File, HTTPException
 from sse_starlette.sse import EventSourceResponse
 import uuid
 import os
 import json
 import asyncio
 from app.schemas.compliance import (
    AnalyzeResponse,
    ComplianceChatRequest,
 )
 from app.services.mock_data import (
    generate_task_id,
    get_mock_compliance_result,
    get_mock_compliance_chat_response,
 )
 router = APIRouter(prefix="/compliance", tags=["合规分析"])
 # 临时存储分析任务
 tasks_store: dict[str, dict] = {}
@router.post("/analyze", response_model=AnalyzeResponse)
 async def analyze_document(file: UploadFile = File(...)):
    """上传设计方案进行分析"""
    # 生成任务ID
    task_id = generate_task_id()
    # 保存文件
    raw_dir = "/airegulation/demo-mao/backend/data/raw"
    os.makedirs(raw_dir, exist_ok=True)
    file_path = os.path.join(raw_dir, f"compliance_{task_id}_{file.filename}")
    content = await file.read()
    with open(file_path, "wb") as f:
        f.write(content)
    # 记录任务
    tasks_store[task_id] = {
        "task_id": task_id,
        "file_path": file_path,
        "status": "processing",
        "result": None,
    }
    # 模拟异步处理完成（立即返回结果）
    # 实际应用中这应该是后台任务
    tasks_store[task_id]["status"] = "completed"
    tasks_store[task_id]["result"] = get_mock_compliance_result(task_id)
    return AnalyzeResponse(task_id=task_id)
@router.get("/result/{task_id}")
 async def get_result(task_id: str):
    """获取分析结果"""
    if task_id not in tasks_store:
        # 如果任务ID不存在，返回默认mock结果
        return get_mock_compliance_result(task_id)
    task = tasks_store[task_id]
    if task["status"] == "processing":
        return {"status": "processing", "message": "分析进行中"}
    return task["result"]
@router.post("/chat/{segment_id}")
 async def compliance_chat(segment_id: int, request: ComplianceChatRequest):
    """针对段落进行合规对话"""
    # 根据segment_id获取对应的intent
    intent_map = {
        1: "车身结构设计",
        2: "动力系统配置",
        3: "安全配置设计",
    }
    intent = intent_map.get(segment_id, "车身结构设计")
    async def generate():
        # 获取预设响应
        response = get_mock_compliance_chat_response(intent, request.query)
        # 流式输出响应
        sentences = response.split("\n\n")
        for sentence in sentences:
            if sentence.strip():
                chunks = sentence.split("\n")
                for chunk in chunks:
                    if chunk.strip():
                        await asyncio.sleep(0.05)
                        yield {"event": "message", "data": json.dumps({"type": "chunk", "text": chunk + "\n"})}
        yield {"event": "message", "data": json.dumps({"type": "done"})}
    return EventSourceResponse(generate())
--- a/app/api/routes/docs.py
+++ b/app/api/routes/docs.py
@@ -0,0 +1,115 @@
 from fastapi import APIRouter, UploadFile, File, HTTPException
 import os
 import uuid
 from datetime import datetime
 from app.schemas.doc import (
    DocumentUploadResponse,
    DocumentListResponse,
    DocumentInfo,
    ParseResponse,
    EmbedResponse,
 )
 from app.services.mock_data import get_mock_documents, generate_doc_id
 router = APIRouter(prefix="/docs", tags=["文档管理"])
 # 临时存储文档信息（包含预设的mock文档）
 documents_store: dict[str, dict] = {}
 # 初始化时加载mock文档
 for doc in get_mock_documents():
    documents_store[doc["id"]] = doc
@router.post("/upload", response_model=DocumentUploadResponse)
 async def upload_document(file: UploadFile = File(...)):
    """上传法规文档"""
    # 检查文件格式
    allowed_ext = [".pdf", ".docx", ".doc", ".txt"]
    ext = os.path.splitext(file.filename)[1].lower()
    if ext not in allowed_ext:
        raise HTTPException(400, f"Unsupported file format: {ext}")
    # 生成文档ID
    doc_id = generate_doc_id()
    # 保存文件
    raw_dir = "/airegulation/demo-mao/backend/data/raw"
    os.makedirs(raw_dir, exist_ok=True)
    file_path = os.path.join(raw_dir, f"{doc_id}_{file.filename}")
    content = await file.read()
    with open(file_path, "wb") as f:
        f.write(content)
    # 记录文档信息
    documents_store[doc_id] = {
        "id": doc_id,
        "name": file.filename,
        "path": file_path,
        "size": len(content),
        "status": "uploaded",
        "chunks": 0,
        "created_at": datetime.now(),
    }
    return DocumentUploadResponse(
        doc_id=doc_id,
        filename=file.filename,
        size=len(content),
    )
@router.get("/list", response_model=DocumentListResponse)
 async def list_documents():
    """获取已索引文档列表"""
    docs = [
        DocumentInfo(
            id=d["id"],
            name=d["name"],
            chunks=d["chunks"],
            status=d["status"],
            created_at=d.get("created_at"),
        )
        for d in documents_store.values()
    ]
    return DocumentListResponse(docs=docs)
@router.post("/parse/{doc_id}", response_model=ParseResponse)
 async def parse_document(doc_id: str):
    """解析文档并分块"""
    if doc_id not in documents_store:
        raise HTTPException(404, "Document not found")
    doc = documents_store[doc_id]
    # 模拟解析逻辑
    doc["status"] = "parsed"
    # 根据文件大小计算chunks数量
    file_size = doc.get("size", 100000)
    doc["chunks"] = max(20, file_size // 8000)
    return ParseResponse(doc_id=doc_id, chunks=doc["chunks"])
@router.post("/embed/{doc_id}", response_model=EmbedResponse)
 async def embed_document(doc_id: str):
    """嵌入并存入向量库"""
    if doc_id not in documents_store:
        raise HTTPException(404, "Document not found")
    doc = documents_store[doc_id]
    # 模拟嵌入逻辑
    doc["status"] = "indexed"
    return EmbedResponse(doc_id=doc_id, vectors=doc["chunks"])
@router.delete("/delete/{doc_id}")
 async def delete_document(doc_id: str):
    """删除文档"""
    if doc_id not in documents_store:
        raise HTTPException(404, "Document not found")
    del documents_store[doc_id]
    return {"success": True}
--- a/app/api/routes/rag.py
+++ b/app/api/routes/rag.py
@@ -0,0 +1,74 @@
 from fastapi import APIRouter
 from sse_starlette.sse import EventSourceResponse
 from app.schemas.rag import RagChatRequest, QuickQuestionsResponse, QuickQuestion
 from app.services.mock_data import (
    get_mock_quick_questions,
    get_mock_retrieval,
    get_mock_rag_answer,
 )
 import json
 import asyncio
 router = APIRouter(prefix="/rag", tags=["RAG问答"])
@router.post("/chat")
 async def rag_chat(request: RagChatRequest):
    """SSE流式问答"""
    async def generate():
        # 发送检索开始事件
        yield {"event": "message", "data": json.dumps({"type": "retrieving"})}
        # 模拟检索延迟
        await asyncio.sleep(0.3)
        # 执行检索
        docs = get_mock_retrieval(request.query, top_k=request.top_k)
        retrieved_data = [
            {
                "id": d["id"],
                "score": d["score"],
                "preview": d["preview"],
                "doc_name": d.get("doc_name", ""),
                "clause": d.get("clause", ""),
            }
            for d in docs
        ]
        yield {"event": "message", "data": json.dumps({"type": "retrieved", "docs": retrieved_data})}
        # 发送生成开始事件
        yield {"event": "message", "data": json.dumps({"type": "generating", "text": "正在生成答案..."})}
        # 模拟生成延迟
        await asyncio.sleep(0.2)
        # 获取预设答案
        answer = get_mock_rag_answer(request.query)
        # 流式输出答案（按句子分割）
        sentences = answer.split("\n\n")
        for sentence in sentences:
            if sentence.strip():
                # 进一步分割长句子
                chunks = sentence.split("\n")
                for chunk in chunks:
                    if chunk.strip():
                        await asyncio.sleep(0.05)  # 模拟生成延迟
                        yield {"event": "message", "data": json.dumps({"type": "chunk", "text": chunk + "\n"})}
        # 发送完成事件
        yield {"event": "message", "data": json.dumps({"type": "done"})}
    return EventSourceResponse(generate())
@router.get("/quick-questions", response_model=QuickQuestionsResponse)
 async def get_quick_questions():
    """获取预设快捷问题"""
    questions = [
        QuickQuestion(id=q["id"], question=q["question"], category=q["category"])
        for q in get_mock_quick_questions()
    ]
    return QuickQuestionsResponse(questions=questions)
--- a/app/api/routes/status.py
+++ b/app/api/routes/status.py
@@ -0,0 +1,28 @@
 from fastapi import APIRouter
 from app.core.config import settings
 from app.services.mock_data import MOCK_SYSTEM_STATS, MOCK_SYSTEM_CONFIG
 router = APIRouter(prefix="/status", tags=["系统状态"])
@router.get("/stats")
 async def get_stats():
    """获取系统统计"""
    # 返回预设统计数据
    return MOCK_SYSTEM_STATS
@router.get("/config")
 async def get_config():
    """获取当前配置"""
    return MOCK_SYSTEM_CONFIG
@router.get("/milvus/health")
 async def milvus_health():
    """Milvus健康检查"""
    # 模拟连接状态（假数据模式下始终返回连接成功）
    return {
        "connected": True,
        "collections": ["vehicle_regulations"],
    }
--- a/app/core/init.py
+++ b/app/core/init.py
@@ -0,0 +1,3 @@
 from .config import settings, Settings
 __all__ = ["settings", "Settings"]
--- a/app/core/config.py
+++ b/app/core/config.py
@@ -0,0 +1,41 @@
 from pydantic_settings import BaseSettings
 from typing import Optional
 class Settings(BaseSettings):
    # DashScope API
    dashscope_api_key: str = ""
    # Milvus
    milvus_host: str = "localhost"
    milvus_port: int = 19530
    # LLM配置
    llm_model: str = "qwen-max"
    embedding_model: str = "text-embedding-v3"
    embedding_dim: int = 1536
    # 检索配置
    vector_top_k: int = 10
    bm25_top_k: int = 10
    final_top_k: int = 5
    # 分块配置
    chunk_size: int = 800
    chunk_overlap: int = 50
    # 服务配置
    api_host: str = "0.0.0.0"
    api_port: int = 8000
    # Collection名称
    regulations_collection: str = "vehicle_regulations"
    compliance_collection: str = "compliance_cache"
    class Config:
        env_file = ".env"
        env_file_encoding = "utf-8"
        case_sensitive = False
 settings = Settings()
--- a/app/main.py
+++ b/app/main.py
@@ -0,0 +1,68 @@
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from app.api.routes import api_router
 from app.core.config import settings
 from app.utils.logger import logger
 from app.services import milvus_service
 # 创建应用
 app = FastAPI(
    title="车辆法规智能检索系统",
    description="基于RAG技术的法规检索与合规分析后端API",
    version="1.0.0",
 )
 # CORS配置
 app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
 )
 # 注册路由
 app.include_router(api_router, prefix="/api")
@app.on_event("startup")
 async def startup_event():
    """启动时初始化"""
    logger.info("Starting application...")
    # 初始化Milvus集合（仅在服务可用时）
    try:
        if milvus_service is not None:
            milvus_service.create_regulations_collection()
            logger.info("Milvus collection initialized")
        else:
            logger.warning("Milvus service not available, using mock data")
    except Exception as e:
        logger.warning(f"Milvus initialization failed: {e}")
@app.on_event("shutdown")
 async def shutdown_event():
    """关闭时清理"""
    logger.info("Shutting down application...")
    try:
        if milvus_service is not None:
            milvus_service.disconnect()
    except Exception as e:
        logger.warning(f"Shutdown cleanup error: {e}")
@app.get("/")
 async def root():
    """根路径"""
    return {
        "message": "车辆法规智能检索系统 API",
        "version": "1.0.0",
        "docs": "/docs",
    }
@app.get("/health")
 async def health():
    """健康检查"""
    return {"status": "healthy"}
--- a/app/schemas/init.py
+++ b/app/schemas/init.py
@@ -0,0 +1,49 @@
 from .doc import (
    DocumentUploadResponse,
    DocumentInfo,
    DocumentListResponse,
    ChunkInfo,
    ParseResponse,
    EmbedResponse,
 )
 from .rag import (
    RagChatRequest,
    RetrievedDoc,
    SourceInfo,
    QuickQuestion,
    QuickQuestionsResponse,
 )
 from .compliance import (
    RiskLevel,
    ComplianceStatus,
    Regulation,
    ComplianceSegment,
    RiskDashboard,
    PriorityAction,
    ComplianceResult,
    ComplianceChatRequest,
    AnalyzeResponse,
 )
 __all__ = [
    "DocumentUploadResponse",
    "DocumentInfo",
    "DocumentListResponse",
    "ChunkInfo",
    "ParseResponse",
    "EmbedResponse",
    "RagChatRequest",
    "RetrievedDoc",
    "SourceInfo",
    "QuickQuestion",
    "QuickQuestionsResponse",
    "RiskLevel",
    "ComplianceStatus",
    "Regulation",
    "ComplianceSegment",
    "RiskDashboard",
    "PriorityAction",
    "ComplianceResult",
    "ComplianceChatRequest",
    "AnalyzeResponse",
 ]
--- a/app/schemas/compliance.py
+++ b/app/schemas/compliance.py
@@ -0,0 +1,69 @@
 from pydantic import BaseModel
 from typing import Optional
 from enum import Enum
 class RiskLevel(str, Enum):
    high = "high"
    medium = "medium"
    low = "low"
 class ComplianceStatus(str, Enum):
    pass_status = "pass"
    warning = "warning"
    fail = "fail"
 class Regulation(BaseModel):
    id: int
    name: str
    clause: Optional[str] = None
    score: float
    match_keyword: str
    category: RiskLevel
    full_content: str
 class ComplianceSegment(BaseModel):
    id: int
    index: int
    intent: str
    start_pos: int
    end_pos: int
    content: str
    risk_level: RiskLevel
    regulations: list[Regulation]
 class RiskDashboard(BaseModel):
    score: float
    high_risk_count: int
    medium_risk_count: int
    low_risk_count: int
    need_fix_segments: int
    status: ComplianceStatus
    status_label: str
 class PriorityAction(BaseModel):
    regulation: str
    issue: str
    suggestion: str
    severity: RiskLevel
 class ComplianceResult(BaseModel):
    task_id: str
    dashboard: RiskDashboard
    segments: list[ComplianceSegment]
    priority_actions: list[PriorityAction]
 class ComplianceChatRequest(BaseModel):
    query: str
 class AnalyzeResponse(BaseModel):
    task_id: str
    status: str = "processing"
--- a/app/schemas/doc.py
+++ b/app/schemas/doc.py
@@ -0,0 +1,44 @@
 from pydantic import BaseModel
 from typing import Optional
 from datetime import datetime
 class DocumentUploadResponse(BaseModel):
    doc_id: str
    filename: str
    size: int
    status: str = "uploaded"
 class DocumentInfo(BaseModel):
    id: str
    name: str
    chunks: int
    status: str
    created_at: Optional[datetime] = None
 class DocumentListResponse(BaseModel):
    docs: list[DocumentInfo]
 class ChunkInfo(BaseModel):
    chunk_id: str
    doc_name: str
    clause_id: Optional[str] = None
    chapter: Optional[str] = None
    content: str
    token_count: int
    chunk_index: int
 class ParseResponse(BaseModel):
    doc_id: str
    chunks: int
    status: str = "parsed"
 class EmbedResponse(BaseModel):
    doc_id: str
    vectors: int
    status: str = "embedded"
--- a/app/schemas/rag.py
+++ b/app/schemas/rag.py
@@ -0,0 +1,31 @@
 from pydantic import BaseModel
 from typing import Optional
 class RagChatRequest(BaseModel):
    query: str
    top_k: int = 5
 class RetrievedDoc(BaseModel):
    id: str
    doc_name: str
    clause_id: Optional[str] = None
    score: float
    content: str
    preview: str
 class SourceInfo(BaseModel):
    name: str
    clause: Optional[str] = None
 class QuickQuestion(BaseModel):
    id: str
    question: str
    category: str
 class QuickQuestionsResponse(BaseModel):
    questions: list[QuickQuestion]
--- a/app/services/init.py
+++ b/app/services/init.py
@@ -0,0 +1,50 @@
 # Import mock data service
 from .mock_data import (
    get_mock_documents,
    get_mock_quick_questions,
    get_mock_retrieval,
    get_mock_rag_answer,
    get_mock_compliance_result,
    get_mock_compliance_chat_response,
    MOCK_SYSTEM_STATS,
    MOCK_SYSTEM_CONFIG,
 )
 # Try importing real services (may fail if dependencies not installed)
 try:
    from .llm import llm_service, LLMService
    from .embedding import embedding_service, EmbeddingService
    from .milvus import milvus_service, MilvusService
    from .document import DocumentService, get_document_service
    _real_services_available = True
 except ImportError:
    _real_services_available = False
    llm_service = None
    LLMService = None
    embedding_service = None
    EmbeddingService = None
    milvus_service = None
    MilvusService = None
    DocumentService = None
    get_document_service = None
 __all__ = [
    # Mock data services
    "get_mock_documents",
    "get_mock_quick_questions",
    "get_mock_retrieval",
    "get_mock_rag_answer",
    "get_mock_compliance_result",
    "get_mock_compliance_chat_response",
    "MOCK_SYSTEM_STATS",
    "MOCK_SYSTEM_CONFIG",
    # Real services (may be None if not available)
    "llm_service",
    "LLMService",
    "embedding_service",
    "EmbeddingService",
    "milvus_service",
    "MilvusService",
    "DocumentService",
    "get_document_service",
 ]
--- a/app/services/document.py
+++ b/app/services/document.py
@@ -0,0 +1,64 @@
 import os
 from typing import List, Optional
 from PyPDF2 import PdfReader
 from docx import Document
 import pdfplumber
 class DocumentService:
    def __init__(self, raw_dir: str, parsed_dir: str):
        self.raw_dir = raw_dir
        self.parsed_dir = parsed_dir
    def parse_pdf(self, file_path: str) -> str:
        """解析PDF文件"""
        text = ""
        try:
            with pdfplumber.open(file_path) as pdf:
                for page in pdf.pages:
                    page_text = page.extract_text()
                    if page_text:
                        text += page_text + "\n"
        except Exception:
            reader = PdfReader(file_path)
            for page in reader.pages:
                text += page.extract_text() + "\n"
        return text.strip()
    def parse_docx(self, file_path: str) -> str:
        """解析Word文件"""
        doc = Document(file_path)
        text = ""
        for paragraph in doc.paragraphs:
            text += paragraph.text + "\n"
        return text.strip()
    def parse_txt(self, file_path: str) -> str:
        """解析TXT文件"""
        with open(file_path, "r", encoding="utf-8") as f:
            return f.read().strip()
    def parse_document(self, file_path: str) -> str:
        """根据文件类型解析文档"""
        ext = os.path.splitext(file_path)[1].lower()
        if ext == ".pdf":
            return self.parse_pdf(file_path)
        elif ext in [".docx", ".doc"]:
            return self.parse_docx(file_path)
        elif ext == ".txt":
            return self.parse_txt(file_path)
        else:
            raise ValueError(f"Unsupported file format: {ext}")
    def save_parsed_text(self, doc_id: str, text: str) -> str:
        """保存解析后的文本"""
        parsed_path = os.path.join(self.parsed_dir, f"{doc_id}.txt")
        with open(parsed_path, "w", encoding="utf-8") as f:
            f.write(text)
        return parsed_path
 def get_document_service(raw_dir: str, parsed_dir: str) -> DocumentService:
    return DocumentService(raw_dir, parsed_dir)
--- a/app/services/embedding.py
+++ b/app/services/embedding.py
@@ -0,0 +1,33 @@
 import dashscope
 from dashscope import TextEmbedding
 from typing import List
 class EmbeddingService:
    def __init__(self):
        from app.core.config import settings
        self.model = settings.embedding_model
        self.dimension = settings.embedding_dim
        dashscope.api_key = settings.dashscope_api_key
    def embed_texts(self, texts: List[str]) -> List[List[float]]:
        """批量文本嵌入"""
        response = TextEmbedding.call(
            model=self.model,
            input=texts,
        )
        if response.status_code == 200:
            embeddings = []
            for item in response.output.embeddings:
                embeddings.append(item.embedding)
            return embeddings
        raise Exception(f"Embedding failed: {response.code}")
    def embed_single(self, text: str) -> List[float]:
        """单个文本嵌入"""
        embeddings = self.embed_texts([text])
        return embeddings[0]
 embedding_service = EmbeddingService()
--- a/app/services/llm.py
+++ b/app/services/llm.py
@@ -0,0 +1,58 @@
 import dashscope
 from dashscope import Generation
 from typing import AsyncGenerator, Optional, Generator
 class LLMService:
    def __init__(self):
        from app.core.config import settings
        self.model = settings.llm_model
        dashscope.api_key = settings.dashscope_api_key
    def generate_stream(
        self,
        prompt: str,
        system_prompt: Optional[str] = None,
    ) -> Generator[str, None, None]:
        """流式生成文本"""
        messages = []
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        messages.append({"role": "user", "content": prompt})
        responses = Generation.call(
            model=self.model,
            messages=messages,
            result_format="message",
            stream=True,
        )
        for response in responses:
            if response.status_code == 200:
                content = response.output.choices[0].message.content
                if content:
                    yield content
    async def generate(
        self,
        prompt: str,
        system_prompt: Optional[str] = None,
    ) -> str:
        """一次性生成文本"""
        messages = []
        if system_prompt:
            messages.append({"role": "system", "content": system_prompt})
        messages.append({"role": "user", "content": prompt})
        response = Generation.call(
            model=self.model,
            messages=messages,
            result_format="message",
        )
        if response.status_code == 200:
            return response.output.choices[0].message.content
        raise Exception(f"LLM generation failed: {response.code}")
 llm_service = LLMService()
--- a/app/services/milvus.py
+++ b/app/services/milvus.py
@@ -0,0 +1,158 @@
 from pymilvus import (
    connections,
    Collection,
    FieldSchema,
    CollectionSchema,
    DataType,
    utility,
 )
 from typing import List, Optional
 class MilvusService:
    def __init__(self):
        from app.core.config import settings
        self.host = settings.milvus_host
        self.port = settings.milvus_port
        self.regulations_collection_name = settings.regulations_collection
        self.compliance_collection_name = settings.compliance_collection
        self._connected = False
    def connect(self):
        """连接Milvus"""
        if not self._connected:
            connections.connect(
                alias="default",
                host=self.host,
                port=self.port,
            )
            self._connected = True
    def disconnect(self):
        """断开连接"""
        if self._connected:
            connections.disconnect("default")
            self._connected = False
    def create_regulations_collection(self):
        """创建法规文档集合"""
        from app.core.config import settings
        self.connect()
        if utility.has_collection(self.regulations_collection_name):
            return Collection(self.regulations_collection_name)
        fields = [
            FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
            FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=settings.embedding_dim),
            FieldSchema(name="doc_name", dtype=DataType.VARCHAR, max_length=256),
            FieldSchema(name="clause_id", dtype=DataType.VARCHAR, max_length=64),
            FieldSchema(name="chapter", dtype=DataType.VARCHAR, max_length=128),
            FieldSchema(name="source_file", dtype=DataType.VARCHAR, max_length=256),
            FieldSchema(name="chunk_index", dtype=DataType.INT64),
            FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=65535),
            FieldSchema(name="token_count", dtype=DataType.INT64),
        ]
        schema = CollectionSchema(
            fields=fields,
            description="法规文档向量集合",
        )
        collection = Collection(
            name=self.regulations_collection_name,
            schema=schema,
        )
        index_params = {
            "metric_type": "COSINE",
            "index_type": "IVF_FLAT",
            "params": {"nlist": 128},
        }
        collection.create_index(field_name="embedding", index_params=index_params)
        return collection
    def insert_chunks(
        self,
        embeddings: List[List[float]],
        metadata: List[dict],
    ) -> List[int]:
        """插入向量数据"""
        collection = Collection(self.regulations_collection_name)
        collection.load()
        data = [
            embeddings,
            [m.get("doc_name", "") for m in metadata],
            [m.get("clause_id", "") for m in metadata],
            [m.get("chapter", "") for m in metadata],
            [m.get("source_file", "") for m in metadata],
            [m.get("chunk_index", 0) for m in metadata],
            [m.get("content", "") for m in metadata],
            [m.get("token_count", 0) for m in metadata],
        ]
        result = collection.insert(data)
        collection.flush()
        return result.primary_keys
    def search(
        self,
        query_embedding: List[float],
        top_k: int = 10,
    ) -> List[dict]:
        """向量检索"""
        collection = Collection(self.regulations_collection_name)
        collection.load()
        search_params = {"metric_type": "COSINE", "params": {"nprobe": 16}}
        results = collection.search(
            data=[query_embedding],
            anns_field="embedding",
            param=search_params,
            limit=top_k,
            output_fields=["doc_name", "clause_id", "chapter", "content", "chunk_index"],
        )
        hits = []
        for hit in results[0]:
            hits.append({
                "id": hit.id,
                "score": hit.score,
                "doc_name": hit.entity.get("doc_name"),
                "clause_id": hit.entity.get("clause_id"),
                "chapter": hit.entity.get("chapter"),
                "content": hit.entity.get("content"),
                "chunk_index": hit.entity.get("chunk_index"),
            })
        return hits
    def get_collection_stats(self) -> dict:
        """获取集合统计"""
        self.connect()
        if not utility.has_collection(self.regulations_collection_name):
            return {"exists": False}
        collection = Collection(self.regulations_collection_name)
        collection.load()
        return {
            "exists": True,
            "name": self.regulations_collection_name,
            "count": collection.num_entities,
        }
    def health_check(self) -> bool:
        """健康检查"""
        try:
            self.connect()
            return True
        except Exception:
            return False
 milvus_service = MilvusService()
--- a/app/services/mock_data.py
+++ b/app/services/mock_data.py
@@ -0,0 +1,425 @@
 """
 Mock数据服务 - 提供预设假数据供前后端对接测试
 """
 from datetime import datetime
 from typing import Dict, List, Any
 import uuid
 # 预设法规文档列表
 MOCK_DOCUMENTS: List[Dict[str, Any]] = [
    {
        "id": "doc-001",
        "name": "道路交通安全法.pdf",
        "chunks": 156,
        "status": "indexed",
        "created_at": datetime(2026, 5, 10, 10, 0, 0),
    },
    {
        "id": "doc-002",
        "name": "机动车登记规定.docx",
        "chunks": 89,
        "status": "indexed",
        "created_at": datetime(2026, 5, 10, 11, 0, 0),
    },
    {
        "id": "doc-003",
        "name": "电动自行车规范.pdf",
        "chunks": 42,
        "status": "indexed",
        "created_at": datetime(2026, 5, 10, 12, 0, 0),
    },
    {
        "id": "doc-004",
        "name": "GB 38031-2020 电动汽车安全要求.pdf",
        "chunks": 128,
        "status": "indexed",
        "created_at": datetime(2026, 5, 10, 13, 0, 0),
    },
    {
        "id": "doc-005",
        "name": "C-NCAP管理规则(2021版).pdf",
        "chunks": 95,
        "status": "indexed",
        "created_at": datetime(2026, 5, 10, 14, 0, 0),
    },
 ]
 # 预设快捷问题
 MOCK_QUICK_QUESTIONS: List[Dict[str, str]] = [
    {"id": "q1", "question": "电动自行车需要上牌照吗？", "category": "车辆登记"},
    {"id": "q2", "question": "新能源汽车有哪些补贴政策？", "category": "新能源"},
    {"id": "q3", "question": "车辆年检的规定是什么？", "category": "年检"},
    {"id": "q4", "question": "驾驶证过期了怎么处理？", "category": "驾驶证"},
 ]
 # 预设检索结果
 MOCK_RETRIEVAL_RESULTS: List[Dict[str, Any]] = [
    {
        "id": "chunk-001",
        "score": 0.95,
        "preview": "根据《道路交通安全法》第十八条规定，电动自行车经公安机关交通管理部门登记后，方可上道路行驶...",
        "doc_name": "道路交通安全法",
        "clause": "第十八条",
        "content": "根据《道路交通安全法》第十八条规定，电动自行车经公安机关交通管理部门登记后，方可上道路行驶。电动自行车应当符合国家标准，最高设计车速不超过二十五公里每小时，整车质量不超过五十五千克。",
    },
    {
        "id": "chunk-002",
        "score": 0.88,
        "preview": "电动自行车需符合GB17761-2018国家标准，包括最高车速、整车质量、脚踏骑行能力等要求...",
        "doc_name": "电动自行车规范",
        "clause": "第4条",
        "content": "电动自行车需符合GB17761-2018国家标准。主要技术要求包括：最高设计车速不超过25km/h，整车质量不超过55kg，具有脚踏骑行能力，蓄电池标称电压不超过48V，电动机额定连续输出功率不超过400W。",
    },
    {
        "id": "chunk-003",
        "score": 0.82,
        "preview": "机动车登记规定：初次申领机动车号牌、行驶证的，机动车所有人应当向住所地的车辆管理所申请注册登记...",
        "doc_name": "机动车登记规定",
        "clause": "第5条",
        "content": "机动车登记规定：初次申领机动车号牌、行驶证的，机动车所有人应当向住所地的车辆管理所申请注册登记。申请注册登记的，应当提交机动车所有人的身份证明、购车发票等机动车来历证明、机动车整车出厂合格证明或者进口机动车进口凭证。",
    },
    {
        "id": "chunk-004",
        "score": 0.75,
        "preview": "驾驶电动自行车上道路行驶，应当佩戴安全头盔，遵守道路交通安全法律法规...",
        "doc_name": "道路交通安全法",
        "clause": "第76条",
        "content": "驾驶电动自行车上道路行驶，应当佩戴安全头盔，遵守道路交通安全法律法规。电动自行车不得逆向行驶，不得在机动车道内行驶，最高车速不得超过规定的限速。",
    },
    {
        "id": "chunk-005",
        "score": 0.68,
        "preview": "电动汽车动力电池安全要求：电池系统发生热失控后，应在5分钟内不起火不爆炸...",
        "doc_name": "GB 38031-2020",
        "clause": "第7条",
        "content": "电动汽车动力电池安全要求（GB 38031-2020）：电池系统发生热失控后，应在5分钟内不起火不爆炸，为乘员预留逃生时间。电池包需通过针刺、过充、短路等安全测试。",
    },
 ]
 # 预设RAG问答答案模板（按关键词匹配）
 MOCK_RAG_ANSWERS: Dict[str, Dict[str, Any]] = {
    "电动自行车": {
        "text": "根据《道路交通安全法》及相关规范，电动自行车上路需满足以下条件：\n\n1. 符合国家标准 GB17761-2018\n2. 经公安机关交通管理部门登记\n3. 最高设计车速不超过 25km/h\n4. 整车质量不超过 55kg\n5. 具有脚踏骑行能力\n6. 蓄电池标称电压不超过 48V\n\n行驶时还需佩戴安全头盔，不得逆向行驶或在机动车道内行驶。",
        "retrieval_ids": ["chunk-001", "chunk-002", "chunk-004"],
    },
    "驾驶证": {
        "text": "驾驶证申请流程如下：\n\n1. 到驾校报名并参加培训\n2. 通过科目一（理论考试）\n3. 通过科目二（场地驾驶技能考试）\n4. 通过科目三（道路驾驶技能考试）\n5. 通过科目四（安全文明驾驶常识考试）\n6. 领取驾驶证\n\n初次申领需到住所地车辆管理所申请注册登记。",
        "retrieval_ids": ["chunk-003"],
    },
    "超速": {
        "text": "超速处罚标准（根据《道路交通安全法》）：\n\n- 超速10%以下：警告\n- 超速10%-20%：罚款50-200元\n- 超速20%-50%：罚款200-500元，记3-6分\n- 超速50%以上：罚款500-2000元，记12分，可吊销驾驶证\n\n机动车驾驶人违反道路交通安全法律、法规将处警告或二十元以上二百元以下罚款。",
        "retrieval_ids": ["chunk-001"],
    },
    "年检": {
        "text": "车辆年检规定：\n\n- 小型私家车：6年内免检（每2年申领标志），6-10年每2年检验，10年以上每年检验\n- 车辆需携带行驶证、交强险保单\n- 检验项目：灯光、制动、排放等\n\n机动车所有人的住所迁出车辆管理所管辖区域的，需在登记证书上签注变更事项。",
        "retrieval_ids": ["chunk-003"],
    },
    "电池": {
        "text": "电动汽车电池安全标准（GB 38031-2020）：\n\n1. 热失控要求：电池系统发生热失控后，应在5分钟内不起火不爆炸，为乘员预留逃生时间\n2. 电池包需通过针刺、过充、短路等安全测试\n3. 充电系统应具备过充保护功能，当电池SOC达到100%时应自动停止充电\n4. 充电接口应符合GB/T 18487.1标准要求\n\n以上要求确保电动汽车的整车安全性。",
        "retrieval_ids": ["chunk-005"],
    },
    "碰撞": {
        "text": "正面碰撞测试要求（C-NCAP管理规则）：\n\n1. 正面100%重叠刚性壁障碰撞试验\n2. 碰撞速度：50km/h\n3. 试验后要求：\n   - 车门应能打开\n   - 燃油系统无泄漏\n   - 座椅及安全带功能正常\n\n此测试用于评估车辆在正面碰撞事故中对乘员的保护能力。",
        "retrieval_ids": [],
    },
    "AEB": {
        "text": "AEB（自动紧急制动系统）测试标准：\n\n1. 系统应在检测到前方障碍物时主动减速或停车\n2. 测试场景分为三种：\n   - 目标车静止\n   - 目标车移动\n   - 目标车制动\n3. AEB功能是C-NCAP评分的重要加分项\n\n该系统对提升车辆主动安全性能具有重要意义。",
        "retrieval_ids": [],
    },
    "高速公路": {
        "text": "高速公路安全距离规定：\n\n1. 车速超过100km/h时，与同车道前车保持100米以上距离\n2. 车速低于100km/h时，距离可适当缩短\n3. 执行紧急任务的警车、消防车、救护车、工程救险车不受行驶速度限制\n\n保持安全距离是预防追尾事故的关键措施。",
        "retrieval_ids": [],
    },
 }
 # 预设合规分析结果
 MOCK_COMPLIANCE_RESULT: Dict[str, Any] = {
    "task_id": "task-001",
    "dashboard": {
        "score": 78,
        "high_risk_count": 2,
        "medium_risk_count": 1,
        "low_risk_count": 0,
        "need_fix_segments": 3,
        "status": "warning",
        "status_label": "需优化",
    },
    "segments": [
        {
            "id": 1,
            "index": 1,
            "intent": "车身结构设计",
            "start_pos": 45,
            "end_pos": 230,
            "content": "车身采用高强度钢铝混合结构，A柱和B柱使用热成型钢板，厚度2.5mm。车顶结构设计满足GB 26112-2010抗压强度要求，正面碰撞能量吸收区域采用渐进式变形设计，确保碰撞时能量有效分散。",
            "risk_level": "high",
            "regulations": [
                {
                    "id": 1,
                    "name": "GB 26112-2010",
                    "clause": "第4.2条",
                    "score": 0.95,
                    "match_keyword": "车顶抗压强度",
                    "category": "high",
                    "full_content": "车顶结构应能承受相当于车辆整备质量1.5倍的载荷，载荷分布应均匀，试验后车顶变形量不超过规定值。",
                },
                {
                    "id": 2,
                    "name": "C-NCAP管理规则",
                    "clause": "第3.1条",
                    "score": 0.88,
                    "match_keyword": "正面碰撞",
                    "category": "high",
                    "full_content": "正面碰撞试验速度为50km/h，碰撞后车门应能打开，燃油系统无泄漏，座椅及安全带功能正常。",
                },
                {
                    "id": 3,
                    "name": "GB 11551-2014",
                    "clause": "第5条",
                    "score": 0.72,
                    "match_keyword": "碰撞能量吸收",
                    "category": "medium",
                    "full_content": "车辆正面碰撞时应有效保护乘员，碰撞能量应通过车身结构合理分散。",
                },
                {
                    "id": 4,
                    "name": "机动车安全技术条件",
                    "clause": "第12条",
                    "score": 0.58,
                    "match_keyword": "A柱强度",
                    "category": "medium",
                    "full_content": "A柱应具备足够的抗变形能力，材料强度应符合相关标准要求。",
                },
            ],
        },
        {
            "id": 2,
            "index": 2,
            "intent": "动力系统配置",
            "start_pos": 298,
            "end_pos": 425,
            "content": "搭载永磁同步电机，最大功率150kW，峰值扭矩310Nm。电池组采用三元锂离子电池，容量75kWh，能量密度180Wh/kg。充电接口支持快充（30分钟充至80%）和慢充（8小时充满），符合GB/T 18487.1-2015标准。",
            "risk_level": "medium",
            "regulations": [
                {
                    "id": 5,
                    "name": "GB/T 18487.1-2015",
                    "clause": "第6条",
                    "score": 0.94,
                    "match_keyword": "充电接口标准",
                    "category": "high",
                    "full_content": "电动汽车传导充电接口应符合GB/T 18487.1标准要求，充电系统应具备过充保护功能。",
                },
                {
                    "id": 6,
                    "name": "GB/T 31484-2015",
                    "clause": "第4条",
                    "score": 0.85,
                    "match_keyword": "电池能量密度",
                    "category": "high",
                    "full_content": "动力电池能量密度不低于120Wh/kg，电池系统需通过热失控测试。",
                },
                {
                    "id": 7,
                    "name": "新能源汽车生产企业准入",
                    "clause": "第8条",
                    "score": 0.65,
                    "match_keyword": "电机功率",
                    "category": "medium",
                    "full_content": "驱动电机应符合相关技术标准，功率参数应在规定范围内。",
                },
                {
                    "id": 8,
                    "name": "电动汽车安全要求",
                    "clause": "第7条",
                    "score": 0.45,
                    "match_keyword": "充电时间",
                    "category": "low",
                    "full_content": "充电系统应具备过充保护功能，当电池SOC达到100%时应自动停止充电。",
                },
            ],
        },
        {
            "id": 3,
            "index": 3,
            "intent": "安全配置设计",
            "start_pos": 570,
            "end_pos": 725,
            "content": "配备6个安全气囊（前排双气囊、侧气囊、侧气帘），采用预紧式安全带。ABS系统采用博世第9代ESP，具备碰撞预警功能（FCW）和自动紧急制动（AEB）。方向盘集成驾驶员疲劳监测摄像头。",
            "risk_level": "low",
            "regulations": [
                {
                    "id": 9,
                    "name": "GB 27887-2011",
                    "clause": "第5条",
                    "score": 0.92,
                    "match_keyword": "安全气囊",
                    "category": "high",
                    "full_content": "乘用车应配备驾驶员和乘客安全气囊，气囊系统应符合相关技术标准。",
                },
                {
                    "id": 10,
                    "name": "GB/T 26991-2011",
                    "clause": "第3条",
                    "score": 0.78,
                    "match_keyword": "ABS系统",
                    "category": "medium",
                    "full_content": "车辆应配备防抱死制动系统，系统性能应符合相关标准要求。",
                },
                {
                    "id": 11,
                    "name": "C-NCAP管理规则",
                    "clause": "第4.2条",
                    "score": 0.71,
                    "match_keyword": "AEB自动制动",
                    "category": "medium",
                    "full_content": "主动安全配置评分包含AEB功能，AEB系统应能有效检测障碍物并主动减速。",
                },
                {
                    "id": 12,
                    "name": "机动车运行安全技术条件",
                    "clause": "第15条",
                    "score": 0.38,
                    "match_keyword": "疲劳监测",
                    "category": "low",
                    "full_content": "建议配备驾驶员状态监测系统，及时发现驾驶员疲劳或分心状态。",
                },
            ],
        },
    ],
    "priority_actions": [
        {
            "regulation": "GB 26112-2010 第4.2条",
            "issue": "缺少车顶抗压强度测试数据",
            "suggestion": "补充车顶抗压强度具体测试数据，确保满足1.5倍整备质量载荷要求",
            "severity": "high",
        },
        {
            "regulation": "GB/T 31484-2015 第4条",
            "issue": "缺少电池热失控测试报告",
            "suggestion": "补充电池热失控测试报告，验证5分钟内不起火不爆炸",
            "severity": "high",
        },
        {
            "regulation": "C-NCAP管理规则 第3.1条",
            "issue": "缺少碰撞后车门开启性能数据",
            "suggestion": "提供碰撞后车门开启性能测试数据",
            "severity": "medium",
        },
    ],
 }
 # 预设合规对话响应模板
 MOCK_COMPLIANCE_CHAT_RESPONSES: Dict[str, Dict[str, str]] = {
    "车身结构设计": {
        "compliance": "根据当前分析，车身结构设计部分存在以下合规问题：\n\n1. GB 26112-2010要求车顶承受1.5倍整备质量载荷，目前设计声明满足要求但缺少测试数据\n2. C-NCAP正面碰撞后车门应能打开，需提供碰撞测试报告\n\n建议补充相关测试数据以提升合规评分。",
        "interpretation": "GB 26112-2010 第4.2条具体要求解读：\n\n车顶抗压强度测试是车辆被动安全的重要指标。该标准要求车顶结构能够承受相当于车辆整备质量1.5倍的均匀分布载荷，试验后车顶变形量不得超过规定限值。\n\n热成型钢板（22MnB5材料）抗拉强度约1500-1650 MPa，理论上能满足要求，但需通过实际测试验证。",
        "suggestion": "针对车身结构设计的修改建议：\n\n1. 补充车顶抗压强度测试报告\n2. 提供A柱材料认证证书\n3. 完善正面碰撞能量吸收设计说明\n4. 添加碰撞后车门开启性能数据\n\n这些补充材料可有效提升合规评分。",
    },
    "动力系统配置": {
        "compliance": "动力系统配置整体合规性良好，主要检查点：\n\n1. 电池能量密度180Wh/kg超过最低要求120Wh/kg ✓\n2. 充电接口符合GB/T 18487.1标准 ✓\n3. 快充30分钟充至80%符合行业标准 ✓\n\n需补充电池热失控测试报告。",
        "interpretation": "GB/T 31484-2015对动力电池的要求解读：\n\n1. 能量密度：不低于120Wh/kg（您的设计180Wh/kg满足要求）\n2. 循环寿命：不少于1000次循环后容量保持率≥80%\n3. 安全测试：需通过针刺、过充、短路等测试\n\n建议补充循环寿命测试数据。",
        "suggestion": "动力系统配置改进建议：\n\n1. 补充电池热失控测试报告\n2. 提供循环寿命测试数据\n3. 添加充电系统过充保护功能说明\n4. 完善电池管理系统（BMS）技术文档",
    },
    "安全配置设计": {
        "compliance": "安全配置设计合规性评估：\n\n1. 安全气囊配置满足GB 27887-2011要求 ✓\n2. ABS/ESP系统符合标准 ✓\n3. AEB功能是C-NCAP加分项 ✓\n\n驾驶员疲劳监测是建议配置，不强制要求。",
        "interpretation": "C-NCAP主动安全评分规则解读：\n\nAEB（自动紧急制动）系统是C-NCAP评分的重要加分项，最高可获得额外加分。测试场景包括：\n- 目标车静止场景\n- 目标车移动场景\n- 目标车制动场景\n\n建议完善AEB系统测试数据以获取更高评分。",
        "suggestion": "安全配置优化建议：\n\n1. 提供AEB系统测试数据\n2. 补充FCW预警功能测试报告\n3. 添加安全气囊展开时间数据\n4. 完善驾驶员疲劳监测系统说明（如有）",
    },
 }
 # 预设系统统计数据
 MOCK_SYSTEM_STATS: Dict[str, int] = {
    "docs": 5,
    "chunks": 510,
    "vectors": 510,
    "segments": 0,
 }
 # 预设系统配置
 MOCK_SYSTEM_CONFIG: Dict[str, Any] = {
    "llm": {
        "model": "qwen-max",
    },
    "embedding": {
        "model": "text-embedding-v3",
        "dimension": 1536,
    },
    "milvus": {
        "host": "localhost",
        "port": 19530,
    },
    "retrieval": {
        "vector_top_k": 10,
        "final_top_k": 5,
    },
 }
 def get_mock_documents() -> List[Dict[str, Any]]:
    """获取预设法规文档列表"""
    return MOCK_DOCUMENTS
 def get_mock_quick_questions() -> List[Dict[str, str]]:
    """获取预设快捷问题"""
    return MOCK_QUICK_QUESTIONS
 def get_mock_retrieval(query: str, top_k: int = 5) -> List[Dict[str, Any]]:
    """根据查询关键词返回预设检索结果"""
    results = []
    for keyword, data in MOCK_RAG_ANSWERS.items():
        if keyword in query:
            for retrieval_id in data.get("retrieval_ids", []):
                for item in MOCK_RETRIEVAL_RESULTS:
                    if item["id"] == retrieval_id:
                        results.append({
                            "id": item["id"],
                            "score": item["score"],
                            "preview": item["preview"],
                            "doc_name": item["doc_name"],
                            "clause": item["clause"],
                        })
                        break
    if not results:
        results = MOCK_RETRIEVAL_RESULTS[:top_k]
    return results[:top_k]
 def get_mock_rag_answer(query: str) -> str:
    """根据查询关键词返回预设答案"""
    for keyword, data in MOCK_RAG_ANSWERS.items():
        if keyword in query:
            return data["text"]
    return "抱歉，暂未找到与您问题直接相关的法规内容。请尝试更具体的问题，或联系交通管理部门获取详细信息。\n\n您可以尝试询问：电动自行车、驾驶证、超速处罚、年检、电池安全、碰撞测试、AEB系统、高速公路规则等话题。"
 def get_mock_compliance_result(task_id: str) -> Dict[str, Any]:
    """获取预设合规分析结果"""
    result = MOCK_COMPLIANCE_RESULT.copy()
    result["task_id"] = task_id
    return result
 def get_mock_compliance_chat_response(intent: str, query: str) -> str:
    """获取预设合规对话响应"""
    responses = MOCK_COMPLIANCE_CHAT_RESPONSES.get(intent, {})
    if "合规" in query or "符合" in query:
        return responses.get("compliance", "根据相关法规分析，该段落的合规性需进一步评估。")
    elif "解读" in query or "什么" in query or "如何" in query:
        return responses.get("interpretation", "法规要求详细解读如下...")
    elif "修改" in query or "建议" in query or "完善" in query:
        return responses.get("suggestion", "建议进行以下修改以提升合规性...")
    return f"关于您的问题，{intent}部分涉及多条相关法规。您可以进一步询问合规性评估或修改建议。"
 def generate_task_id() -> str:
    """生成任务ID"""
    return f"task-{uuid.uuid4().hex[:8]}"
 def generate_doc_id() -> str:
    """生成文档ID"""
    return f"doc-{uuid.uuid4().hex[:8]}"
--- a/app/utils/init.py
+++ b/app/utils/init.py
@@ -0,0 +1,4 @@
 from .chunking import TextChunker, chunker
 from .logger import logger, setup_logging
 __all__ = ["TextChunker", "chunker", "logger", "setup_logging"]
--- a/app/utils/chunking.py
+++ b/app/utils/chunking.py
@@ -0,0 +1,78 @@
 import re
 from typing import List
 from app.core.config import settings
 class TextChunker:
    def __init__(
        self,
        chunk_size: int = settings.chunk_size,
        chunk_overlap: int = settings.chunk_overlap,
    ):
        self.chunk_size = chunk_size
        self.chunk_overlap = chunk_overlap
    def chunk_by_clause(self, text: str) -> List[dict]:
        """按条款边界分块（适用于法规文档）"""
        clause_pattern = r"(第[一二三四五六七八九十百]+条)"
        parts = re.split(clause_pattern, text)
        chunks = []
        current_clause = None
        current_text = ""
        chunk_index = 0
        for part in parts:
            if re.match(clause_pattern, part):
                if current_clause and current_text.strip():
                    chunks.append({
                        "clause_id": current_clause,
                        "content": current_text.strip(),
                        "chunk_index": chunk_index,
                    })
                    chunk_index += 1
                current_clause = part
                current_text = ""
            else:
                current_text += part
        if current_clause and current_text.strip():
            chunks.append({
                "clause_id": current_clause,
                "content": current_text.strip(),
                "chunk_index": chunk_index,
            })
        return chunks
    def chunk_by_size(self, text: str) -> List[dict]:
        """按固定大小分块"""
        chunks = []
        start = 0
        chunk_index = 0
        while start < len(text):
            end = start + self.chunk_size
            chunk_text = text[start:end]
            if chunk_text.strip():
                chunks.append({
                    "content": chunk_text.strip(),
                    "chunk_index": chunk_index,
                    "start_pos": start,
                    "end_pos": end,
                })
                chunk_index += 1
            start = end - self.chunk_overlap
        return chunks
    def estimate_tokens(self, text: str) -> int:
        """估算token数量"""
        chinese_chars = len(re.findall(r"[^\x00-\xff]", text))
        english_chars = len(text) - chinese_chars
        return int(chinese_chars / 1.5 + english_chars / 4)
 chunker = TextChunker()
--- a/app/utils/logger.py
+++ b/app/utils/logger.py
@@ -0,0 +1,24 @@
 import logging
 import sys
 def setup_logging() -> logging.Logger:
    """配置日志"""
    logger = logging.getLogger("app")
    logger.setLevel(logging.INFO)
    handler = logging.StreamHandler(sys.stdout)
    handler.setLevel(logging.INFO)
    formatter = logging.Formatter(
        fmt="%(asctime)s | %(levelname)s | %(name)s | %(message)s",
        datefmt="%Y-%m-%d %H:%M:%S",
    )
    handler.setFormatter(formatter)
    logger.addHandler(handler)
    return logger
 logger = setup_logging()
--- a/app/workflows/init.py
+++ b/app/workflows/init.py
@@ -0,0 +1,12 @@
 from .rag_workflow import RagState, rag_workflow, run_rag_workflow, stream_rag_workflow
 from .compliance_workflow import ComplianceState, compliance_workflow, run_compliance_workflow
 __all__ = [
    "RagState",
    "rag_workflow",
    "run_rag_workflow",
    "stream_rag_workflow",
    "ComplianceState",
    "compliance_workflow",
    "run_compliance_workflow",
 ]
--- a/app/workflows/compliance_workflow.py
+++ b/app/workflows/compliance_workflow.py
@@ -0,0 +1,175 @@
 from typing import TypedDict, List
 from langgraph.graph import StateGraph, END
 class ComplianceState(TypedDict):
    document_path: str
    raw_text: str
    segments: List[dict]
    matched_regulations: List[dict]
    risk_dashboard: dict
    priority_actions: List[dict]
 def parse_document(state: ComplianceState) -> dict:
    """解析文档"""
    from app.services import get_document_service
    doc_service = get_document_service(
        "/airegulation/demo-mao/backend/data/raw",
        "/airegulation/demo-mao/backend/data/parsed",
    )
    text = doc_service.parse_document(state["document_path"])
    return {"raw_text": text}
 def segment_document(state: ComplianceState) -> dict:
    """AI语义分段"""
    from app.services import llm_service
    prompt = f"""请分析以下设计方案文档，按照设计意图将其分成若干语义段落。
 文档内容：
 {state['raw_text'][:3000]}
 请输出JSON格式的分段结果，每个段落包含：
 - intent: 段落意图/主题
 - startPos: 在原文中的起始位置（大致）
 - endPos: 在原文中的结束位置（大致）
 - keywords: 关键词列表
 输出格式：
 [{{"intent": "...", "startPos": 0, "endPos": 100, "keywords": [...]}}]"""
    # 简化处理：返回基本分段
    segments = [
        {
            "id": 1,
            "intent": "整体设计概述",
            "content": state["raw_text"][:500],
            "keywords": ["设计", "方案"],
        }
    ]
    return {"segments": segments}
 def match_regulations(state: ComplianceState) -> dict:
    """法规匹配"""
    from app.services import embedding_service, milvus_service
    matched = []
    for segment in state["segments"]:
        keyword_text = " ".join(segment.get("keywords", []))
        embedding = embedding_service.embed_single(keyword_text)
        docs = milvus_service.search(embedding, top_k=5)
        segment_regs = []
        for doc in docs:
            category = "high" if doc["score"] > 0.85 else ("medium" if doc["score"] > 0.6 else "low")
            segment_regs.append({
                "id": doc["id"],
                "name": doc["doc_name"],
                "clause": doc.get("clause_id"),
                "score": doc["score"],
                "match_keyword": keyword_text,
                "category": category,
                "full_content": doc["content"],
            })
        segment["regulations"] = segment_regs
        matched.append(segment)
    return {"matched_regulations": matched}
 def calculate_risk(state: ComplianceState) -> dict:
    """计算风险等级"""
    segments = state["matched_regulations"]
    high_count = 0
    medium_count = 0
    low_count = 0
    need_fix = 0
    total_score = 0
    for segment in segments:
        regs = segment.get("regulations", [])
        high_regs = [r for r in regs if r["category"] == "high"]
        if high_regs:
            avg_score = sum(r["score"] for r in high_regs) / len(high_regs)
            if avg_score < 0.9:
                segment["risk_level"] = "high"
                high_count += 1
                need_fix += 1
            elif avg_score < 0.92:
                segment["risk_level"] = "medium"
                medium_count += 1
            else:
                segment["risk_level"] = "low"
                low_count += 1
        else:
            segment["risk_level"] = "low"
            low_count += 1
        total_score += avg_score if high_regs else 100
    avg_score = total_score / len(segments) if segments else 100
    status = "pass" if avg_score >= 90 else ("warning" if avg_score >= 70 else "fail")
    status_label = "合规" if status == "pass" else ("需要修改" if status == "warning" else "高风险")
    dashboard = {
        "score": avg_score,
        "high_risk_count": high_count,
        "medium_risk_count": medium_count,
        "low_risk_count": low_count,
        "need_fix_segments": need_fix,
        "status": status,
        "status_label": status_label,
    }
    return {"risk_dashboard": dashboard, "segments": segments}
 def generate_suggestions(state: ComplianceState) -> dict:
    """生成优先建议"""
    actions = []
    for segment in state["segments"]:
        for reg in segment.get("regulations", []):
            if reg["category"] == "high" and reg["score"] < 0.9:
                actions.append({
                    "regulation": reg["name"],
                    "issue": reg["match_keyword"],
                    "suggestion": f"建议对照{reg['name']}第{reg.get('clause', '')}条进行修改",
                    "severity": "high",
                })
    return {"priority_actions": actions}
 # 构建工作流图
 compliance_graph = StateGraph(ComplianceState)
 compliance_graph.add_node("parse", parse_document)
 compliance_graph.add_node("segment", segment_document)
 compliance_graph.add_node("match", match_regulations)
 compliance_graph.add_node("score", calculate_risk)
 compliance_graph.add_node("suggest", generate_suggestions)
 compliance_graph.set_entry_point("parse")
 compliance_graph.add_edge("parse", "segment")
 compliance_graph.add_edge("segment", "match")
 compliance_graph.add_edge("match", "score")
 compliance_graph.add_edge("score", "suggest")
 compliance_graph.add_edge("suggest", END)
 compliance_workflow = compliance_graph.compile()
 async def run_compliance_workflow(document_path: str) -> ComplianceState:
    """运行合规分析工作流"""
    initial_state: ComplianceState = {"document_path": document_path}
    result = compliance_workflow.invoke(initial_state)
    return result
--- a/app/workflows/rag_workflow.py
+++ b/app/workflows/rag_workflow.py
@@ -0,0 +1,114 @@
 from typing import TypedDict, List
 from langgraph.graph import StateGraph, END
 class RagState(TypedDict):
    query: str
    query_embedding: List[float]
    retrieved_docs: List[dict]
    context: str
    answer: str
    sources: List[dict]
 def embed_query(state: RagState) -> dict:
    """将查询转为向量"""
    from app.services import embedding_service
    embedding = embedding_service.embed_single(state["query"])
    return {"query_embedding": embedding}
 def retrieve_docs(state: RagState) -> dict:
    """向量检索"""
    from app.services import milvus_service
    from app.core.config import settings
    docs = milvus_service.search(
        state["query_embedding"],
        top_k=settings.vector_top_k,
    )
    return {"retrieved_docs": docs[:settings.final_top_k]}
 def build_context(state: RagState) -> dict:
    """构建上下文"""
    context_parts = []
    sources = []
    for doc in state["retrieved_docs"]:
        context_parts.append(f"【{doc['doc_name']} - {doc.get('clause_id', '')}】\n{doc['content']}")
        sources.append({
            "name": doc["doc_name"],
            "clause": doc.get("clause_id"),
        })
    context = "\n\n".join(context_parts)
    return {"context": context, "sources": sources}
 def generate_answer(state: RagState) -> dict:
    """生成答案"""
    from app.services import llm_service
    prompt = f"""请根据以下法规内容回答用户问题，并在回答中标注引用的法规条款。
 法规内容：
 {state['context']}
 用户问题：{state['query']}
 请给出准确、简洁的回答，并引用相关法规条款。"""
    answer = ""
    for chunk in llm_service.generate_stream(prompt):
        answer += chunk
    return {"answer": answer}
 # 构建工作流图
 rag_graph = StateGraph(RagState)
 rag_graph.add_node("embed", embed_query)
 rag_graph.add_node("retrieve", retrieve_docs)
 rag_graph.add_node("build_context", build_context)
 rag_graph.add_node("generate", generate_answer)
 rag_graph.set_entry_point("embed")
 rag_graph.add_edge("embed", "retrieve")
 rag_graph.add_edge("retrieve", "build_context")
 rag_graph.add_edge("build_context", "generate")
 rag_graph.add_edge("generate", END)
 rag_workflow = rag_graph.compile()
 async def run_rag_workflow(query: str) -> RagState:
    """运行RAG工作流"""
    initial_state: RagState = {"query": query}
    result = rag_workflow.invoke(initial_state)
    return result
 def stream_rag_workflow(query: str):
    """流式运行RAG工作流"""
    from app.services import llm_service
    # 先完成检索阶段
    state: RagState = {"query": query}
    state.update(embed_query(state))
    state.update(retrieve_docs(state))
    state.update(build_context(state))
    # 流式生成阶段
    prompt = f"""请根据以下法规内容回答用户问题，并在回答中标注引用的法规条款。
 法规内容：
 {state['context']}
 用户问题：{state['query']}
 请给出准确、简洁的回答，并引用相关法规条款。"""
    for chunk in llm_service.generate_stream(prompt):
        yield {"type": "chunk", "text": chunk}
    yield {"type": "done", "sources": state["sources"]}
--- a/data/raw/compliance_task-32e64724_test_doc.txt
+++ b/data/raw/compliance_task-32e64724_test_doc.txt
@@ -0,0 +1 @@
 test content
--- a/data/raw/doc-3b47abd7_requirement.txt
+++ b/data/raw/doc-3b47abd7_requirement.txt
@@ -0,0 +1,2 @@
 apache-flink==1.13.2
 PyMySQL>=1.1.0
--- a/data/raw/doc-9b01a78a_requirement.txt
+++ b/data/raw/doc-9b01a78a_requirement.txt
@@ -0,0 +1,2 @@
 apache-flink==1.13.2
 PyMySQL>=1.1.0
--- a/main.py
+++ b/main.py
@@ -0,0 +1,6 @@
 def main():
    print("Hello from backend!")
 if __name__ == "__main__":
    main()
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -0,0 +1,7 @@
 [project]
 name = "backend"
 version = "0.1.0"
 description = "Add your description here"
 readme = "README.md"
 requires-python = ">=3.9"
 dependencies = []
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,34 @@
 # Web框架
 fastapi>=0.110.0
 uvicorn>=0.27.0
 # LangGraph & LangChain
 langgraph>=0.0.40
 langchain>=0.2.0
 langchain-community>=0.2.0
 # DashScope
 dashscope>=1.14.0
 # Milvus
 pymilvus>=2.3.0
 # 文档解析
 pypdf2>=3.0.0
 python-docx>=1.1.0
 pdfplumber>=0.10.0
 # Pydantic配置
 pydantic>=2.0.0
 pydantic-settings>=2.0.0
 # 工具
 python-multipart>=0.0.9
 sse-starlette>=1.8.0
 python-dotenv>=1.0.0
 tiktoken>=0.5.0
 httpx>=0.25.0
 # 测试
 pytest>=7.4.0
 pytest-asyncio>=0.21.0
--- a/tests/init.py
+++ b/tests/init.py
--- a/uv.lock
+++ b/uv.lock
@@ -0,0 +1,8 @@
 version = 1
 revision = 3
 requires-python = ">=3.9"
 [[package]]
 name = "backend"
 version = "0.1.0"
 source = { virtual = "." }
		`@@ -0,0 +1,3 @@`
							`from .routes import api_router`

							`__all__ = ["api_router"]`
		`@@ -0,0 +1,3 @@`
							`from .config import settings, Settings`

							`__all__ = ["settings", "Settings"]`