export default { translation: { common: { back: '返回', operationFailed: '操作失败', noResults: '无结果。', selectPlaceholder: '请选择', selectAll: '全选', delete: '删除', deleteModalTitle: '确定删除吗?', ok: '是', cancel: '否', total: '总共', rename: '重命名', name: '名称', save: '保存', namePlaceholder: '请输入名称', next: '下一步', create: '创建', edit: '编辑', upload: '上传', english: '英文', portugueseBr: '葡萄牙语 (巴西)', chinese: '简体中文', traditionalChinese: '繁体中文', language: '语言', languageMessage: '请输入语言', languagePlaceholder: '请选择语言', copy: '复制', copied: '复制成功', loading: '加载中...', close: '关闭', comingSoon: '即将推出', download: '下载', preview: '预览', move: '移动', warn: '提醒', action: '操作', s: '秒', pleaseSelect: '请选择', pleaseInput: '请输入', submit: '提交', clear: '清空', embedIntoSite: '嵌入网站', previousPage: '上一页', nextPage: '下一页', add: '添加', remove: '移除', search: '搜索', noDataFound: '没有找到数据。', noData: '暂无数据', promptPlaceholder: '请输入或使用 / 快速插入变量。', update: '更新', configure: '配置', all: '全部', refresh: '刷新', submitting: '提交中...', description: '描述', confirm: '确认', enabled: '已启用', clearFilter: '清空筛选', confirmFilter: '确认筛选', private: '私有', moreActions: '更多操作', disable: '禁用', enable: '启用', team: '团队', public: '公开', unknown: '未知', noDescription: '无描述', viewAll: '查看全部', viewDetails: '查看详情', mcp: { namePlaceholder: '我的 MCP 服务器', nameRequired: '长度必须为 1-64 个字符,只能包含字母、数字、连字符和下划线。', urlPlaceholder: 'https://api.example.com/v1/mcp', tokenPlaceholder: '例如 eyJhbGciOiJIUzI1Ni...', }, }, form: { fieldRequired: '{{field}} 是必填项', minValueExceeded: '{{field}} 不能小于 {{min}}', maxValueExceeded: '{{field}} 不能大于 {{max}}', configurationError: '表单配置错误', chipListPlaceholder: '输入后按回车添加', maxChipsExceeded: '{{field}}最多只能有{{max}}个标签', noChips: '暂无标签', formConfigError: '表单配置错误', }, knowledge: { basicInfo: '基础信息', uploadAvatar: '上传头像', nameRequired: '知识库名称不能为空', knowledgeBaseName: '知识库名称', descriptionPlaceholder: '请输入知识库描述...', permissionSettings: '权限设置', onlyMe: '仅自己', teamMembers: '团队成员', retrievalTest: '检索测试', configSettings: '配置设置', knowledgeBaseActions: '知识库操作', filter: '筛选', runStatus: { unstart: '未开始', running: '运行中', cancel: '已取消', done: '已完成', fail: '失败', unknown: '未知', parsing: '解析中' }, runStatusFilter: '运行状态', fileName: '文件名', actions: '操作', fileType: '文件类型', fileTypeFilter: '文件类型', searchFiles: '搜索文件', uploadFile: '上传文件', fileCount: '文件数量', chunkCount: '块数量', tokenCount: '令牌数量', size: '大小', createTime: '创建时间', updateTime: '更新时间', language: '语言', permission: '权限', embeddingModel: '嵌入模型', parser: '解析器', type: '类型', status: '状态', parseStatus: '解析状态', uploadTime: '上传时间', documentCount: '文档数量', lastUpdate: '最后更新', creator: '创建者', testPrompt: '测试提示', testResultOverview: '测试结果概览', matchedChunks: '匹配的块', relatedDocuments: '相关文档', returnedChunks: '返回的块', documentFilter: '文档筛选', selectDocuments: '选择文档', noContent: '无内容', keywords: '关键词', relatedDocumentStats: '相关文档统计', selectParserMethod: '选择解析器方法', unknown: '未知', description: '描述', pageRank: '页面排名', edge: '边', missingIds: '缺失的ID', nodeNotExists: '节点不存在', noGraphData: '无图数据可用', legend: '图例', graphStats: '图统计', reparse: '重新解析', cancelRun: '取消运行', renameFile: '重命名文件', viewDetails: '查看详情', viewFileDetails: '查看文件详情', matchedChunksCount: '匹配的块数量', matchedChunksTitle: '匹配的块标题', totalMatchedChunks: '总匹配块数', similarity: '相似度', vectorSimilarity: '向量相似度', termSimilarity: '词项相似度', nodeCount: '节点数量', edgeCount: '边数量', noMatchingKnowledgeBases: '没有匹配的知识库', noKnowledgeBases: '没有知识库', tryAdjustingFilters: '尝试调整筛选条件', createFirstKnowledgeBase: '创建您的第一个知识库', createKnowledgeBase: '创建知识库', noDescription: '无描述', config: { basicConfig: '基础配置', pageRankAndAutoExtract: '页面排名和自动提取', raptorStrategy: 'RAPTOR策略', knowledgeGraph: '知识图谱', chunkMethod: '切片方法', selectChunkMethod: '选择切片方法', pageRank: '页面排名', enterPageRank: '输入页面排名', autoKeywords: '自动关键词提取', enterKeywordCount: '输入关键词数量', autoQuestions: '自动问题提取', enterQuestionCount: '输入问题数量', pdfParser: 'PDF解析器', plainText: '纯文本', minerU: 'MinerU', tocEnhance: 'TOC Enhance', experimental: '实验性', delimiter: '分隔符', enterDelimiter: '请输入分隔符', embeddingModel: '嵌入模型', pageRankConfigTodo: 'PageRank配置 - 待实现', entityTypeConfigTodo: '实体类型配置 - 待实现', maxTokenConfigTodo: '最大Token数量配置 (最大: 16384) - 待实现', delimiterConfigTodo: '分隔符配置 - 待实现', chunkTokenSize: '建议文本块大小', htmlForExcel: '表格转HTML', tags: '标签集', useRaptorStrategy: '使用召回增强RAPTOR策略', prompt: '提示词', raptorPromptDefault: '请总结以下段落。小心数字,不要编造。段落如下:\n{cluster_content}\n以上就是你需要总结的内容。', maxTokens: '最大token数', threshold: '阈值', maxClusterCount: '最大聚类数', randomSeed: '随机种子', extractKnowledgeGraph: '提取知识图谱', entityTypes: '*实体类型', method: '方法', entityNormalization: '实体归一化', communityReportGeneration: '社区报告生成', parser: { general: '通用解析器', qa: 'Q&A解析器', resume: 'Resume解析器', manual: 'Manual解析器', table: 'Table解析器', paper: 'Paper解析器', book: 'Book解析器', laws: 'Laws解析器', presentation: 'Presentation解析器', one: 'One解析器', tag: 'Tag解析器', }, }, }, login: { login: '登录', signUp: '注册', loginDescription: '很高兴再次见到您!', registerDescription: '很高兴您加入!', emailLabel: '邮箱', emailPlaceholder: '请输入邮箱地址', passwordLabel: '密码', passwordPlaceholder: '请输入密码', rememberMe: '记住我', signInTip: '没有帐户?', signUpTip: '已经有帐户?', nicknameLabel: '名称', nicknamePlaceholder: '请输入名称', register: '创建账户', continue: '继续', title: '开始构建您的智能助手', description: '免费注册以探索顶级 RAG 技术。 创建知识库和人工智能来增强您的业务', review: '来自 500 多条评论', }, header: { knowledgeBase: '知识库', chat: '聊天', register: '注册', signin: '登录', home: '首页', setting: '用户设置', logout: '登出', fileManager: '文件管理', flow: '智能体', search: '搜索', welcome: '欢迎来到', }, knowledgeHooks: { fetchKnowledgeListFailed: '获取知识库列表失败', fetchKnowledgeDetailFailed: '获取知识库详情失败', fetchKnowledgeGraphFailed: '获取知识库图失败', createKnowledgeFailed: '创建知识库失败', updateKnowledgeBasicInfoFailed: '更新知识库基础信息失败', updateKnowledgeModelConfigFailed: '更新知识库模型配置失败', deleteKnowledgeFailed: '删除知识库失败', batchDeleteKnowledgeFailed: '批量删除知识库失败', batchDeleteFailedKnowledgeBases: '删除失败的知识库', }, knowledgeTesting: { retrievalTestComplete: '检索测试完成', retrievalTestFailed: '检索测试失败', paginationRequestFailed: '分页请求失败', knowledgeBase: '知识库', knowledgeBaseDetail: '知识库详情', testing: '测试', knowledgeBaseTesting: '知识库测试', testConfiguration: '测试配置', testQuestion: '测试问题', pleaseEnterTestQuestion: '请输入测试问题', testQuestionPlaceholder: '请输入您想要测试的问题...', similarityThreshold: '相似度阈值', vectorSimilarityWeight: '向量相似度权重', rerankModel: '重排序模型 (可选)', noRerank: '不使用重排序', pleaseEnterResultCount: '请输入返回结果数量', minValue1: '最小值为1', maxValue2048: '最大值为2048', useWithRerankModel: '与Rerank模型配合使用', crossLanguageSearch: '跨语言搜索', useKnowledgeGraph: '使用知识图谱', startTest: '开始测试', languages: { english: 'English', chinese: 'Chinese', japanese: 'Japanese', korean: 'Korean', french: 'French', german: 'German', spanish: 'Spanish', italian: 'Italian', portuguese: 'Portuguese', russian: 'Russian', arabic: 'Arabic', hindi: 'Hindi', thai: 'Thai', vietnamese: 'Vietnamese', indonesian: 'Indonesian', malay: 'Malay', filipino: 'Filipino', turkish: 'Turkish', polish: 'Polish', dutch: 'Dutch', swedish: 'Swedish', danish: 'Danish', norwegian: 'Norwegian', finnish: 'Finnish', hebrew: 'Hebrew', czech: 'Czech', slovak: 'Slovak', hungarian: 'Hungarian', romanian: 'Romanian', bulgarian: 'Bulgarian', croatian: 'Croatian', serbian: 'Serbian', slovenian: 'Slovenian', estonian: 'Estonian', latvian: 'Latvian', lithuanian: 'Lithuanian', maltese: 'Maltese', irish: 'Irish', welsh: 'Welsh', basque: 'Basque', catalan: 'Catalan', galician: 'Galician', icelandic: 'Icelandic', macedonian: 'Macedonian', albanian: 'Albanian', belarusian: 'Belarusian', ukrainian: 'Ukrainian', kazakh: 'Kazakh', kyrgyz: 'Kyrgyz', uzbek: 'Uzbek', tajik: 'Tajik', mongolian: 'Mongolian', georgian: 'Georgian', armenian: 'Armenian', azerbaijani: 'Azerbaijani', persian: 'Persian', urdu: 'Urdu', bengali: 'Bengali', tamil: 'Tamil', telugu: 'Telugu', malayalam: 'Malayalam', kannada: 'Kannada', gujarati: 'Gujarati', punjabi: 'Punjabi', odia: 'Odia', assamese: 'Assamese', nepali: 'Nepali', sinhala: 'Sinhala', burmese: 'Burmese', khmer: 'Khmer', lao: 'Lao', swahili: 'Swahili', amharic: 'Amharic', yoruba: 'Yoruba', igbo: 'Igbo', hausa: 'Hausa', zulu: 'Zulu', xhosa: 'Xhosa', afrikaans: 'Afrikaans', } }, knowledgeSettings: { submitData: '提交数据:', basicInfoUpdateSuccess: '基础信息更新成功', parseConfigUpdateSuccess: '解析配置更新成功', updateFailed: '{{type}}更新失败', basicInfo: '基础信息', parseConfig: '解析配置', knowledgeBase: '知识库', knowledgeBaseDetail: '知识库详情', settings: '设置', knowledgeBaseSettings: '知识库设置', settingsTabs: '设置选项卡', backToKnowledgeDetail: '返回知识库详情', }, knowledgeList: { welcome: '欢迎使用知识库', description: '创建和管理您的知识库', createKnowledgeBase: '创建知识库', name: '名称', namePlaceholder: '请输入知识库名称', doc: '文档', searchKnowledgePlaceholder: '搜索', noMoreData: '没有更多数据了', confirmDeleteKnowledge: '是否确认删除知识库', teamFilter: '团队筛选', loadError: '加载知识库列表失败', paginationInfo: '共 {{total}} 个知识库,第 {{current}} 页,共 {{totalPages}} 页', }, knowledgeDetails: { fileSize: '文件大小', fileType: '文件类型', uploadedBy: '创建者', notGenerated: '未生成', generatedOn: '生成于', subbarFiles: '文件列表', generate: '生成', raptor: 'Raptor', processingType: '处理类型', dataPipeline: '数据管道', operations: '操作', taskId: '任务ID', duration: '耗时', details: '详情', status: '状态', task: '任务', startDate: '开始时间', source: '来源', fileName: '文件名', datasetLogs: '数据集日志', fileLogs: '文件日志', overview: '概览', success: '成功', failed: '失败', completed: '已完成', datasetLog: '知识库日志', created: '创建于', learnMore: '了解更多', general: '通用', chunkMethodTab: '切片方法', testResults: '测试结果', testSetting: '测试设置', retrievalTesting: '知识检索测试', retrievalTestingDescription: '进行检索测试,检查 RAGFlow 是否能够为大语言模型(LLM)恢复预期的内容。', Parse: '解析', dataset: '知识库', testing: '检索测试', configuration: '配置', knowledgeGraph: '知识图谱', files: '个文件', name: '名称', namePlaceholder: '请输入名称', doc: '文档', datasetDescription: '解析成功后才能问答哦。', // 新增的字段 deleteFileFailed: '删除文件失败', uploadFiles: '上传文件:', uploadFileFailed: '上传文件失败', reparseFailed: '重新解析失败', renameFailed: '重命名失败', changeStatusFailed: '更改状态失败', viewDetails: '查看详情', viewProcessDetails: '查看解析详情', knowledgeBase: '知识库', knowledgeBaseDetail: '知识库详情', documents: 'Documents', graph: 'Graph', deleteFiles: '删除文件:', newSelectionModel: '新的选择模型:', uploadFilesToKnowledge: '上传文件到知识库', confirmDelete: '确认删除', confirmDeleteMessage: '确定要删除选中的 {{count}} 个文件吗?此操作不可撤销。', documentProcessDetails: '文档处理详情', basicInfo: '基本信息', parserId: '解析器ID', notSpecified: '未指定', processStatus: '处理状态', startTime: '开始时间', notStarted: '未开始', processingTime: '处理时长', notCompleted: '未完成', progress: '进度', processDetails: '处理详情', seconds: '秒', addFile: '新增文件', searchFiles: '搜索文件', localFiles: '本地文件', emptyFiles: '新建空文件', webCrawl: '网页抓取', chunkNumber: '分块数', uploadDate: '上传日期', chunkMethod: '切片方法', enabled: '启用', disabled: '禁用', action: '动作', parsingStatus: '解析状态', parsingStatusTip: '文本解析的时间取决于诸多因素。如果开启了知识图谱、RAPTOR、自动问题提取、自动关键词提取等功能,时间会更长。如果解析进度条长时间不更新,也可以参考这两条 FAQ:https://ragflow.io/docs/dev/faq#why-does-my-document-parsing-stall-at-under-one-percent。', processBeginAt: '开始于', processDuration: '持续时间', progressMsg: '进度', noTestResultsForRuned: '未找到相关结果,请尝试调整查询语句或参数', noTestResultsForNotRuned: '尚未运行测试,结果会显示在这里', testingDescription: '请完成召回测试:确保你的配置可以从数据库召回正确的文本块。如果你调整了这里的默认设置,比如关键词相似度权重,请注意这里的改动不会被自动保存。请务必在聊天助手设置或者召回算子设置处同步更新相关设置。', similarityThreshold: '相似度阈值', similarityThresholdTip: '我们使用混合相似度得分来评估两行文本之间的距离。 它是加权关键词相似度和向量余弦相似度。 如果查询和块之间的相似度小于此阈值,则该块将被过滤掉。默认设置为 0.2,也就是说文本块的混合相似度得分至少 20 才会被召回。', vectorSimilarityWeight: '向量相似度权重', vectorSimilarityWeightTip: '我们使用混合相似性评分来评估两行文本之间的距离。它是加权关键字相似性和矢量余弦相似性或rerank得分(0〜1)。两个权重的总和为1.0。', keywordSimilarityWeight: '关键词相似度权重', keywordSimilarityWeightTip: '我们使用混合相似性评分来评估两行文本之间的距离。它是加权关键字相似性和矢量余弦相似性或rerank得分(0〜1)。两个权重的总和为1.0。', testText: '测试文本', testTextPlaceholder: '请输入您的问题!', testingLabel: '测试', generateKnowledgeGraph: '这将从此数据集中的所有文档中提取实体和关系。该过程可能需要一段时间才能完成。', generateRaptor: '这将从此数据集中的所有文档中提取实体和关系。该过程可能需要一段时间才能完成。', similarity: '混合相似度', termSimilarity: '关键词相似度', vectorSimilarity: '向量相似度', hits: '命中数', view: '看法', filesSelected: '选定的文件', upload: '上传', run: '解析', runningStatus0: '未解析', runningStatus1: '解析中', runningStatus2: '取消', runningStatus3: '成功', runningStatus4: '失败', pageRanges: '页码范围', pageRangesTip: '页码范围:定义需要解析的页面范围。 不包含在这些范围内的页面将被忽略。', fromPlaceholder: '从', fromMessage: '缺少起始页码', toPlaceholder: '到', toMessage: '缺少结束页码(不包含)', layoutRecognize: 'PDF解析器', layoutRecognizeTip: '使用视觉模型进行 PDF 布局分析,以更好地识别文档结构,找到标题、文本块、图像和表格的位置。 如果选择 Naive 选项,则只能获取 PDF 的纯文本。请注意该功能只适用于 PDF 文档,对其他文档不生效。欲了解更多信息,请参阅 https://ragflow.io/docs/dev/select_pdf_parser。', taskPageSize: '任务页面大小', taskPageSizeMessage: '请输入您的任务页面大小!', taskPageSizeTip: `如果使用布局识别,PDF 文件将被分成连续的组。 布局分析将在组之间并行执行,以提高处理速度。 “任务页面大小”决定组的大小。 页面大小越大,将页面之间的连续文本分割成不同块的机会就越低。`, addPage: '新增页面', greaterThan: '当前值必须大于起始值!', greaterThanPrevious: '当前值必须大于之前的值!', selectFiles: '选择文件', changeSpecificCategory: '更改特定类别', uploadTitle: '点击或拖拽文件至此区域即可上传', uploadDescription: '支持单次或批量上传。本地部署的单次上传文件总大小上限为 1GB,单次批量上传文件数不超过 32,单个账户不限文件数量。对于 demo.ragflow.io:每次上传的总文件大小限制为 10MB,每个文件不得超过 10MB,每个账户最多可上传 128 个文件。严禁上传违禁文件。', chunk: '解析块', bulk: '批量', cancel: '取消', close: '关闭', rerankModel: 'Rerank模型', rerankPlaceholder: '请选择', rerankTip: `非必选项:若不选择 rerank 模型,系统将默认采用关键词相似度与向量余弦相似度相结合的混合查询方式;如果设置了 rerank 模型,则混合查询中的向量相似度部分将被 rerank 打分替代。请注意:采用 rerank 模型会非常耗时。如需选用 rerank 模型,建议使用 SaaS 的 rerank 模型服务;如果你倾向使用本地部署的 rerank 模型,请务必确保你使用 docker-compose-gpu.yml 启动 RAGFlow。`, topK: 'Top-K', topKTip: `与 Rerank 模型配合使用,用于设置传给 Rerank 模型的文本块数量。`, delimiter: `文本分段标识符`, delimiterTip: '支持多字符作为分隔符,多字符用两个反引号 \\`\\` 分隔符包裹。若配置成:\\n`##`; 系统将首先使用换行符、两个#号以及分号先对文本进行分割,随后再对分得的小文本块按照「建议文本块大小」设定的大小进行拼装。在设置文本分段标识符前请确保理解上述文本分段切片机制。', html4excel: '表格转HTML', html4excelTip: `与 General 切片方法配合使用。未开启状态下,表格文件(XLSX、XLS(Excel 97-2003))会按行解析为键值对。开启后,表格文件会被解析为 HTML 表格。若原始表格超过 12 行,系统会自动按每 12 行拆分为多个 HTML 表格。欲了解更多详情,请参阅 https://ragflow.io/docs/dev/enable_excel2html。`, autoKeywords: '自动关键词提取', autoKeywordsTip: `自动为每个文本块中提取 N 个关键词,用以提升查询精度。请注意:该功能采用“系统模型设置”中设置的默认聊天模型提取关键词,因此也会产生更多 Token 消耗。另外,你也可以手动更新生成的关键词。详情请见 https://ragflow.io/docs/dev/autokeyword_autoquestion。`, autoQuestions: '自动问题提取', autoQuestionsTip: `利用“系统模型设置”中设置的 chat model 对知识库的每个文本块提取 N 个问题以提高其排名得分。请注意,开启后将消耗额外的 token。您可以在块列表中查看、编辑结果。如果自动问题提取发生错误,不会妨碍整个分块过程,只会将空结果添加到原始文本块。详情请见 https://ragflow.io/docs/dev/autokeyword_autoquestion。`, redo: '是否清空已有 {{chunkNum}}个 chunk?', setMetaData: '设置元数据', pleaseInputJson: '请输入JSON', documentMetaTips: `
元数据为 Json 格式(不可搜索)。如果提示中包含此文档的任何块,它将被添加到 LLM 的提示中。
示例:
元数据为:
{
"作者": "Alex Dowson",
"日期": "2024-11-12"
}
文档:the_name_of_document
作者:Alex Dowson
日期:2024-11-12
相关片段如下:
删除生成的 {{type}} 结果 将从此数据集中移除所有派生实体和关系。 您的原始文件将保持不变。
是否要继续?
`,
extractRaptor: '从文档中提取Raptor',
extractKnowledgeGraph: '从文档中提取知识图谱',
filterPlaceholder: '请输入',
fileFilterTip: '',
fileFilter: '正则匹配表达式',
setDefaultTip: '',
setDefault: '设置默认',
eidtLinkDataPipeline: '编辑数据流',
linkPipelineSetTip: '管理与此数据集的数据管道链接',
default: '默认',
dataPipeline: '数据流',
linkDataPipeline: '关联数据流',
enableAutoGenerate: '是否启用自动生成',
teamPlaceholder: '请选择团队',
dataFlowPlaceholder: '请选择数据流',
buildItFromScratch: '去Scratch构建',
dataFlow: '数据流',
parseType: '切片方法',
manualSetup: '手动设置',
builtIn: '内置',
titleDescription: '在这里更新您的知识库详细信息,尤其是切片方法。',
name: '知识库名称',
photo: '知识库图片',
photoTip: '你可以上传4MB的文件',
description: '描述',
language: '文档语言',
languageMessage: '请输入语言',
languagePlaceholder: '请选择语言',
permissions: '权限',
embeddingModel: '嵌入模型',
chunkTokenNumber: '建议文本块大小',
chunkTokenNumberMessage: '块Token数是必填项',
embeddingModelTip:
'知识库采用的默认嵌入模型。 一旦知识库内已经产生了文本块后,你将无法更改默认的嵌入模型,除非删除知识库内的所有文本块。',
permissionsTip:
'如果把知识库权限设为“团队”,则所有团队成员都可以操作该知识库。',
chunkTokenNumberTip:
'建议的生成文本块的 token 数阈值。如果切分得到的小文本段 token 数达不到这一阈值就会不断与之后的文本段合并,直至再合并下一个文本段会超过这一阈值为止,此时产生一个最终文本块。如果系统在切分文本段时始终没有遇到文本分段标识符,即便文本段 token 数已经超过这一阈值,系统也不会生成新文本块。',
chunkMethod: '切片方法',
chunkMethodTip: '说明位于右侧。',
upload: '上传',
english: '英文',
chinese: '中文',
embeddingModelPlaceholder: '请选择嵌入模型',
chunkMethodPlaceholder: '请选择分块方法',
save: '保存',
me: '只有我',
team: '团队',
cancel: '取消',
methodTitle: '分块方法说明',
methodExamples: '示例',
methodExamplesDescription:
'为帮助您更好地理解,我们提供了相关截图供您参考。',
dialogueExamplesTitle: '对话示例',
methodEmpty: '这将显示知识库类别的可视化解释',
book: `
支持的文件格式为DOCX、PDF、TXT。
由于一本书很长,并不是所有部分都有用,如果是 PDF, 请为每本书设置页面范围,以消除负面影响并节省分析计算时间。
`, laws: `支持的文件格式为DOCX、PDF、TXT。
法律文件有非常严格的书写格式。 我们使用文本特征来检测分割点。
chunk的粒度与'ARTICLE'一致,所有上层文本都会包含在chunk中。
`, manual: `仅支持PDF。
我们假设手册具有分层部分结构。 我们使用最低的部分标题作为对文档进行切片的枢轴。 因此,同一部分中的图和表不会被分割,并且块大小可能会很大。
`, naive: `支持的文件格式为MD、MDX、DOCX、XLSX、XLS (Excel 97-2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML。
此方法将简单的方法应用于块文件:
仅支持PDF文件。
如果我们的模型运行良好,论文将按其部分进行切片,例如摘要、1.1、1.2等。
这样做的好处是LLM可以更好的概括论文中相关章节的内容, 产生更全面的答案,帮助读者更好地理解论文。 缺点是它增加了 LLM 对话的背景并增加了计算成本, 所以在对话过程中,你可以考虑减少‘topN’的设置。
`, presentation: `支持的文件格式为PDF、PPTX。
每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。
您上传的所有PPT文件都会使用此方法自动分块,无需为每个PPT文件进行设置。
`, qa: `此块方法支持 excel 和 csv/txt 文件格式。
未能遵循上述规则的文本行将被忽略,并且 每个问答对将被认为是一个独特的部分。
`, resume: `支持的文件格式为DOCX、PDF、TXT。
简历有多种格式,就像一个人的个性一样,但我们经常必须将它们组织成结构化数据,以便于搜索。
我们不是将简历分块,而是将简历解析为结构化数据。 作为HR,你可以扔掉所有的简历, 您只需与'RAGFlow'交谈即可列出所有符合资格的候选人。
`, table: `支持XLSX和CSV/TXT格式文件。
以下是一些提示:
以下是标题的一些示例:
支持图像文件。 视频即将推出。
如果图片中有文字,则应用 OCR 提取文字作为其文字描述。
如果OCR提取的文本不够,可以使用视觉LLM来获取描述。
`, one: `支持的文件格式为DOCX、EXCEL、PDF、TXT。
对于一个文档,它将被视为一个完整的块,根本不会被分割。
如果你要总结的东西需要一篇文章的全部上下文,并且所选LLM的上下文长度覆盖了文档长度,你可以尝试这种方法。
`, knowledgeGraph: `支持的文件格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML
文件分块后,使用分块提取整个文档的知识图谱和思维导图。此方法将简单的方法应用于分块文件: 连续的文本将被切成大约 512 个 token 数的块。
接下来,将分块传输到 LLM 以提取知识图谱和思维导图的节点和关系。
注意您需要指定的条目类型。`, tag: `使用“Tag”分块方法的知识库用作标签集.其他知识库可以把标签集当中的标签按照相似度匹配到自己对应的文本块中,对这些知识库的查询也将根据此标签集对自己进行标记。
标签集不会直接参与 RAG 检索过程。
标签集中的每个文本分块是都是相互独立的标签和标签描述的文本对。
Tag 分块方法支持XLSX和CSV/TXT文件格式。
如果文件为XLSX格式,则它应该包含两列无标题:一列用于标签描述,另一列用于标签,标签描述列位于标签列之前。支持多个工作表,只要列结构正确即可。
如果文件为 CSV/TXT 格式,则必须使用 UTF-8 编码并以 TAB 作为分隔符来分隔内容和标签。
在标签列中,标签之间使用英文逗号分隔。
不符合上述规则的文本行将被忽略。 `, useRaptor: '使用召回增强 RAPTOR 策略', useRaptorTip: '为多跳问答任务启用 RAPTOR,详情请见 : https://ragflow.io/docs/dev/enable_raptor。', prompt: '提示词', promptMessage: '提示词是必填项', promptText: `请总结以下段落。 小心数字,不要编造。 段落如下: {cluster_content} 以上就是你需要总结的内容。`, maxToken: '最大token数', maxTokenMessage: '最大token数是必填项', threshold: '阈值', thresholdMessage: '阈值是必填项', maxCluster: '最大聚类数', maxClusterMessage: '最大聚类数是必填项', randomSeed: '随机种子', randomSeedMessage: '随机种子是必填项', promptTip: '系统提示为大模型提供任务描述、规定回复方式,以及设置其他各种要求。系统提示通常与 key (变量)合用,通过变量设置大模型的输入数据。你可以通过斜杠或者 (x) 按钮显示可用的 key。', maxTokenTip: '用于设定每个被总结的文本块的最大 token 数。', thresholdTip: '在 RAPTOR 中,数据块会根据它们的语义相似性进行聚类。阈值设定了数据块被分到同一组所需的最小相似度。阈值越高,每个聚类中的数据块越少;阈值越低,则每个聚类中的数据块越多。', maxClusterTip: '最多可创建的聚类数。', entityTypes: '实体类型', pageRank: '页面排名', pageRankTip: `知识库检索时,你可以为特定知识库设置较高的 PageRank 分数,该知识库中匹配文本块的混合相似度得分会自动叠加 PageRank 分数,从而提升排序权重。详见 https://ragflow.io/docs/dev/set_page_rank。`, tagName: '标签', frequency: '频次', searchTags: '搜索标签', tagCloud: '云', tagTable: '表', tagSet: '标签集', topnTags: 'Top-N 标签', tagSetTip: `请选择一个或多个标签集或标签知识库,用于对知识库中的每个文本块进行标记。
对这些文本块的查询也将自动关联相应标签。
此功能基于文本相似度,能够为数据集的文本块批量添加更多领域知识,从而显著提高检索准确性。该功能还能提升大量文本块的操作效率。
为了更好地理解标签集的作用,以下是标签集和关键词之间的主要区别:
详见:https://ragflow.io/docs/dev/use_tag_sets
`, tags: '标签', addTag: '增加标签', useGraphRag: '提取知识图谱', useGraphRagTip: '基于知识库内所有切好的文本块构建知识图谱,用以提升多跳和复杂问题回答的正确率。请注意:构建知识图谱将消耗大量 token 和时间。详见 https://ragflow.io/docs/dev/construct_knowledge_graph。', graphRagMethod: '方法', graphRagMethodTip: `Light:实体和关系提取提示来自 GitHub - HKUDS/LightRAG:“LightRAG:简单快速的检索增强生成”您即将从 {{step}} 步骤开始重新运行该过程
这将:
您目前正在编辑此阶段的结果。
如果您切换到后续阶段,您的更改将会丢失。
要保留这些更改,请点击“重新运行”以重新运行当前阶段。
`, changeStepModalConfirmText: '继续切换', changeStepModalCancelText: '取消', unlinkPipelineModalTitle: '解绑数据流', unlinkPipelineModalContent: `一旦取消链接,该数据集将不再连接到当前数据管道。
正在解析的文件将继续解析,直到完成。
尚未解析的文件将不再被处理。
你确定要继续吗?
`, unlinkPipelineModalConfirmText: '解绑', }, dataflow: { parser: '解析器', parserDescription: '从文件中提取原始文本和结构以供下游处理。', tokenizer: '分词器', tokenizerRequired: '请先添加Tokenizer节点', tokenizerDescription: '根据所选的搜索方法,将文本转换为所需的数据结构(例如,用于嵌入搜索的向量嵌入)。', splitter: '分词器拆分器', splitterDescription: '根据分词器长度将文本拆分成块,并带有可选的分隔符和重叠。', hierarchicalMergerDescription: '使用正则表达式规则按标题层次结构将文档拆分成多个部分,以实现更精细的控制。', hierarchicalMerger: '标题拆分器', extractor: '提取器', extractorDescription: '使用 LLM 从文档块(例如摘要、分类等)中提取结构化见解。', outputFormat: '输出格式', lang: '语言', fileFormats: '文件格式', fields: '字段', addParser: '增加解析器', hierarchy: '层次结构', regularExpressions: '正则表达式', overlappedPercent: '重叠百分比', searchMethod: '搜索方法', begin: '文件', parserMethod: '解析方法', systemPrompt: '系统提示词', systemPromptPlaceholder: '请输入用于图像分析的系统提示词,若为空则使用系统缺省值', exportJson: '导出 JSON', viewResult: '查看结果', running: '运行中', summary: '增强上下文', keywords: '关键词', questions: '问题', metadata: '元数据', fieldName: '结果目的地', prompts: { system: { keywords: `角色 你是一名文本分析员。 任务 从给定的文本内容中提取最重要的关键词/短语。 要求 - 总结文本内容,并给出最重要的5个关键词/短语。 - 关键词必须与给定的文本内容使用相同的语言。 - 关键词之间用英文逗号分隔。 - 仅输出关键词。`, questions: `角色 你是一名文本分析员。 任务 针对给定的文本内容提出3个问题。 要求 - 理解并总结文本内容,并提出最重要的3个问题。 - 问题的含义不应重叠。 - 问题应尽可能涵盖文本的主要内容。 - 问题必须与给定的文本内容使用相同的语言。 - 每行一个问题。 - 仅输出问题。`, summary: `扮演一个精准的摘要者。你的任务是为提供的内容创建一个简洁且忠实于原文的摘要。 关键说明: 1. 准确性:摘要必须严格基于所提供的信息。请勿引入任何未明确说明的新事实、结论或解释。 2. 语言:摘要必须使用与原文相同的语言。 3. 客观性:不带偏见地呈现要点,保留内容的原始意图和语气。请勿进行编辑。 4. 简洁性:专注于最重要的思想,省略细节和多余的内容。`, metadata: `从给定内容中提取重要的结构化信息。仅输出有效的 JSON 字符串,不包含任何附加文本。如果未找到重要的结构化信息,则输出一个空的 JSON 对象:{}。 重要的结构化信息可能包括:姓名、日期、地点、事件、关键事实、数字数据或其他可提取实体。`, }, user: { keywords: `文本内容 [在此处插入文本]`, questions: `文本内容 [在此处插入文本]`, summary: `要总结的文本: [在此处插入文本]`, metadata: `内容:[在此处插入内容]`, }, }, cancel: '取消', filenameEmbeddingWeight: '文件名嵌入权重', switchPromptMessage: '提示词将发生变化,请确认是否放弃已有提示词?', fileFormatOptions: { pdf: 'PDF', spreadsheet: '电子表格', image: '图片', email: '邮件', 'text&markdown': '文本和标记', word: 'Word', slides: 'PPT', audio: '音频', }, tokenizerSearchMethodOptions: { full_text: '全文', embedding: '嵌入', }, tokenizerFieldsOptions: { text: '处理后的文本', keywords: '关键词', questions: '问题', summary: '增强上下文', }, imageParseMethodOptions: { ocr: 'OCR', }, }, datasetOverview: { downloadTip: '正在从数据源下载文件。', processingTip: '正在由数据流处理文件。', totalFiles: '文件总数', downloading: '正在下载', processing: '正在处理', }, chunkPage: { loadingChunkData: '正在加载块数据...', noChunkData: '无块数据', noChunkDataDescription: '没有找到块数据', selectAll: '全选', selected: '已选择', items: '项', enable: '启用', disable: '禁用', clearSelection: '清除选择', chunkList: '块列表', page: '页', pageOf: '页,共', pages: '页', total: '总计', chunks: '块', containsImage: '包含图片', enabled: '已启用', disabled: '已禁用', contentPreview: '内容预览', noContent: '无内容', relatedImage: '相关图片', chunkRelatedImage: '块相关图片', keywordInfo: '关键词信息', important: '重要', question: '问题', tag: '标签', deleting: '删除中', confirmDeleteChunks: '确认删除选中的块', fetchDataFailed: '获取数据失败', fileFormatNotSupported: '不支持的文件格式', getDocumentFileFailed: '获取文档文件失败', fileTypeNotSupportedPreview: '不支持预览的文件类型', filePreview: '文件预览', loadingFile: '正在加载文件', missingParams: '缺少必要的参数:知识库ID或文档ID', knowledgeBase: '知识库', knowledgeBaseDetail: '知识库详情', documentDetail: '文档详情', documentChunkResult: '文档Chunk解析结果', viewDocument: '查看文档', allChunkData: '的所有chunk数据', totalChunkCount: '总Chunk数量', viewFile: '查看文件', searchChunkPlaceholder: '搜索chunk内容...', chunkContent: 'Chunk内容', chunkIndex: 'Chunk索引', chunkScore: 'Chunk评分', chunkKeywords: 'Chunk关键词', chunkQuestions: 'Chunk问题', noChunksFound: '未找到chunk数据', loadingChunks: '正在加载chunk数据...', chunkDetails: 'Chunk详情', documentPreview: '文档预览', previewNotAvailable: '预览不可用', fileNotFound: '文件未找到', unsupportedFileType: '不支持的文件类型', loadingPreview: '正在加载预览...', downloadFile: '下载文件', openInNewTab: '在新标签页中打开', editChunk: '编辑Chunk', content: '内容', saving: '保存中...', }, fileUpload: { uploadFiles: '上传文件', fileSizeExceeded: '文件大小超出限制', unsupportedFileType: '不支持的文件类型', maxFilesExceeded: '超出最大文件数量限制', duplicateFile: '重复文件', uploadFailed: '上传失败', dropFilesHere: '将文件拖拽到此处', dragOrClickToUpload: '拖拽文件到此处或点击上传', supportedFormats: '支持的格式:.pdf, .docx, .txt, .md, .png, .jpg, .jpeg, .mp4, .wav', fileLimits: '文件限制', selectedFiles: '已选择的文件', uploading: '上传中...', }, dialog: { confirm: '确认', cancel: '取消', delete: '删除', save: '保存', close: '关闭', warning: '警告', error: '错误', success: '成功', info: '信息', confirmDelete: '确认删除', confirmDeleteMessage: '此操作不可撤销,确定要删除吗?', operationSuccess: '操作成功', operationFailed: '操作失败', pleaseConfirm: '请确认', areYouSure: '您确定吗?', }, }, };