八一菜刀

非结构化数据解析 &GenAI的应用探索和实践（文字稿）

2024-08-16T00:00:00+08:00

以下内容是8.15日我在上海张江科学会堂举办的“GOTC（全球开源技术峰会）” 与 “GOGC（全球开源极客嘉年华）” 分享内容文字稿，分享给大家。

一、前言

大家下午好，

我叫肖玉民，来自杭州萌嘉网络科技有限公司，很荣幸受主办方的邀请，来参加此次GOTC2024的分享。

我们是一家刚成立不久的初创公司，目前主要聚焦在大模型、向量检索、RAG这一块的产品应用研发，我们的产品品牌是TorchV。

今天也是借着这个机会，结合我们自己做RAG产品迭代开发过程中的一些实践，分享我们在非结构化数据解析以及企业应用场景的一些探索和思考。

OK，今天我分享的主题主要围绕三个方面

第一是非结构化的数据处理，做RAG的产品迭代基本是从非结构化数据解析开始。那么这一节会围绕整个技术中间件的选型，包括PDF的表格解析等内容进行展开
第二部分是，企业AI场景落地，我们的产品应用探索和思考
第三部分是总结和我个人的一些感想。

二、非结构化数据的解析难点&细节

OK，那么说到非结构化数据，自从RAG+大模型的技术栈爆火之后，我们看到了大模型在处理文本上的能力，为止惊讶。

在我们的实际应用场景中，可能80%的工作场景，都是在和非结构化打交道，这其中包含场景的Office办公软件套，还有图片、音频等等各种各样的结构数据。正式因为有了大模型的能力，让非结构化数据的内容，在整个内容检索、理解、利用等方面得以充分的发挥。提供人们的工作效率。

我们以RAG为基础的技术栈进行技术开发时，开发人员碰到的第一个难题也是以非结构化的数据解析为起点，我们需要将各种各样的格式的数据解析成文本，然后在通过检索、写Prompt的方式，让大模型进行推理生成，完成上游的应用部分的交互，解决人们在工作中碰到的各种企业问题。这里面我们碰到的问题：

文件种类繁多，非常广泛。
老旧文件的支持问题，比如DOC、XLS、PPT等格式的支持
表格解析是难点
OCR的启动时机，从成本、效率、性能等多方面去考虑
布局识别在PDF中的能力有待突破
文件的字符编码问题等等。

在实际的开发场景中，可能还有很多的细节，需要开发人员去处理。

在碰到上面这些问题时，一开始我其实也有点不知所措，就拿PDF的格式来说，其1.7的规范就将近800页，如果要全部看完并提取解析成功。那可能是天方夜谭了。

我们可能和其他的开源的产品或者同类的产品不太一样的是，在TorchV的整个技术架构体系中，Java占的比重有将近80%，当然这里面包含文件的解析内容提取。

在Java生态中，针对上面的一些文件解析的问题，在目前整个Java生态里面，有三个中间件是很很好的在做RAG场景中，发挥重要作用的。Apache三件套。

Apache POI：第一个是POI项目，早在02年就进入了Apache基金会，早期是主要处理Excel的电子表格为主，后来支撑了包括word、ppt、visio等多种格式的支持。poi项目在以Java项目为主导的AI应用开发中有一个主要的优势技术对老文件的支持，像DOC、XLS、PPT等格式的文件，POI可以完全不依赖外部插件或者中间件的情况下直接解析，提取文本内容。这相较于Python生态提取Office套件的文件格式还是蛮有优势的一个点，Python的生态，以docx解析为例，大部分的解决办法都是先将doc转换为docx，然后再进行提取处理。这需要依赖外部插件。这点Java依靠多年的技术沉淀，还是蛮有优势的。而且我们在很多大客户对接过程中，发现老文件占比还是蛮重的。
Apache Tika：Tika是一个比较综合的文件解析项目，起初是作为Apache Nutch项目的一部分，在07年独立发展成为顶级项目，Tika在文件解析领域做了很多的封装，其涵盖了POI、PDFBOX这些项目的应用依赖，能够通过识别文件的魔法值，自动甄别文件类型，提供标准的输入流及转换扩张方法，这里面也集成了OCR的识别，在解析文件过程中，对于图片资源也启用OCR进行提取。
Apache PDFBOX： PDFBOX是目前开源领域中，非常完善&成熟的一个PDF文件处理中间件了，发展历史悠久，08年进入Apache基金会，PDFBOX较完善的提供了对PDF规范的支持，并且提供了顶级的抽象接口，供开发人员进行自定义扩展，非常的方便。

在整个的非结构化数据提取过程中，上面这三个Apache项目，基本能解决我们80%的业务场景的问题，我知道目前大家对于大模型来提取识别文件觉得是非常酷的一件事件，但是在企业场景落地的时候，文件解析我们也是需要从成本、性能、效率等多方面去考虑。

有时候基于规则的提取，在可解释性上还是有较大的优势的。

我们基于上面三个中间件，其提供的文件格式大家也可以看到从Html、Office、PDf、图片、音频、压缩包等等，在企业应用场景中，绝对够用。

在整个文件解析中，PDF应该是最令开发者头疼的一个文件格式，尤以表格提取最麻烦。

在PDF的表格提取中，借助于Apache PDFBOX，目前有两种有效方法，是可以非常高效的提取表格内容，还原表格信息。

第一种是Tabula组件，开源的算法，主要基于PDFBox提供的文本坐标提取方式，通过将所有的文本坐标提取后，通过计算边界、文字边界连接等方式，可以通过坐标算法，基于水平和垂直两个方向的坐标系来明确单元格的边界，将整个表格还原提取出来。

这种方式在针对一些老的电子文件PDF是非常奏效的，因为在之前的PDF标准规范中，对于表格中的线、矩阵等信息并没有纳入规范中。而在目前的PDF规范中，PDF对于电子文件的内容流中，大部分场景都存储了表格中的线、矩阵坐标信息。

基于这个方式，我们可以使用PDFBOX中的第二个方式来还原提取PDF的表格信息，这主要是通过提取PDF内容流的线坐标、矩阵信息。

可以通过将所有的矩形、线的坐标信息，通过算法进行处理，这里面包括空间去重、冗余排除、矩阵坐标连接等方式，那么就可以做到图中的这样，将一个表格信息完整的画出来，我们通过矩阵坐标确定表格后，基于表格的单元格坐标，即可以进一步的确定当前表格他的单元格合并情况，明确每一个单元格是否需要纵向、横向的合并。最后确定这些信息后，通过PDFBOX按区域提取的方式，就可以精准的提取每一个单元的内容信息，将表格幂等的还原回来。

另外基于坐标的信息，其实要扩展做的内容也蛮多，在后面的案例我会讲到。

基于上面表格的提取方式，在PDFBox中，他的整个UML架构图就如图中所示：

最顶部是PDF基础的引擎类，在PDF的规范中，包含了非常多的Operator操作，下面的基于坐标、图片等信息的提取，都是基于PDF规范中的Operator来扩展提取。包括第二个图引擎的类，实现提取内容流中的线、矩阵、图片等信息的提取

最后按文本坐标区域提取的核心类，是一个非常实用的方法，在PDFBox中，特别是对于当前论文类型的PDF，双排的这种方式，通过大量的实验，其实提取计算文本的排版空间，都是比较轻松的一种方式。

三、应用探索 & 实践

第一个场景是知识库，这也是基本在大模型兴起后，最常见/可落地的一个领域，今天因为大模型超强的文本理解能力，我们通过各种手段将非结构化数据进行文本提取解析后，结合向量KNN等新一代的搜索技术，可以更加准确的搜索积累在数据库中的文本内容。

配合大模型作为润滑剂，将整个用户的问题进行理解，最后输出符合用户问题的答案。

我们在和我们的客户深入沟通交流的过程中，知识库就像AI时代的数据中台一样，做好知识库能给很多企业充分将AI的能力利用起来。

这里面包括：

企业内部的非结构化的数据、知识统一管理。
通过PC、Web等不同的方式，对于企业内部的知识在整个组织上如何更好的协同、分享。
让知识更高效的利用，把冷冰冰的数据从数据库里面捞起来，发挥数据的再利用的价值。

这个是我们认为当前AI在企业场景里面非常重要的一个落地场景。

第二个场景应用我们叫研报助手Assistant.

他其实是一个富文本编辑器，大模型在今天其实已经非常擅长文本的生成了，对于知识的输出，效率相较以前数倍的能力提升。

但我们在企业的场景落地的过程中，大模型在一些严谨的场合下，输出的内容可能并不符合我们的要求，会产生幻觉，这也是RAG在当前最理想的一种技术手段，控制大模型的幻觉输出问题，让大模型基于给定的文本内容，进行总结输出。

Assistant主要是结合了非结构化的文本解析+向量检索+大模型归纳+富文本编辑器多种技术与一体的这么一个产品。通过用户上传的文档内进行检索生成，对于在一些需要引用严谨的报告输出，包括对大量文档的阅读，利用这个工具，可以高效的提升整个编写流程的体验。

在已经生成的文本内容，Assistant还加入了一些转换图表的能力，选中一些文本信息，可以快速的转换成饼图、柱状图、表格等不同的图表形式。

第三个是规则匹配的场景Cmparision

在这个场景中，我们主要还是依靠之前在处理PDF表格时提供的一些方法，可以无差别的根据区域信息，提取关键的字段信息。当然如果我们整个的处理场景中，会有一个处理的顺序，如果PDF内容是扫描版本的话，那会通过OCR的方式，进行区域信息的提取，结合之前坐标空间的相关算法，将框定的内容给提取出来。

另外一个就是在非结构化的数据提取后，可以配合大模型的的Agent能力，针对特定的领域，基于规则提取文本中的关键信息。

提取关键信息后，那么我们在应用上层要处理时，不管是数据的校对、或者总结，在企业场景中，AI能高效的发挥作用，提供整体的工作效率。

四、个人感想

最后想和大家分享一下我的一些个人感想。

第一个就是：AI技术栈很杂，是挑战，也是机遇

在我们讲RAG、大模型、向量检索整体的技术栈进行落地时，这里面涉及到的技术栈其实是非常广，而且很杂，开发人员不仅仅要关注到数据的处理，这里面还包含检索、向量数据库、大模型Agent、Prompt、微调等等技术领域，对于打造一个标品其实并不容易。这对于企业和开发者来说，都有不小的挑战。但是正是有了AI大模型，我们在今天的工作场景中，很多有趣的应用和产品层出不穷，这里面其实也蕴藏了大量的机遇，同时在AI的加持下，对于开发者而言可以更加大胆的畅想了，这对于探索、创新，创造更多有趣的产品是大有裨益的。

第二个则是：数据质量是基石，重剑无锋

数据质量我觉得是在做文本类AI应用的基石，不管是做RAG，还是微调模型，我们在构建开发TorchV的过程中，可能大概80%的时间都是花在怎么把数据处理好，幂等的将非结构化的数据最大程度的进行提取和还原，这是很关键的一步，RAG更是有Garbage in,Garbage out的经典名言，所以，数据的质量，应该是我们需要着重关注的。

五、Reference

文中主要的中间件&信息：

QWen2-72B-Instruct模型安装部署过程

2024-08-07T00:00:00+08:00

一、基础信息

操作系统：Ubuntu 22.04.3 LTS
GPU: A800(80GB) * 8
内存：1TB

二、软件信息

Python: 3.10

Pytorch：2.3.0

Transformers：4.43.0

vLLM：0.5.0

cuda： 12.2

模型: QWen2-72B-Instruct

三、安装步骤

1、安装Conda

Conda 是一个开源的包管理系统和环境管理系统，旨在简化软件包的安装、配置和使用

对于Python环境的部署，能够非常方便的切换环境。

可以通过conda官网链接下载安装：https://www.anaconda.com/download#downloads

# 下载
wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
# 安装
bash Anaconda3-2023.09-0-Linux-x86_64.sh
# 配置环境变量
echo 'export PATH="/path/to/anaconda3/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc

安装完成后，通过命令验证安装是否成功

conda --version

安装完成之后，可以配置镜像源，方便快速下载依赖包

# 配置源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes


conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/menpo/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

conda的相关命令

 # 指定虚拟环境名称为llm，python版本是3.9
 conda create --name llm python=3.9
 # 激活conda新环境
 conda activate llm
 # 查看当前环境列表
 conda env list

2、下载QWen2-72B-Instruct模型

Huggingface：https://huggingface.co/Qwen/Qwen2-72B-Instruct

ModelScope：https://modelscope.cn/models/qwen/Qwen2-72B-Instruct

两个地址都可以下载，下载完成后，将模型文件存放在服务器上。

⚠️ 注意服务器的磁盘空间。

3、安装Pytorch等环境依赖信息

⚠️ 在安装Pytorch时，需要保证和cuda驱动版本保持一致，不然会出现各种莫名其妙的问题

版本选择参考：https://pytorch.org/get-started/locally/

通过conda创建一个新的环境，然后切换后安装依赖包

4、安装vLLM

vLLM 框架是一个高效的大语言模型推理和部署服务系统，具备以下特性：

高效的内存管理：通过 PagedAttention 算法，vLLM 实现了对 KV 缓存的高效管理，减少了内存浪费，优化了模型的运行效率。
高吞吐量：vLLM 支持异步处理和连续批处理请求，显著提高了模型推理的吞吐量，加速了文本生成和处理速度。
易用性：vLLM 与 HuggingFace 模型无缝集成，支持多种流行的大型语言模型，简化了模型部署和推理的过程。兼容 OpenAI 的 API 服务器。
分布式推理：框架支持在多 GPU 环境中进行分布式推理，通过模型并行策略和高效的数据通信，提升了处理大型模型的能力。
开源共享：vLLM 由于其开源的属性，拥有活跃的社区支持，这也便于开发者贡献和改进，共同推动技术发展。

GitHub：https://github.com/vllm-project/vllm

文档：https://docs.vllm.ai/en/latest/

在通过conda创建了初始环境后，可以直接通过pip进行安装

pip install vllm

更多的安装方式，可以参考官网文档：https://docs.vllm.ai/en/stable/getting_started/installation.html

5、模型验证

可以通过一个python脚本来验证当前的模型是否可用

脚本如下：

# test.py
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
import os
import json

def get_completion(prompts, model, tokenizer=None, max_tokens=512, temperature=0.8, top_p=0.95, max_model_len=2048):
    stop_token_ids = []
    # 创建采样参数。temperature 控制生成文本的多样性，top_p 控制核心采样的概率
    sampling_params = SamplingParams(temperature=temperature, top_p=top_p, max_tokens=max_tokens, stop_token_ids=stop_token_ids)
    # 初始化 vLLM 推理引擎
    llm = LLM(model=model, tokenizer=tokenizer, max_model_len=max_model_len,trust_remote_code=True)
    outputs = llm.generate(prompts, sampling_params)
    return outputs


if __name__ == "__main__":    
    # 初始化 vLLM 推理引擎
    model='/mnt/soft/models/qwen/Qwen2-72B-Instruct' # 指定模型路径
    # model="qwen/Qwen2-7B-Instruct" # 指定模型名称，自动下载模型
    tokenizer = None
    # 加载分词器后传入vLLM 模型，但不是必要的。
    # tokenizer = AutoTokenizer.from_pretrained(model, use_fast=False) 
    
    text = ["你好，帮我介绍一下什么时大语言模型。",
            "可以给我将一个有趣的童话故事吗？"]

    outputs = get_completion(text, model, tokenizer=tokenizer, max_tokens=512, temperature=1, top_p=1, max_model_len=2048)

    # 输出是一个包含 prompt、生成文本和其他信息的 RequestOutput 对象列表。
    # 打印输出。
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

在终端执行python脚本，可以看到控制台是否正常输出

python test.py

6、启动服务 & 包装OpenAI格式的接口

验证模型可用后，那么就可以通过vLLM提供的模块，将整个模型服务包装成OpenAI格式的HTTP服务，提供给上层应用使用。

需要注意的参数配置：

--model 参数指定模型名称&路径。
--served-model-name 指定服务模型的名称。
--max-model-len 指定模型的最大长度，如果不指定，那么会从模型配置文件中自动加载，QWen2-72B模型支持最大128K
--tensor-parallel-size 指定多个GPU服务运行,QWen2-72B的模型，单卡GPU无法支撑。
--gpu-memory-utilization 用于模型执行器的GPU内存分数，范围从0到1。例如，值为0.5意味着GPU内存利用率为50%。如果未指定，将使用默认值0.9。vllm通过此参数预分配了部分显存，避免模型在调用的时候频繁的申请显存。

关于vllm的更多参数，可以参考官方文档：https://docs.vllm.ai/en/stable/models/engine_args.html

这里可以使用tmux命令来进行服务的运行。

tmux（Terminal Multiplexer）是一个强大的终端复用器，可以让用户在一个终端窗口中同时使用多个会话。使用 tmux 可以提高工作效率，便于管理长期运行的任务和多任务操作

python3 -m vllm.entrypoints.openai.api_server --model /mnt/torchv/models/Qwen2-72B-Instruct  --served-model-name QWen2-72B-Instruct --tensor-parallel-size 8 --gpu-memory-utilization 0.7

出现端口等信息则代表当前的模型服务启动成功！！！

首先创建一个新会话

tmux new -t llm

进入会话

tmux attach -t llm

启动命令：

python -m xxx

退出当前会话

如果没反应就多试几次

英文输入下 ctrl + b  然后输入d

通过curl命令验证大模型OpenAI接口服务是否可用，脚本如下：

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
  "model": "QWen2-72B-Instruct",
  "messages": [
      {
          "role": "user",
          "content": "给我讲一个童话故事"
      }
  ],
  "stream": true,
  "temperature": 0.9,
  "top_p": 0.7,
  "top_k": 20,
  "max_tokens": 512
}'

四、总结

目前的开源生态已经非常成熟了，vLLM这样的工具能够轻松实现对大模型的快速部署，工作效率上大大提升

五、References

官网资源等信息

资源	地址
QWen	GitHub：https://github.com/QwenLM/Qwen Huggingface：https://huggingface.co/Qwen ModelScope：https://modelscope.cn/organization/qwen?tab=model docs:https://qwen.readthedocs.io/zh-cn/latest/getting_started/quickstart.html#
Pytorch	https://pytorch.org/get-started/locally/
Conda	https://www.anaconda.com
vLLM	https://docs.vllm.ai/en/latest/getting_started/installation.html

权重文件下载不完全

在本次部署过程中，碰到了下载模型权重文件不完整的情况，导致通过vLLM部署不起来，可以通过Linux的命令sha256sum工具来对模型权重文件进行检查，对比网站上的模型权重文件的sha256是否一致，如果不一致，需要重新下载安装

命令如下：

sha256sum your_local_file

RAG工程实践拦路虎之一：PDF格式解析杂谈

2024-07-08T00:00:00+08:00

背景

PDF（Portable Document Format）是一种广泛用于文档交换的文件格式，由Adobe Systems开发。它具有跨平台性、固定布局和易于打印等特点，因此在商业、学术和个人领域广泛应用。然而，PDF文件的解析一直是一个具有挑战性的问题，因为其内部结构的复杂性和多样性，使得提取其中的文本、图片和表格等内容并不是一件容易的事情。

技术方案

在目前的PDF文件解析领域中，我们可以将其大致分为以下几类技术方案：

LLM/视觉大模型解析：LLM（Large Language Model）大型语言模型在近年来的发展中，展现出了强大的语言理解和生成能力。通过训练大规模的神经网络，可以实现对PDF文件中文字内容的理解和提取，这种方法尤其适用于那些布局复杂、内容丰富的PDF文件。
OCR模型：光学字符识别（OCR）模型专门设计用于将PDF文件中的图像转换为可编辑的文本。这种技术在处理扫描版或图像化的PDF文档时尤其有用。
传统规则提取：传统的PDF解析方式可能包括基于规则的文本提取、图像处理和表格识别等方法。虽然这些方法可能不如深度学习模型那样灵活，但在某些情况下仍然是有效的选择。

各个解决方案目前可能需要配合使用，因为PDF格式本身的复杂程度，一项技术方案可能是无法100%满足业务需求的，这里面需要考虑的是：

文档提取还原度：通过技术手段，能够完整的提取PDF中的各项元素，包括文本、表格、图片、链接、图形、目录等等信息
高效/💰成本：在RAG知识库问答的产品中，考虑到文本还需要Embedding的过程，因此在提取过程中如何更高效，成本更低也是需要着重考虑到事项。
稳定/幂等：我们知道大模型可能是出现幻觉的，如果用大模型来提取PDF中的内容，是否能足够保证稳定性。

当我们处理解析PDF时，我们需要可以讲每一项的难点都进行拆分，从需求出发，逐一进行攻破，找到解决方案。

其实我觉得技术人员如果能通过技术手段确定PDF中的Block(块)以及阅读顺序，按Block(块)进行输出转换(Markdown/Html等)，这里面包括的Block块元素：文本、图片、表格等等。那么这个提取的效果就会达到我们的最优。

而这个目标是我们接下来要重点讨论的。

技术难点

在考虑解析PDF文件时，我们需要根据当前的技术栈发展情况，并结合实际的业务诉求，综合考量这其中的技术难点，因为每一项技术难点所涉及的技术方案都会需要一个算法/或者技术手段去突破。

而开发者从解析的效果去考虑，可以从简单的做起，逐步突破难点，这对于开发人员自身的自信心提升也是一种正向的导向。在整个PDF解析过程中，我觉得以下几项是比较难处理的：

布局解析困难：PDF文件的布局可能会因为不同的作者、工具或用途而有所不同，因此解析其布局是一个具有挑战性的任务。
格式错综复杂：PDF文件中可能包含各种格式的内容，包括文字、图像、表格等，因此解析其内容需要考虑到这种多样性和复杂性。
复合表格：纵向/横向合并的复杂表格，在PDF中进行抽象还原是最难处理的问题之一
文本、图片、表格顺序提取：提取PDF文件中的文本、图片和表格，并确保它们的顺序正确性，是一个需要解决的重要问题。
文档结构还原：还原PDF文件的文档结构，包括标题、目录等信息，是实现自动化文档处理和理解的关键步骤之一。
元素重叠：从PDF100%效果还原的角度考虑，图片/文本之间的重叠，图片合并，合并后不失真等，也是需要考虑的事项之一
元数据提取：在PDF中隐藏的元数据信息是RAG产品的关键数据，比如链接、目录、字体等等
扫描件：PDF中如果是扫描件，依靠OCR模型可能是无法有效的提取，这里面包含了清晰度、模型的稳定性等等问题
Latex公式提取：在一些特殊领域，PDF文本中包含了Latex等数学公式。通过完整的提取和转换是对RAG问答的有效补充

技术可行性

我们从解析PDF的技术可行性角度，考虑哪些方面值得我们重点关注和突破：

文字提取能力，逐行提取：确保能够准确地提取PDF文件中的文字内容，并按照正确的顺序进行排列和输出，避免文字乱码(字体)。
简单/复杂表格完整提取：对PDF文件中的表格进行完整提取，包括表格内的内容和格式。
图片提取/合并：提取PDF文件中的图片，并保留其原始质量和格式。
文档布局(Block块的标识)识别：识别PDF文件的布局，包括页面的排列方式、文本和图片的位置等信息。
文档结构识别(标题、目录)，内容顺序输出：识别PDF文件的结构，包括标题、目录等信息，并确保输出内容的顺序正确。
转换为Markdown格式：将解析后的PDF文件内容转换为Markdown格式，以便于后续的处理和分享。

开源技术方案

结合上面的技术难点/方案及可行性上去分析，我们可以看看目前开源的技术组件中，有哪些是我们可以考虑进行结合的。

因为目前TorchV系统主要以Java+Python双语作为底层的应用开发语言，接下来我们可以看看在这两个编程语言中，有哪些开源的方案可以使用。

Java生态

在Java生态中，对于PDF组件处理的开源方案不多见，Apache PDFBOX是当前最强的，也是最好的

名称	地址	说明
Apache PDFBox	https://github.com/apache/pdfbox	提供开箱即用的文本、图片内容提取方式，并且可以基于Stream接口重写各项元素的解析实现，并能输出元素的坐标信息。开发者可以根据元素的坐标信息结合算法进行内容的高度还原。唯一的缺点是没有表格组件提取的API供开发人员使用。
tabula-java	https://github.com/tabulapdf/tabula-java	基于Apache PDFBOx组件的表格提取实现

Python生态

Python生态的PDF提取组件还是蛮多的，不过也是有不同的侧重，比如pdfplumber、camelot等都专注在表格的提取上，提供了开箱即用的方案。

名称	地址	说明
pypdf	https://github.com/py-pdf/pypdf	一个纯Python PDF库，能够分割、合并、裁剪和转换PDF文件的页面
PyMuPDF(AGPL)	https://github.com/pymupdf/PyMuPDF	高性能 Python 库，用于 PDF（和其他）文档的数据提取、分析、转换和操作。
pdfplumber(MIT)	https://github.com/jsvine/pdfplumber	查看 PDF 以获取有关每个字符、矩形、线条等的详细信息，并轻松提取文本和表格。
camelot（MIT）	https://github.com/camelot-dev/camelot	专注于PDF中表格的提取，包括复杂的表格

OCR生态/大模型

在上面Python和Java生态库的开源组件，基本都是针对文字的PDF处理为主，当我们的PDF是扫描件时，那上面的组件统统失效，都提取不出来文本信息。

此时就需要用到OCR的模型进行提取。

考虑到如果是OCR提取，那么最终的目的是将PDF文件Page页码内容提取出完成的图片Image，所以本质上是对图片内容的理解

可以考虑的开源组件如下：

名称	地址	说明
marker(GPL)	https://github.com/VikParuchuri/marker	基于模型将PDF文件内容提取为Markdown格式
surya(GPL)	https://github.com/VikParuchuri/surya	OCR、布局分析、阅读顺序、线条检测（支持90 多种语言）
tesseract(Apache 2)	https://github.com/tesseract-ocr/tesseract	老牌OCR组件，支持100多种语言
RapidOCR(Apache)	https://github.com/RapidAI/RapidOCR	基于 ONNXRuntime、OpenVION 和 PaddlePaddle 的出色 OCR 多种编程语言工具包。
PaddleOCR(Apache)	https://github.com/PaddlePaddle/PaddleOCR	基于飞桨的出色多语言OCR工具包（实用的超轻量级OCR系统，支持80+语言识别）
EasyOCR(Apache )	https://github.com/JaidedAI/EasyOCR	Python\C++开发，支持80多种语言OCR识别

技术准备/细节

在解析PDF时，我们也会有一些其他方面的知识储备，以便我们快速应对不同的业务需求及应用产品形态。

1、图形类API：不管是Java还是Python里面，对于处理PDF中间件的部分，都需要对图形类的API/算法熟悉和掌握，这里面包含图形的转换、缩放、矩阵坐标、截取等等，都会在PDF提取的过程中使用到。

2、PDF标准：在处理PDF中，结合开源的技术中间件，对于PDF的ISO标准，我们也是需要了解的，这样更加有利于开发人员理解中间件的代码写法及含义。

3、边/线/矩阵算法等：对于文本/边框的聚类算法等，在根据元素坐标高效还原时，利用高效的算法可以提高解析速度以及内容还原度

4、OCR/LLM模型等：了解学习在用OCR/LLM模型分析布局、边界检测等等技术上的一些算法及数据工程上的实践

5、PDF页面旋转：有时候原PDF可能会有旋转(0、90、180、270度)，需先校正后，再次提取内容

6、字体/乱码：系统/服务器中缺失PDF中的字体，导致文本提取乱码

最后

本文从大的方面简单概括了在PDF解析处理过程中的技术方案/难点/开源技术方案等内容，后面我会从一些细节方面来逐一分享我们在构建TorchV产品时，解析PDF文件过程中的一些问题及技术实践,包括对表格的提取，感兴趣的可以关注我们😁。

另外，我们团队提供了一个PDF解析的Demo地址，针对文本类的PDF(暂时不支持扫描件)，可以进行试用体验。

地址：http://tabletest.torchv.com:8010/

我对《RAG/大模型/非结构化数据知识库类产品》技术架构的思考、杂谈

2024-07-03T00:00:00+08:00

1、前言

在6.28/29的稀土掘金开发者大会RAG专场上，我们公司CEO员外代表TorchV分享了我们在《RAG在企业应用中落地的难点与创新》

其中最后分享了两个观点：

AI在应用场景落地时有三个特点：功能小、质量高、价值大
如果说做产品是把一横做好的话，那么去做企业落地服务就是一竖，从需求和方案，再到 POC，和最后交付。

对于AI应用的三个特点，我们在落地的时候，其实碰到的问题蛮多的，但是用过大模型或者AI产品的人应该都知道，目前基于大模型应用开发的C端产品其实在整体给人的感觉都是相对较小的工具居多，在帮助人类提效这件事上，借助于AI工具，能很好的完成日常繁杂的工作和学习任务。比如AI翻译、网页总结插件等等。这类产品更多的是偏C端为主，借助于互联网的生态以及开源技术的发展，只要功能/交互满足用户的要求，很快就能打动C端用户进行尝鲜试用甚至付费。

但是做B端类的产品，整个交付的过程就明显和C端不一样，在B端我们除了产品本身需要功能足够强大之外，我们还需要做AI的落地交付，这里面包含私有化定制/客户培训/私有化部署/软硬件适配等等繁杂的工作，整个交付周期漫长的多。这明显是和上面第二个观点相呼应的，产品+服务才能综合服务好B端的客户。

本篇是结合我们公司在B端RAG/大模型应用产品的落地交付的场景考虑，以实际场景出发，谈谈我对知识库类产品的技术架构的思考总结。

2、业务功能/技术组件拆解抽象

在文章的标题中，我已经标注了范围: RAG、大模型、非结构化数据

我们从这三个方面出发，在软件层面，我们如何来考虑这些新型的技术名词，将他们从技术/产品功能的角度进行拆解，实现对应的功能交付给我们的客户。

从业务的功能诉求来看，主要有几个方面：

知识库：客户需要将业务数据统一收集处理，形成知识库，以便提供给LLM进行使用
应用中心：B端客户需要开箱即用的产品，解决实际工作业务中碰到的问题
用户权限：系统提供企业级灵活可控的权限管理，方便企业客户进行统一管理授权。
多租户：多租户体系架构是必不可少的，可以保证数据以Schema级别进行隔离，保障数据安全以及上层应用的灵活输出支撑。
…

而从技术侧考虑，技术人员需要关注的是：

非结构化数据的处理：平台需要支持多种多样的非结构化数据的提取处理工作，将整个文档内容进行chunking、embedding进入数据库，以便进行搜索
- 文件类型广度：提供众多的非结构化数据文档(PDF/PPT/WORD等)的提取支持，是打动B端客户的有利吸引点，
- 文件解析精度：以PDF/PPT/Word为首的文档解析工作困难重重，如何在解析的工作上更进一步，从根源上减少模型在利用已知数据的幻觉问题
- 任务调度：数据的处理依靠稳定的任务调度平台，保证数据处理的最终有序执行。
模型服务：从LLM大语言模型、Reranker模型、embedding、OCR模型、视觉模型等等，保证模型的幂等输出，为上层应用提供稳定可靠的服务支撑。
- LLM模型：提供一系列Agent服务，保证上层业务能够灵活调用大模型获取满意的结果
- ReRanker模型：重排序模型是问答二阶段召回提高准确率的关键手段，不可忽虑
- Embedding模型：向量化嵌入，提供对知识文本的表征提取向量工作，不可忽虑
- OCR/视觉模型：辅助非结构化数据提取在规则提取不满足的情况下，启动OCR及视觉模型，增强非结构化数据的提供效果
向量数据库(VectorDB): 需要结合实际业务诉求，从性能/空间/生态等多方面考量VectorDB等选型

技术的角度拆分，其实技术人员关注的点非常的多，每一项工作其实都可以是独立的中间件产品，要把这些全部整合到一块，并非易事。

3、微服务/分布式/云原生？

写过Java的估计对上面这三个名词都已经滚瓜乱熟了，我记得很早之前，说面试你如果不会微服务，那都找不到工作(PS:现在好像不管你会什么，也同样都找不到)😂。

对于AI应用，可能更多的软件生态是由Python带动起来的，包括一些工具库LangChain、LlamaIndex等都是Python，虽然Java中也不乏有一些，比如LangChain4j、Spring-AI等组件，都是后起之秀，在整个生态稳定性等方面确实是落后了一节。

但可能很多人都在用过LangChain等框架后有一个共识，那就是当作工具用没有问题，但是上生产？问题太多了。我觉得主要的几个点：

LangChain的过度封装，对于应用层而言，不管是Agent，还是RAG，其实蛮简单的一件事情，和大模型API接口对接就好了，但是你去看LangChain的源码，整个调用链路封装的极其复杂，改都没法改。
上层的业务需求变化太大了，有时候是需要结合自己公司的实际业务情况来进行处理的，这种情况下，还不如自己写来的快，其实调用的链路并不复杂
就稳定性/事务/数据一致性而言，Python作为企业服务接口主语言是否合适呢？

而我们今天讨论的是整个产品的技术架构的选择，其实在上面业务功能/技术组件抽象那一节，我们已经拆分了功能和技术点，从技术点去看，这已经是一个集众多服务于一体的综合技术解决方案了。在应用层面的功能，我们是否还需要像以前那样，整一套微服务架构出来来开发业务功能？

我的个人看法是：根据团队配置，微服务可用可不用。但是应用程序必须天然分布式，支持横向扩展集群，弹性伸缩。

目前这个环境，项目搞微服务，最后的困境可能就是所有服务都是你一个人负责，写完a服务写b服务，再来个rpc调用，还要考虑数据熔断、可用性等等，小团队我觉得完全没必要折腾！

主要考虑的点：

1、海量非结构化数据处理的提效

在处理RAG产品类中，非结构化数据的处理除了快速解析之外，还需要将文本进行向量化，而我们在技术架构中需要能够快速的处理这些文件，通过Pipeline的方式，将非结构化数据最终存储到向量数据库中，这里面传统的做法不得不用消息中间件MQ，而应用层面的程序则可以通过考虑弹性伸缩的方式，扩充消费节点，以提高整体的处理效率

2、海量向量数据的存储/计算召回效率

当我们对非结构化数据进行提取后，需要经过Embedding模型进行向量化，这里面还涉及到文本的Chunking分块，所以底层向量数据的存储和计算必然是一个需要更全面的考虑向量数据库中间件，这其中包括：向量召回的性能、数据的存储/备份、多租户Schema级别数据权限等等

3、数据最终一致性

数据的Embedding处理、大模型调度扣费、缓存等等，在目前已经众多服务组件拆分的情况下，整个数据的处理任务我觉得需要保证数据的最终一致性，在分布式场景下，多节点处理时需要特别注意。

4、应用功能原子性（云原生）

整个应用层的功能，我觉得需要保持独立，并且保障稳定性，这点其实我觉得在私有化部署/交付的环节比较奏效。如果你是一名运维或者主力开发者，在一个完全内网隔离的环境下部署时，你会体会到这种便捷。

总之，我觉得在应用层面服务，服务端应该做的是：减少配置、轻量化、稳定

4、编程语言/中间件选择？

我们团队目前的开发语言是Java+Python的组合，主要有职责分工：

Java：上层业务应用的API接口，任务调度、数据处理等等
Python：和模型、数据处理、NLP等相关任务以接口的形式开放出来，API接口是无状态的，所有的数据状态流转都在Java端实现

这里面很多开发可能会有一些担忧，对于Java语言的选择，是否在目前的RAG/大模型领域合适？其实最困惑的就是非结构化数据的处理，可能很多开发者看到目前开源的众多组件或者平台，都是Python的主技术栈，认为Java处理不了，其实这是完全有误区的，对于最难处理的PDF文件提取，Apache PDFBox绝对是值得你深挖的一个组件，当然Python本来就擅长数据处理/分析，可以根据团队的配置进行执行选择，这里面我觉得主要考虑的几个点：

1、团队人员配置

根据团队当前的主流编程语言去做技术架构上的选型和决策，并没有绝对意义上的以哪个编程语言为主，Java、Python、Go、NodeJS、TypeScript等等都可以。

2、软件生态&技术成熟度

上层应用产品的开发，肯定首先要考虑有哪些成熟的中间件和组件，来开发完成这一众多的需求，总不能从0到1造轮子，造轮子固然能提升开发人员的水平技能，但是在AI日益发展的今天，为公司产品尽早的找到PMF才是首要任务。需要综合考虑。

其他的编程语言我不了解，就非结构化数据的解析这一块，其实Python和Java都相对更加丰富和稳定。

Java语言中比较好用的包括：Apache PDFBox、POI、Tika

Python中包括：PyMuPDF、pdfplumber、pypdf、camelot、python-docx等等

3、稳定性/集群/高可用

嗯，这里没有高并发，因为大家都没卡😂

大模型的产品相比较传统的业务在这点上并没有太多的区别，稳定性/集群等特点也是需要的，技术人员在选择中间件时，也应当考虑这一点。

例如MQ消息中间件、缓存Redis等等

4、部署实施/交付

没错，最后一步部署实施这个环节也需要考虑，Docker确实能带来极大的便利，但是成本也是需要考量的，目前的Python生态打包整个Docker，压缩包动辄2、3G起步，其实也是蛮头疼的，如果你是使用K8s调度来部署，k8s拉取一个10G的镜像也不是那么快的😂

5、总结

AI应用是一个需要快速试错、功能强大的某一个点去突破，技术架构上，也应当考虑整体的开发效率、生态等等。

这让我想起来十几年前的jQuery，一经面世，得到众多开发者的喜爱，经典名言：

Write Less, Do More!!!

在大模型日益健壮发展的同时，我们的技术架构，是否也应该做一次瘦身呢？

创业：大模型RAG系统三个月的开发心得和思考

2024-04-01T00:00:00+08:00

1. 前言

自从和员外上家公司离职后，我们就自己搞公司投入到了RAG大模型的AI产品应用的开发中，这中间有一个春节，前后的总时间大概是三个月左右，在这三个月期间，基本是昼夜兼程啊，到今天3月底结束，产品目前看是有了一个基础的雏形。

在这期间，员外负责整个产品的营销、商业客户的洽谈等方面的内容，我和阿包负责整体的技术架构搭建，代码从0-1的编写，我们是在24年1月26，产品初步上线了一个版本，开始接受企业客户的试用，这让我们接受到了大量的需求，以及我们产品在目前的市场环境中还存在哪些竞争力不足需要改进的地方。

三个月时间过去了，在我们的TorchV AI 产品初步成型之际，和大家分享一下开发RAG、LLM系统以来的一些心得和经验。

2. RAG简介

RAG(检索增强生成)名词一开始来源于2020年的一片论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》，旨在为大语言模型（LLM）提供额外的、来自外部知识源的信息。这样，LLM 在生成更精确、更贴合上下文的答案的同时，也能有效减少产生误导性信息的可能。

可以说在目前大模型井喷的今天，RAG作为一项为密集型知识NLP任务的处理指明了方向，配合AI大模型，让世界发生了翻天覆地的变化，数以万计的开发者都涌入这个赛道，同时竞争。

我们知道LLM目前存在的一些问题和挑战：

我自己理解LLM大模型本质就是一个二进制文件，所有的知识都通过压缩技术全部压缩在一个/多个GB的二进制文件中，最终在获取数据的时候，通过LLM的模型架构，推理能力，将所有的知识信息又生成出来。

在没有答案的情况下提供虚假信息(胡说八道、幻觉)。
模型知识的更新成本、周期、及大模型的通用能力问题（大公司才玩的转）
数据安全和隐私等问题

而RAG技术的出现，正好能有效的缓解目前大模型存在的一些问题，主要表现方面如下：

经济高效的处理知识&开箱即用：只需要借助信息检索&向量技术，将用户的问题和知识库进行相关性搜索结合，就能高效的提供大模型不知道的知识，同时具有权威性
有效避免幻觉问题：虽然无法100%解决大模型的幻觉问题，但通过RAG技术能够有效的降低幻觉，在软件系统中结合大模型提供幂等的API接口就可以发挥大模型的重大作用
数据安全：企业的数据可以得到有效的保护,通过私有化部署基于RAG系统开发的AI产品，能够在体验AI带来的便利性的同时，又能避免企业隐私数据的泄漏。

3. RAG技术&架构思考

既然我们知道，RAG作为密集型知识库的处理和大模型配合起来有着天然优势，那么如何做好RAG的开发？

RAG应用的基础技术核心是：让大模型依靠现有的数据(PDF/WORD/Excel/HTML等等)精准的回答用户的问题

这是最基础的功能，同时也是最低要求，任何做RAG领域的AI应用产品，技术层面都需要去突破解决的技术难题。

注意两个核心点：

📁 依赖现有的知识库：依赖客户本身的数据是为了给大模型提供强有力的数据支撑,避免大模型胡说八道,企业私有的数据大模型并没有将数据纳入模型进行训练,所以大模型对于企业私有的数据及相关问题,大模型不可能知道，即使大模型能回答你这个领域的问题，那也是因为你这个问题在大模型训练的数据集中早就存在了，而且是公开的数据集和问题，而企业私有的数据(财务报告、隐私数据等)大模型是不可能拥有的
🏹 精准命中回答：一旦客户将自己的私有数据上传了之后,我们要做的就是依靠此数据精准回答用户的问题，而要做到精准回答命中,技术人员需要做多方面的努力💪。

技术人对于RAG应用考虑的最核心的就是这两点，而技术测为了要实现这一个目标，其覆盖的知识面以及技术难度都是非常大的。

我很早之前参考大模型的技术架构发展，为RAG画了一张类似的图，如下：

这里面我为做RAG系统的总结为三颗树，LLM大模型是土壤，主要为：数据工程、检索生成、业务系统

这里面并没有把对模型的微调放入进来，当我们把基础工程做到80分后，也许对Embedding模型、Chat模型等微调工作会加入进来，针对特定的业务场景做优化。

数据工程: 知识库的形式丰富多彩,这其中配合RAG我们要做的事情非常多，包括文件类型、格式、分割策略、知识类型、索引方式等等
检索生成:当我们处理完成数据后，配合大模型需要进行检索生成，而在这个过程中，包括：Prompt工程、算法策略、检索方式、中间件、大模型、查询处理等内容
业务系统: 这是配合商业行为所衍生的业务系统&上层产品应用，包括租户、计费、开放平台、洞察、运营等业务系统，这些业务系统在TorchV AI的产品体系都一一体现

通过上面的图，我们大概就能知道，RAG+LLM大模型系统的产品开发，是一个综合性非常强的工作内容，这就和大模型的训练一样，整个工程庞大繁杂，是一个系统性工程。

如果我们把三颗树中的每一项都作为一个技术因子，不同的步骤处理优化，都会影响着最终外部的商业的影响力，这就会产生量变到质变的转变。

假设：我们把数据工程和检索工程所有的步骤在技术层面提升了10%，那么我们在和同类竞品去竞争时，我们的优势是多大呢？

3.1 数据工程

在大模型圈子里，经典名言：Garbage in and garbage out，意思显而易见，你给大模型送的数据质量越高，那么大模型的响应回答效果就越好，反之，如果你丢垃圾给大模型，那么大模型也会给你返回垃圾～

所以从这点来看，上层的应用开发者，要做好知识库类型的产品，数据工程绝对是第一道拦路虎，从数据集的不同领域进行分类,目前存在非常多的数据格式

这里面包含的多种不同的挑战

常见文件解析：基于文件类型的数据集是最常见的,也是使用最广的,例如(PDF/WORD/Excel/CSV/Html/Markdown)等格式
关系型/NoSQL数据库: 用户的数据全部存储在数据库中间件中，例如MySQL/Postgres等，NoSQL数据库中，这种数据源的提取到是不难，开发者只需要根据不同的数据库标准协议进行对接抽取即可，要做的是适配不同的数据库类型
网络数据集：对于网络数据集的处理，那么就需要开发者精通爬虫之道,而网络上的数据集种类也是非常广的，普通的W3C网页(格式种类复杂繁多)，视频、音频等等信息
不同类型的数据提取：包括文本、图片、表格、视频等，单单一个表格数据的在不同的文件格式的处理，就需要花费大量的精力去优化
提取方式的类别：传统的软件工程、OCR、大模型等等
分割策略：分割策略在RAG的技术体系中有着举足轻重的地位,分割的不好，会在信息检索(IR)的过程中丢失语义，包括：语义分割、大模型分割、按固定Token分割、文档结构分割等等
Embedding索引构建：除了给每一个chunk块构建向量索引，元数据、标题、概要总结等等也会对系统准不准有不同的要求，同时还要和上层的业务进行结合。
More…

在数据工程这棵树上，所有的技术发展都不是停滞不前的，这里仅仅只是列了一些基础的树枝，我相信在大模型AI井喷爆发的今天，会更快推进数据工程(ETL)的发展。

3.2 检索生成

当我们把所有的知识数据处理完毕，借助大模型来构建一个Chat系统时，信息检索技术则是必然要用到的

从这里我们好像发现，做RAG，无非就是做搜索?

在目前的RAG检索的技术体系中，最普遍的无非两种：关键词和向量语义检索

关键词检索：基于类似BM25这类词频倒排技术，通过统计关键词的方式来执行搜索，缺点是无语义信息
向量语义检索：通过将所有知识片段通过BERT等预训练语言模型进行表征提取，表示为多维的向量数据，通过KNN/ANN算法搜索获取结果。

当然，在目前的很多向量数据库中间件中，这两类检索引擎都得到了支持，或者是混合检索也是一种重要的技术手段。

在整个检索生成的过程中，这棵树同样关注的技术细节也非常的多，如下：

Prompt工程：和大模型对话，技术人员必须掌握的Prompt工程，通过FewShot、CoT、ZeroShot等技术，针对不同的业务场景能发挥重大的作用，开发人员需要根据具体的业务场景来调试，同时也是和大模型对接，解决幂等性的重要手段
LLM大模型：glm3/4、百川、千问、月之暗面、gpt3.5、gpt4等等大模型，在不同的场景、能力各有侧重，进行深度的业务调试/适配同样重要。
检索召回过程处理：多轮对话、查询重写、多跳、多路召回、子查询等等，伴随业务场景的深入，每一个Chain的环节保证稳定可靠，不是轻松的事
中间件：系统稳定高可用、可扩展离不开中间件的支持，如缓存、消息队列、向量数据库、图数据库等等都是必不可少的
More:….

在检索生成的这棵树上，和数据工程密切配合不可分割，都是在降低大模型幻觉的道路上深挖技术细节。

4. 技术&产品领导驱动商业的发展

做RAG这类AI应用开发以来，感受最深的是和之前做产品/项目并不相同，一方面是技术栈发展较新，新技术带来的技术变革存在非常大的挑战，有了大模型之后，需求&想法也是五花八门，另外，目前的AI应用，我觉得更多的是技术&产品来领导驱动商业的发展，这和普通软件企业的开发流程或许有所不同。

这里我觉得几点非常重要：

新AI技术的迅速发展必然革新之前的软件流程和开发过程，在思想层面是必须转变。
大模型幻觉很严重，通过RAG技术解决幻觉做60分很容易，但是把底层的能力提升到80分甚至90分，是非常难的事情，这需要一个长期累积迭代的过程。
企业客户不会为了一个只有60-70分的技术产品买单付费，对待软件编码、技术架构、产品交互等方面，产研人员需要对自己要求更高，追求完美

我们团队内部经过这段时间的迭代，也碰了很多客户的需求，团队的方向也是在发展中不断的进行调整。

我们在成立TorchV AI时，整体架构如下：

我们以RAG技术为核心，在上层做我们的中间件层，这里面最核心的三个：

主要核心问题聚焦在降低大模型幻觉、不同数据源连接上面

TorchV IC(幂等分类器):让既定的事实数据发挥更大比重，引入尽可能多的幂等，对抗和降低LLM的幻觉;
TorchV Actuator(执行器):优化TorchV特有风格的输出格式，包括交互界面的组装，对应用更友好;
TorchV Connector(连接器):连接本地数据，有序解决本地化场景下数据多样性和复杂性问题.

通过RAG技术+中间件的方式，开发出了我们的第一个产品基线TorchV Bot。通过持续的产品迭代和不同客户需求碰撞，我们的TorchV Bot基线产品的架构也初步成型。如下图：

主要组件拆分如下：

RAG和Agent：RAG（检索增强生成）和Agent是目前大语言模型落地到企业应用的事实标准，也是TorchV AI的核心中间件之一；
Tenant：租户系统，这是我们支起多租户PaaS/SaaS平台的基础；
OSS：在线文件存储，包括客户上传的文件，以及从URL中导入的数据等；
ChatBot：TorchV AI会提供一个默认的Web版问答系统，客户可以在上面对知识进行测试，对于内部使用场景，也可以直接使用；
数据&洞察分析：对数据进行分析，包括客户预先设定的一些洞察条件，一旦触发条件，就会进行指定动作，如产品和服务的推荐，咨询分流等。客户在这里也可以对数据进行同步，导入到自己的系统，作为数据分析的数据基础；
知识库管理：创建知识库，为每个知识库上传和导入文件，一旦上传，文件立即被系统处理，变成chunk（小块文本）和embedding之后的向量数据等；
运营后台：包括计费系统、各类参数配置、对话记录查看和标注、用户权限设置和反馈处理等功能；
应用中心：一个客户即可创建多个应用，然后通过API对接自己的原有系统，或者根据API创建新应用。除了API之外，我们还提供一键嵌入的对接方式，只需引入几行js代码，即可在客户的Web应用上开启悬浮icon，提供TorchV AI的对话能力。

以上则是目前TorchV的产品雏形，更多细节可以访问官网:https://www.torchv.com

5. 架构&编程语言的选择

随着大模型LLM的爆火，包括LangChain、LlamaIndex等以LLM为基础的数据Python框架的出现，很多开发者在选择开发RAG系统应用时，会可能无法着手。

起初在开发RAG应用的时候，也纠结过编程语言的选择，在这期间走了很多的弯路，也得到了一些教训。

先说结论，TorchV.AI的产品选Java+Python作为服务端的开发语言。

这里面有以下几个原因：

员外和我都是多年的Java语言开发出生，从编码、生态等方面的了解程度，那自然是不可能抛弃Java
Python语言是无可避免的，但是在整个工程里面，职责是有分工的，无状态的一些逻辑操作都通过Python来实现
企业级开发语言以及技术组件生态
中间件丰富程度、开发社区的健康发展

下图是我画的一个Java VS Python这两个编程语言在不同领域的一些特性对比。

目前市面上开发RAG大模型应用最火的当属LangChain、LlamaIndex这两个框架，都是Python语言进行开发，提供了开箱即用的功能，可能在不超过10行代码的情况下，就能轻松完成一个RAG大模型应用的demo。

我们起初也是在纠结在这期间如何更好的做取舍，后来团队内部经过讨论，还是将部分的业务逻辑放在Java语言中，重写RAG过程中的一些核心逻辑和组件。

这里面的思考：

RAG架构涉及到的东西多且杂，开箱即用的LLM数据处理框架可能无法满足企业的业务诉求(需求变化多端)
RAG目前并没有发展成为HTTP规范一样的协议约定，所以不同的RAG过程、LLM模型等都会导致RAG的效果差异
国内LLM百花齐放，无法开箱即用，国内的不同需求也需要满足(本地化适配)

结合在开发RAG应用中涉及到的数据工程等部分逻辑，我们结合两大语言的特性，也能很轻松的勾画出一张便语言级别的架构图，涵盖了在企业开发、业务场景落地时，如何快速的适配上层应用的需求。如下图所示：

在这种图中，我们可以清晰的看到，不同的任务&需求，职责分工是比较明确的。

Java：使用Java生态时，针对业务系统的数据一致性，分布式、鉴权、限流等企业应用接口的特性开发，目前都有非常成熟的解决方案
Python：涉及到无状态的服务时，支撑上层应用的处理，包括数据工程、Chat模型、数据处理、微调等系统工程，那么用Python是毫无疑问

在这里，当我们使用应用开发时，挑选编程语言来开发应用服务，优先考虑的是生态和稳定性。

当然，这里面并没有唯一的标准，根据自己的实际情况出发来选择是最优的，以上仅仅只是分享一下我的看法。

6. 总结

好了，全文完，做一个总结：

RAG、LLM等AI产品的开发是日新月异的，技术栈体系会飞速发展,对于公司而言，小步快跑，快速试错可能是非常重要的
应用场景目前仅仅只是聚焦在知识密集型任务，未来随着技术的发展，会扩展到更多的行业中。

TorchV.AI目前是刚起步阶段，也欢迎更多的企业客户试用，合作！！！

如果您有商务合作需求：

请扫码添加以下微信（员外🔥TorchV），并请您告知您的称呼和企业名称。

我们的官网地址：https://www.torchv.com

7. References

TorchV的RAG实践分享(三):解析llama_index的数据存储结构和召回策略过程

2024-01-14T00:00:00+08:00

1.前言

LlamaIndex是一个基于LLM的数据处理框架，在RAG领域非常流行，简单的几行代码就能实现本地的文件的对话功能，对开发者提供了极致的封装，开箱即用。

本文以官方提供的最简单的代理示例为例，分析LlamaIndex在数据解析、向量Embedding、数据存储及召回的整个源码过程。

通过学习框架的源码也能让开发者们在实际的企业大模型应用开发中，对RAG有一个更清晰的了解和认知。

本次选用的技术组件：

llm：OpenAI
Embedding：OpenAI
VectorDB：ElasticSearch

官方代码示例如下：

# 1.构建向量数据库存储对象实例
vector_store = ElasticsearchStore(
    index_name="my_index",
    es_url="http://localhost:9200",
)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
# 加载本地的数据集
documents = SimpleDirectoryReader('data').load_data()
# 构建索引
index = VectorStoreIndex.from_documents(documents,storage_context=storage_context)
# 服务对象，构建query引擎
service_context = ServiceContext.from_defaults(llm=OpenAI())
query_engine = index.as_query_engine(service_context=service_context)
# 问问题
resp=query_engine.query("住院起付线多少钱?")
# 响应答案
print(resp)

2.处理过程

2.1 数据处理过程

在数据处理的过程中，主要包含几个核心的步骤：

初始化向量存储引擎，目前向量数据库类型非常多，笔者本机跑了一个es的docker镜像，这里就选择es了
读取数据，数据格式包括：PDF、WORD、TXT等等文本数据
在数据读取完成后，会对文档内容进行分割，然后Embedding(调用embedding模型)存储入库

2.1.1 处理加载不同的文件类型(构建Document)

SimpleDirectoryReader是llamaindex提供的一个基于文件夹的读取器类，会根据文件夹中的文件扩展后缀类型自动加载数据

主要支持的文件数据类型如下：

DEFAULT_FILE_READER_CLS: Dict[str, Type[BaseReader]] = {
    ".hwp": HWPReader,
    ".pdf": PDFReader,
    ".docx": DocxReader,
    ".pptx": PptxReader,
    ".ppt": PptxReader,
    ".pptm": PptxReader,
    ".jpg": ImageReader,
    ".png": ImageReader,
    ".jpeg": ImageReader,
    ".mp3": VideoAudioReader,
    ".mp4": VideoAudioReader,
    ".csv": PandasCSVReader,
    ".epub": EpubReader,
    ".md": MarkdownReader,
    ".mbox": MboxReader,
    ".ipynb": IPYNBReader,
}


class SimpleDirectoryReader(BaseReader):
    """Simple directory reader.

    Load files from file directory.
    Automatically select the best file reader given file extensions.

    Args:
        input_dir (str): Path to the directory.
        input_files (List): List of file paths to read
            (Optional; overrides input_dir, exclude)
        exclude (List): glob of python file paths to exclude (Optional)
        exclude_hidden (bool): Whether to exclude hidden files (dotfiles).
        encoding (str): Encoding of the files.
            Default is utf-8.
        errors (str): how encoding and decoding errors are to be handled,
              see https://docs.python.org/3/library/functions.html#open
        recursive (bool): Whether to recursively search in subdirectories.
            False by default.
        filename_as_id (bool): Whether to use the filename as the document id.
            False by default.
        required_exts (Optional[List[str]]): List of required extensions.
            Default is None.
        file_extractor (Optional[Dict[str, BaseReader]]): A mapping of file
            extension to a BaseReader class that specifies how to convert that file
            to text. If not specified, use default from DEFAULT_FILE_READER_CLS.
        num_files_limit (Optional[int]): Maximum number of files to read.
            Default is None.
        file_metadata (Optional[Callable[str, Dict]]): A function that takes
            in a filename and returns a Dict of metadata for the Document.
            Default is None.
    """

    supported_suffix = list(DEFAULT_FILE_READER_CLS.keys())
    //....

总共支持了16个文件数据类型，整理到表格如下：

文件类型	依赖组件	说明
hwp	olefile
pdf	pypdf
docx	docx2txt
pptx、pptm、ppt	python-pptx、transformers、torch	用到一些模型，对数据进行理解、提取
jpg、png、jpeg、	sentencepiece、transformers、torch	用到一些模型，对数据进行理解、提取
mp3、mp4	whisper	用到一些模型，对数据进行理解、提取
csv	pandas
epub	EbookLib、html2text
md	无	本地流直接open，读取文本
mbox	bs4、mailbox
ipynb	nbconvert

整个Reader类的UML类图设计如下：

所有文件数据类型的Reader，通过load_data方法，最终得到该文档的Document对象集合，Document类是LlamaIndex框架的处理文档的核心类对象,从该类的结构设计来看，我们可以总结一下：

核心字段：id(文档唯一id)、text(文本内容)、embedding(向量float浮点型集合)、metadata(元数据)
BaseNode提供了一个树结构的设计，对于一篇文档而言，从多级标题划分来看，树结构能更好的描述一篇文档的基础结构
Document提供了一些外部应用框架适配的方法，比如：LangChain、EmbedChain等等

最终构建完成所有的Document信息后，我们可以看到下面一个结构信息

本示例程序，使用的是一个PDF文件，由于我们并未指定分割等策略，LlamaIndex对于PDF文件是以Page为单位，进行切割，最终将所有的Document对象存储进入向量数据库

2.1.2 构建向量数据库索引(Index)

当本地数据集处理完成，得到一个Document集合的时候，此时，这需要构建向量数据库的索引，主要是包含几个过程：

调用不同的向量数据库中间件，构建集合索引，对于ES来说，则是创建Index
调用Embedding模型(基于OpenAI提供的text-embedding-ada-002模型)，将Document对象集合中的text文本，进行向量化处理并赋值
将Document集合的对象值(text、embedding、metadata)存储进入向量数据库

在LlamaIndex创建ES的向量索引结构中，初始情况下，核心字段也是前面我们提到的Document类中的几个核心字段(id、embedding、content、metadata)，如下图：

但是在Document对象遍历结束后，在数据存储阶段，考虑到元数据的信息，LlamaIndex会扩充metadata元数据的字段，如下图：

元数据信息会将文档的信息提取出来，包括页码、文件大小、文件名称、创建日期等等信息

最终在本地数据集的情况下，LlamaIndex创建的ES数据索引结构最终就会变成下面这种结构形式：

{
    "mappings": {
        "properties": {
            "content": {
                "type": "text"
            },
            "embedding": {
                "type": "dense_vector",
                "dims": 1536,
                "index": true,
                "similarity": "cosine"
            },
            "metadata": {
                "properties": {
                    "_node_content": {
                        "type": "text",
                        "fields": {
                            "keyword": {
                                "type": "keyword",
                                "ignore_above": 256
                            }
                        }
                    },
                    "_node_type": {
                        "type": "text",
                        "fields": {
                            "keyword": {
                                "type": "keyword",
                                "ignore_above": 256
                            }
                        }
                    },
                    "creation_date": {
                        "type": "date"
                    },
                    "doc_id": {
                        "type": "keyword"
                    },
                    "document_id": {
                        "type": "keyword"
                    },
                    "file_name": {
                        "type": "text",
                        "fields": {
                            "keyword": {
                                "type": "keyword",
                                "ignore_above": 256
                            }
                        }
                    },
                    "file_path": {
                        "type": "text",
                        "fields": {
                            "keyword": {
                                "type": "keyword",
                                "ignore_above": 256
                            }
                        }
                    },
                    "file_size": {
                        "type": "long"
                    },
                    "file_type": {
                        "type": "text",
                        "fields": {
                            "keyword": {
                                "type": "keyword",
                                "ignore_above": 256
                            }
                        }
                    },
                    "last_accessed_date": {
                        "type": "date"
                    },
                    "last_modified_date": {
                        "type": "date"
                    },
                    "page_label": {
                        "type": "text",
                        "fields": {
                            "keyword": {
                                "type": "keyword",
                                "ignore_above": 256
                            }
                        }
                    },
                    "ref_doc_id": {
                        "type": "keyword"
                    }
                }
            }
        }
    }
}

数据Index定义完成，Document对象存储进入向量数据库，此时，我们的数据集结构如下：

2.2 问答获取答案

在获取答案的过程中，主要包含几个核心的步骤：

构建用户查询Query，对query进行Embedding处理，召回Topk的相似片段内容。
组装Prompt工程内容，发送大模型获取答案

2.2.1 召回查询获取TopK

首先，在RAG的查询阶段，不管是使用那个向量数据库，根据数据库的类型，将用户的query语句进行Embedding后，再构建数据库的查询条件，如下图：

这里面会包含几个核心的参数：

embedding：knn查询的浮点型向量数组值
top_k:根据knn相似度查询获取得到的topk值数量，在这个例子中，LlamaIndex默认值是2
filters：过滤条件
alpha：语义&关键词混合检索的权重，0代表bm25算法检索，1则代表knn

VectorStoreQuery类结构定义如下：

@dataclass
class VectorStoreQuery:
    """Vector store query."""
    # knn搜索的查询Embedding浮点型数组
    query_embedding: Optional[List[float]] = None
    # knn搜索的top k取值
    similarity_top_k: int = 1
    doc_ids: Optional[List[str]] = None
    node_ids: Optional[List[str]] = None
    query_str: Optional[str] = None
    output_fields: Optional[List[str]] = None
    embedding_field: Optional[str] = None

    mode: VectorStoreQueryMode = VectorStoreQueryMode.DEFAULT

    # NOTE: only for hybrid search (0 for bm25, 1 for vector search)
    alpha: Optional[float] = None

    # metadata filters
    filters: Optional[MetadataFilters] = None

    # only for mmr
    mmr_threshold: Optional[float] = None

    # NOTE: currently only used by postgres hybrid search
    sparse_top_k: Optional[int] = None
    # NOTE: return top k results from hybrid search. similarity_top_k is used for dense search top k
    hybrid_top_k: Optional[int] = None

根据query的条件，会从向量数据库中召回获取得到topk的TextNode数组，如下：

2.2.2 构建Prompt发送大模型获取答案

最终召回到引用文档内容后，剩下的就是构建整个大模型对话的Prompt工程，来看看LlamaIndex的基础Prompt是如何构建的

partial_format方法获取得到一个基础的Prompt模版信息，内容如下：

'Context information is below.
---------------------
{context_str}
---------------------
Given the context information and not prior knowledge, answer the query.
Query: {query_str}
Answer: '

这里有两个核心的参数：

context_str: 从向量数据库召回查询的知识库引用文本数据上下文信息，从模版的设定也是告诉大模型基于知识信息进行回答
query_str：用户提问的问题

而最终的context_str信息，我们可以看到，如下图：

我们的问题是：住院起付线多少钱?

从最终knn检索召回的文档片段来看，精准的找到了知识库的引用内容，此时，交给大模型进行回答，获取我们想要的答案结果。

3.总结

好了，本文从LlamaIndex给我们提供的基础的示例程序，基于Basic RAG的基础架构来分析数据的处理、召回响应等过程，我们可以看到LlamaIndex框架给了我们一个很好的处理流程，从这里我们可以总结如下：

对于基础的RAG架构，有一个很好的认知，让开发者知道RAG是一个怎样的处理过程
底层的向量数据库存储结构设计和中间程序的结构设计，能够给做RAG应用的开发人员一些启发，流行的RAG框架在数据结构设计上是如何做的，这对于企业开发人员来说，架构&数据结构设计是有很重要的参考意义。

TorchV的RAG实践分享(二)：基于ElasticSearch的混合检索实战&原理分析

2023-12-27T00:00:00+08:00

概述

在昨天员外分享的《TorchV的RAG实践分享（1）——RAG的定位、技术选型和RAG技术文章目录》一文中介绍了TorchV的由来，也分享了我们的几个基线产品和应用架构的方向，我们想的是在创业的过程中，将我们自己的一些产品理念、技术心得都通过公众号发文的方式分享出来，更多的和行业内的专家们共同交流，这对我们自己也是一种提升和锻炼，也期待和客户一起共创成长，逐步把产品打磨好。

在目前大模型应用技术架构中，通过召回上下文来回答用户的问题是解决大模型当下的幻觉问题最靠谱/经济实惠的一种解决方案,RAG检索增强技术在整个LLM技术架构体系中的作用越来越明显。而检索召回和用户的query问句的质量则直接关系到最终大模型的生成结果。在向量数据库基础设施普及的今天，仅仅通过语义搜索召回已经无法满足企业级的需求，大家发现传统的搜索技术(基于关键词、词频等相关性的搜索)的作用也显得尤为重要，混合检索也成为了目前在RAG的技术架构中的主流检索方式，混合检索通过扬长避短的方式，在不同的业务应用场景中形成了很好的互补，对于不同的业务场景需求中，可以更灵活的进行配置满足业务需要，是RAG技术架构体系中非常重要的重要一环。

本文中所提到的混合检索主要是两种搜索技术的结合，主要如下：

相关性搜索： 基于BM25、TF-IDF算法，主要适用于文本精确匹配的相关性匹配搜索，它在匹配特定术语（如产品名或专业术语）方面表现出色，但对拼写错误和同义词较为敏感，可能会忽略一些重要的上下文信息。
语义搜索： 基于向量的Knn算法进行的语义检索，它能够基于用户的query语义含义进行多语言和多模态搜索，对拼写错误具有较好的容错性，但可能会忽视关键词。此外，它的效果依赖于向量嵌入的质量，并对非专业领域的术语较为敏感。

本文针对ElasticSearch中间件来实现整个外部知识库向量的存储和计算，在RAG技术架构中的混合检索进行探索和分析，结合我们自己的实际业务情况，如何通过底层的技术驱动，完善我们的产品设计，改善整个产品流程。

整篇文章主要包括：

简介：简要概述ElasticSearch中间件以及在RAG技术架构的选型及实现
算法理论：参数在混合检索过程中涉及的算法理论知识，面向的业务场景及选择方式
召回Score分值计算：讲解ElasticSearch组件在召回计算过程中的Score分值规则及算法细节
TorchV产品驱动：技术推动我们TorchV产品的产品架构设计，如何影响产品流程
结论：整篇的总结概述及参考文章

ElasticSearch简介

在介绍ElasticSearch的混合检索之前，我们需要先简单回顾ElasticSearch这个中间件如何在目前AI技术场景的落地情况

在目前的RAG大模型技术架构体系中，向量Vector技术已经作为大模型外挂知识库的非常重要的技术栈，向量的核心对于数据的表征(Embedding)然后执行相似度(Similarity)计算。2023年随着大模型技术的发布带火了非常多的向量数据库，特别是LangChain、llama_index等LLM数据应用框架的发布，包括:Milvus、Qdrant、Pinecone、Chroma等等专业的向量数据库中间件。向量数据结构的存储与计算可以说是当前做大模型应用的基建产品了，就好像传统软件工程中的数据库一样。

而对于ElasticSearch而言也同样如此，对于之前使用ElasticSearch中间件的开发人员而言，可能对于向量数据的存储和计算是比较陌生的，在传统软件工程用ES来储存搜索主要还是基于关键词搜索技术(BM25、TF-IDF)等实现，本质还是基于文本的精确匹配。而在最近ES组件发布的版本来看，特别是ES 8.0版本发布对于KNN算法搜索的优化支持来看，AI大模型这场技术革命风暴，似乎也不想袖手旁观。

我们选择ElasticSearch作为TorchV的基础RAG架构组件也是出于以下几个方面考虑：

开箱即用的语义搜索功能以及一流的相关性检索(BM25/TF-IDF)算法实现
区别于其它向量数据库所不具备的特有功能，包括：聚合、过滤、集群、分布式等等特性。
多年的技术沉淀和社区发展，不同编程语言的生态完善成熟度等

在ElasticSearch的目前的版本中，要使用向量实现存储和计算对于开发者使用上非常简单，开发者在定义ES的索引结构时，定义向量字段类型dense_vector,并且自定义向量维度dims(最大维度不超过4096(自8.x版本开始))，如下索引结构：

PUT test-001
{
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "dense_vector",
        "dims": 3  
      },
      "my_text" : {
        "type" : "keyword"
      }
    }
  }
}

在执行搜索时则可以通过k-最近邻(KNN)搜索找到与查询向量最近的K个向量结果值来获取结果，通过相似度值来衡量获取文档片段。

GET test-001/_knn_search
{
  "knn": {
    "field": "my_vector",
    "query_vector": [0.3, 0.1, 1.2],
    "k": 10,
    "num_candidates": 100
  },
  "_source": ["name", "date"]
}

而我们在前面提到，混合检索(语义搜索+相关性搜索)是目前做RAG的非常重要文档召回技术手段，纯KNN搜索并不能完全满足业务的需求，因此在当前的RAG技术架构体系中，ES在保持传统相关性搜索的基础上，增加对语义搜索的技术支持就显得很有冲击力，毕竟在向量搜索火爆之前，ES作为搜索引擎的老大哥，在企业级的产品应用体系中，应用范围还是非常广泛的。

算法&业务场景

在做混合检索时，我们会接触到两类算法，需要对算法有一个基础了解，这有助于我们在应用产品的技术体系中做决策：

语义检索：基于向量空间的KNN算法
相关性检索：传统的文本精确匹配方法，包括BM25、TF-IDF

语义检索(knn)

KNN算法：k近邻算法，是机器学习算法中一种基本分类和回归方法。在给定的一个数据集中，对于新的数据实例，找到与该实例最邻近的k个实例，这k个实例的多数属于某个分类。

这就像你在一个陌生的城市，你可能会问周围的k个人哪家餐馆最好。如果大多数人都推荐同一家餐馆，那么你可能会选择去那家餐馆。

而我们在选择餐馆的过程中，每一个餐馆会有非常多的维度来描述这个餐馆的信息，包括：地理位置、菜系、价格、环境、口味等等，这一系列参数属性就是特征工程，目前的向量Embedding模型用来对一段文本进行Embedding，其实就是对于该文本内容的的特征信息进行提取描述。

这个时候，你会根据你自己的诉求，对于餐馆的不同特征要求，最终选择你要去哪家餐馆吃饭。

在Elasticsearch中，KNN搜索主要通过使用向量相似度(特征空间中的两个实例点间的距离可以反映出两点间的相似程度)进行度量，文档根据向量数据集与查询向量的相似度进行排名。每个文档的 _score 将从相似度中得出，以确保分数为正并且分数越高对应于越高的排名。

ES目前主要提供了三种度量的标准供我们选择(考虑到本文是基于es，因此也只对该三种度量标准做介绍，对于其它的向量计算距离的方式，开发者可以自行搜索了解)

L2_norm(欧式距离)：这是最常用的距离度量方式，它计算的是两个向量在笛卡尔坐标系中的直线距离。文档的score计算方式为：1 / (1 + l2_norm(query, vector)^2)
dot_product(点积)：点积是两个向量的对应元素相乘然后求和，文档 _score 计算为 (1 + dot_product(query, vector)) / 2
cosine(余弦相似度,default)：计算两个向量余弦相似度，余弦相似性度量的是两个向量之间的角度，而不是距离。它的值范围是 -1 到 1，值越接近 1，表示两个向量越相似，文档 _score 计算为 (1 + cosine(query, vector)) / 2

我们在开发RAG的大模型应用产品中，通常会将外部的知识库通过chunk分段存储处理，对于用户的query，通过Embedding模型进行表征为向量后，与chunk片段的向量进行距离计算，此时作为距离度量的方式考虑，那么根据实际的业务场景，就可以考虑上面的三种类型中的一种。

一般默认选择cosine余弦相似度进行计算召回，主要考虑：

长度不敏感：在文本数据中，文档的长度可能会有很大的差异，这会影响到向量的长度。余弦相似性只关注向量的方向，而不关注长度，因此它对尺度不敏感，适合处理这种情况(虽然我们在使用向量Embedding模型进行表征时，向量的维度都是固定的)。
方向敏感：在问答系统中，我们通常关心的是文档的主题或者内容是否相似，而不是文档的长度。余弦相似性度量的是两个向量之间的角度，可以很好地反映出文档的主题或者内容是否相似。
高维数据：向量Embedding模型表征的高维度(768/1024/1536…等等)向量，适合余弦相似性适合处理这种高维稀疏的数据。

而ES自8.0版本发布后，同样也提供了对KNN搜索的优化，主要提供了两种策略：

近邻KNN搜索算法(ANN)：数据结构基于HNSW算法索引实现，近似 kNN 提供较低的延迟，但代价是索引速度较慢且准确性不完善(这也为后来RAG架构中的文档检索结果做ReRank重排埋下伏笔，可以关注员外的这篇《Rerank——RAG中百尺竿头更进一步的神器，从原理到解决方案》)。
精确、强力的 kNN搜索(暴力搜索)：基于函数实现，这种方式能够保证结果的准确性，通过计算script_score 函数扫描每个匹配文档计算向量距离获取文档结果集，这会导致搜索速度缓慢(大数据集的应用场景下)。

开发者在选择KNN搜索的算法策略时，可以根据自己的实际业务需要进行抉择。

Score分值计算&注意事项

在理解了算法、es中间件之后，结合实战+Score分值的计算使用过程，包括配合ES的Explain接口，讲清楚Score的计算规则，原理

在前面了解了ES的整个检索Score算法介绍之后，其实对于文本内容的检索召回Score分值计算，就比较清晰了，先说结论：

ElasticSearch在使用KNN+BM25检索的混合检索分值Score计算公式是：knn_score+bm25_score

使用ES混合检索的语法如下：

POST image-index/_search
{
  "query": {
    "match": {
      "title": {
        "query": "mountain lake",
        "boost": 0.9
      }
    }
  },
  "knn": {
    // 字段
    "field": "image-vector",
    // 输入向量
    "query_vector": [54, 10, -2],
    // k值
    "k": 5,
    // 每个分片要考虑的最近邻居候选数。不能超过 10,000
    "num_candidates": 50,
    // 加权参数值
    "boost": 0.1,
    // 档被视为匹配所需的最小相似度,配合filter使用，提高检索效率
    "similarity": 0.7,
    // 过滤条件
    "filter": {
      "term": {
        "file-type": "png"
      }
    }
  },
  "size": 10
}

query部分的检索所代表的是BM25算法的Score计算分值召回，而knn部分的检索所代表的则是语义向量空间的距离Score分值，最终的结果值相加后倒排的一个文档列表结果集

score=match_score*0.9 + knn_score*0.1

BM25的Score

对于BM25算法的检索分值计算，开发者可以使用Explain API来查看整个Score的计算过程，整个计算过程就和BM25算法公式那样,如下图：

BM25算法会将用户输入的match参数，计算每一个分词的score分值，最终加起来，得到一个总的分值score数据，对于每一个分词，都可以通过该接口查看到完整的计算过程，是非常方便的开发者进行理解的。

在这里进行BM25计算时，我前面提到BM25算法可能存在检索不到最终我们说期望的文本，会有一些其它参数影响最终效果，并非需要更改算法中的k1和b这两个参数，主要考虑如下：

ES是一个分布式搜索和分析引擎，数据被分为多个分片（shards），每个分片可以在任何节点上存储。这使得数据可以在多个节点之间进行分布，从而提高系统的容量和性能，最终数据在存储构建索引的时候，es会均衡的进行分布存储，而在召回计算的过程中，数据也会从各个shards分片进行召回计算。开发者在创建索引(index)的时候，可以设置shards的分片为1或者3，来查看区别。
es默认提供了非常多的tokenizer分词器，而对于中文用户的使用者来说，哪些词该分，哪些词不该分，包括同义词的影响等等，都会影响整个Score分值的计算，在目前es的生态中，ik分词器可能是当下最成熟的一个plugin插件，ik提供了一个基础的词库，同时支持热更新，对于上层应用产品的设计融合，非常刚需。

KNN的Score

对于KNN的检索分值计算，就非常的简单了，开发者在构建用户索引的时候，选择具体的向量距离类型，es在计算knn的时候，就会根据其算法进行计算

PUT my-index-2
{
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "dense_vector",
        "dims": 1024,
        // 选择类型，cosine、dot_product、l2_norm
        "similarity": "cosine"
      }
    }
  }
}

选择不同的类型，就是单纯的向量距离计算了，按公式套用就可以了。

不过值得注意的是，对于使用最多的cosine的文档 _score 计算为 (1 + cosine(query, vector)) / 2。

⚠️注意事项

当我们使用混合检索的时候，有一些注意事项值得我们关注：

开发者在使用Explain API接口进行调试的时候，由于KNN的分值是单独计算，所以在分析的时候，不能有KNN的部分
KNN检索的参数，可以配置多个knn的向量查询值，另外filter过滤参数会提高检索的效率，但是提高检索效率的同时，由于总是会计算召回文档进行相似度计算，所以可以配合similarity来一起使用。

TorchV产品驱动&总结

对于混合检索，我们在算法层面有了直接的了解后，最终在产品层面会影响一些设计。

1、混合检索的权重设置：在上面的score分值计算公式中，我们其实知道es最终是通过bm25*boost+knn*boost,那么这个boost则可以影响我们最终的内容，因为并不是所有的客户和业务场景都适合knn检索，可能在其他关键的场景中，关键词检索会更适合(比如一些利用大模型做一些异步的任务提取，报告输出等等业务场景)，我们在产品设计中则可以根据不同的客户诉求以及业务诉求，就可以设置这个boost来影响最终的召回结果天平，从而改善我们的产品效果。

在我们的TorchV的产品设计中，我们设计了一个alpha参数值，取值范围在0-1之间，具体来说：

alpha = 1：完全基于向量的搜索,也就是KNN近邻搜索
alpha = 0：完全基于关键词的搜索，基于ES的BM25算法检索

2、在BM25算法的场景中，分词是非常重要的一个特性，对于不同的行业客户，词库的收集建立对于产品应用的提升肯定是会有质的提升，也是每个公司做RAG产品的核心竞争力。

3、持续运营能力的重要性，RAG问答检索功能在技术架构迭代优化上是一个方面，但是运营能力同样重要，哪怕是ChatGPT4，在针对特殊的数据文件，如果数据混乱，知识库质量不高，那么同样回答准确率不会很好的，这在我们和客户进行沟通交流的同时，虽然RAG可能会给客户眼前一亮的感觉，但是持续的提升他的能力，发挥更大的作用，产品的持续运营能力是必不可少的。

参考

好了，全文完.

RAG的概述

2023-12-23T00:00:00+08:00

待续…

基于Apple MLX框架的M1设备上大模型微调实践

2023-12-17T00:00:00+08:00

前言

在不久前苹果官方开源发布了针对Apple Silicon 芯片优化的 MLX 深度学习框架，该框架可以简化研究人员在 Mac、iPad、iPhone 平台设计和部署模型的过程。

MLX的主要特性包括：

熟悉的API：MLX 具有紧随 NumPy 的 Python API。 MLX 还拥有功能齐全的 C++ API，它与 Python API 非常相似。 MLX 具有 mlx.nn 和 mlx.optimizers 等更高级别的包，其 API 紧密遵循 PyTorch，以简化构建更复杂的模型。
可组合函数转换：MLX 具有用于自动微分、自动矢量化和计算图优化的可组合函数转换
惰性计算 (Lazy computation)：MLX 中的计算是惰性计算。数组仅在需要时才会具体化
动态图构建：MLX 中的计算图采用动态构建，更改函数参数的形状不会触发缓慢的编译，并且调试简单直观
多设备：可以在任何支持的设备上运行（当前为 CPU 和 GPU），确保用户能够充分利用硬件
具备统一内存优势：MLX 和其他框架的显着区别是采用统一内存模型。 MLX 中的数组位于共享内存中，可以在任何支持的设备类型上执行 MLX 阵列上的操作，而无需移动数据。

项目地址：https://github.com/ml-explore/mlx

而在今天的X上看到Apple开发者分享说可以在32GB的M1设备上使用MLX框架对Mistral 7B(或者llamA)等模型进行微调(Fine-tune)

准备

看到官方的例子，我的电脑正好是M1 32GB的配置，就把代码跑来试试看

首先代码下载下来，地址：https://github.com/ml-explore/mlx-examples/tree/main/lora

安装依赖：

pip install -r requirements.txt

下载Mistral-7B(14.48GB大小)的模型并解压

curl -O https://files.mistral-7b-v0-1.mistral.ai/mistral-7B-v0.1.tar
tar -xf mistral-7B-v0.1.tar

将下载下来的模型文件进行转换，执行convert.py文件, 命令如下：

# 转换命令
python convert.py \
    --torch-model  \
    --mlx-model 
# 转换
python convert.py \
--torch-model mistral-7B-v0.1 \
--mlx-model mistral-7b-v0.1-mlx

两个主要的参数:

torch-model: Mistral模型的目录，解压后为当前的mistral-7B-v0.1
mlx-model: 输出目录名称，这里取名mistral-7b-v0.1-mlx

通过命令转换后，转换的目录文件会有三个文件，如下图：

微调(Fine-tune)

将模型下载转换完成后，接下来就可以使用官方提供的lora.py进行微调(Fine-tune)了，先来看数据集：

训练的数据集是1000行，主要的格式：

微调目标是得到一个能够将自然语言句子转换为SQL

{
    "text": "table: 1-1000181-1\ncolumns: State/territory, Text/background colour, Format, Current slogan, Current series, Notes\nQ: Tell me what the notes are for South Australia \nA: SELECT Notes FROM 1-1000181-1 WHERE Current slogan = 'SOUTH AUSTRALIA'"
}

数据集的格式很清晰：

table: 表名称
columns: 列名称
Q: 用户问题
A: SQL语句

训练

在第一次train的过程中，直接使用demo中的命令：

python lora.py --model  \
               --train \
               --iters 600

运行了大概10分钟后，程序就异常退出了，提示内存不足。

从图中可以看出，在声明内存的过程中，出现了异常，无法开辟新内存空间，并且每秒的Tokens数量也很感人😭

在看了官方的针对内存的issues建议后，发现有几个参数是影响着内存使用的：

–batch-size：尝试通过 --batch-size 使用较小的批量大小。默认值为 4，因此将其设置为 2 或 1 将减少内存消耗。这可能会减慢速度，但也会减少内存使用。
–lora-layers:少层数以使用 --lora-layers 进行微调。默认值为 16，因此您可以尝试 8 或 4。这会减少反向传播所需的内存量。如果您使用大量数据进行微调，它还可能会降低微调模型的质量。
数据集：较长的示例需要更多的内存。如果这对您的数据有意义，您可以做的一件事是在制作 {train, valid, test}.jsonl 文件时将示例分解为更小的序列。

根据官方的建议，那么修改train参数，如下：

python lora.py \
   --model mistral-7b-v0.1-mlx \
   --train \
   --batch-size 1 \
   --lora-layers 4

按这个命令执行后，在我的M1设备上执行的还比较快，每秒的Tokens数量平均上110左右

而Loss的值如下：

Iter	Loss
1	2.265
200	1.516
400	1.380
600	1.350
800	1.325

train完成后，会在本地默认生成一个权重文件adapters.npz

测试结果：

python lora.py --model mistral-7b-v0.1-mlx \
               --adapter-file adapters.npz \
               --num-tokens 50 \
               --prompt "table: 1-10015132-16
columns: Player, No., Nationality, Position, Years in Toronto, School/Club Team
Q: What is terrence ross' nationality
A: "
Loading pretrained model
Total parameters 7243.436M
Trainable parameters 1.704M
Loading datasets
Generating
table: 1-10015132-16
columns: Player, No., Nationality, Position, Years in Toronto, School/Club Team
Q: What is terrence ross' nationality
# 大模型输出
A:  SELECT Nationality FROM 1-10015132-16 WHERE Player = 'Terrence Ross' blowing off the rosshill. SELECT Nationality FROM 1-10015

从结果看，SQL的前半部分写对了，并且也识别出了字段、where条件，但是后面的句子好像就不太对了

我怀疑是在train时，参数--lora-layers 4的问题，这时，我将改参数改为8，在train一次

python lora.py \
   --model mistral-7b-v0.1-mlx \
   --train \
   --adapter-file adapters_2_8_1.npz \
   --batch-size 2 \
   --lora-layers 8

而Loss的值如下：

Iter	loss
1	2.348
200	1.392
400	1.293
800	1.213
1000	1.233

之后，同样的命令，再来看效果：

python lora.py --model mistral-7b-v0.1-mlx \
               --adapter-file adapters_2_8.npz \
               --num-tokens 50 \
               --prompt "table: 1-10015132-16
columns: Player, No., Nationality, Position, Years in Toronto, School/Club Team
Q: What is terrence ross' nationality
A: "
Loading pretrained model
Total parameters 7243.436M
Trainable parameters 1.704M
Loading datasets
Generating
table: 1-10015132-16
columns: Player, No., Nationality, Position, Years in Toronto, School/Club Team
Q: What is terrence ross' nationality
A:  SELECT Nationality FROM 1-10015132-16 WHERE Player = 'Terrence Ross' SELECT Nationality FROM 1-10015132-16 WHERE

看效果好像在SQL语句中，比上面的效果稍微要好一点了?但是结果还是不对。

效果并没有达到预期，我觉得主要是可能有几个方面的原因：

训练数据集太少，导致大模型可能无法,train.jsonl中的数据集是1000
参数--lora-layers 的问题，默认是16，虽然我最后改成了8，但是从官方给出的说明来看，该参数会影响质量

我将参数--lora-layers 修改为16进行了尝试，跑不了，可能还是我的内存太低了😭，那我只能加数据集了

修改了data目录下的wikisql.py文件，将数据集下载整理的总体数量上升到10000，代码：

if __name__ == "__main__":
    datanames = ["train", "dev", "test"]
    sizes = [56355, 8421, 15878]
    for dataname, size in zip(datanames, sizes):
        len(WikiSQL(dataname)) == size, f"Wrong {dataname} set size."

    # Write the sets to jsonl
    import json

    train, dev, test = load()
    # 此处原train参数是1000，我改成5000
    datasets = [
        (train, "train", 10000),
        (dev, "valid", 1000),
        (test, "test", 1000),
    ]
    for dataset, name, size in datasets:
        with open(f"data/{name}.jsonl", "w") as fid:
            for e, t in zip(range(size), dataset):
                # Strip the ,  since the tokenizer adds them
                json.dump({"text": t[3:-4]}, fid)
                fid.write("\n")

修改数据集后，在train过后，得到一个新的权重文件，命令：

python lora.py \
   --model mistral-7b-v0.1-mlx \
   --train \
   --adapter-file adapters_2_8_1.npz \
   --batch-size 2 \
   --lora-layers 8

loss的train过程分值变化：

Iter	loss
1	2.348
200	1.472
400	1.410
600	1.387
800	1.360
1000	1.349

再来看看我们的promt得到的结果：

从结果来看，SQL语句的语法好像并没有什么大的问题，只是结果没有达到预期，可能还是得从数据集及相关参数找一下原因。

结论

虽然运行的结果还没有完全达到预期，但是在MAC上通过Apple推出的MLX深度学习框架进行Fine-ture的技术方案是可行的。

这也为以后大模型的训练、生态发展提供了另外一种可能性。

包括我们应用开发者在做RAG的过程中，和数据进行对话的场景随着业务的深入肯定会触及，而对模型进行微调是不可避免的。

Reference

Python3.11在CentOS7环境下的安装指定OpenSSL

2023-11-07T00:00:00+08:00

如果你是在CentOS7 上面源码安装Python3.11版本，你可能会碰到和我一样的问题，那就是OpenSSL模块太低了。

在源码编译安装时，如果没有指定OpenSSL那么在使用时会出现一些异常，解决方案：

1、更新yum软件包

yum update
yum install openssl-devel bzip2-devel libffi-devel

2、下载最新的OpenSSL源码，解压并编译

cd /usr/src
wget https://ftp.openssl.org/source/openssl-1.1.1q.tar.gz --no-check-certificate

解压OpenSSL包并安装

# 解压
tar -xzvf openssl-1.1.1q.tar.gz
cd openssl-1.1.1q
# 编译
./config --prefix=/usr --openssldir=/etc/ssl --libdir=lib no-shared zlib-dynamic
make
# 安装
make install

3、验证版本

> openssl version
OpenSSL 1.1.1q  5 Jul 2022
> which openssl
/usr/bin/openssl

4、下载Python的源码包，解压并安装

## 解压
tar -xzf Python-3.11.6.tgz
cd Python-3.11.6
# 编译（指定python3的目录和openssl模块）
./configure --prefix=/mnt/python/python3 --with-openssl=/usr
# 安装
sudo make
sudo make install

5、生成软链

系统中可能已经存在python3的命令，删除重新命名即可

在上面我们指定安装目录在/mnt/python/python3下,所以可以直接创建软链

sudo ln -s /mnt/python/python3/bin/python3.11 /usr/bin/python3

References

Installing SSL package with PIP requires SSL package to be already installed

八一菜刀

非结构化数据解析 &GenAI的应用探索和实践（文字稿）

一、前言

二、非结构化数据的解析难点&细节

三、应用探索 & 实践

四、个人感想

五、Reference

QWen2-72B-Instruct模型安装部署过程

一、基础信息

二、软件信息

三、安装步骤

1、安装Conda

2、下载QWen2-72B-Instruct模型

3、安装Pytorch等环境依赖信息

4、 安装vLLM

5、模型验证

6、启动服务 & 包装OpenAI格式的接口

四、总结

五、References

官网资源等信息

权重文件下载不完全

RAG工程实践拦路虎之一：PDF格式解析杂谈

背景

技术方案

技术难点

技术可行性

开源技术方案

Java生态

Python生态

OCR生态/大模型

技术准备/细节

最后

我对《RAG/大模型/非结构化数据知识库类产品》技术架构的思考、杂谈

1、前言

2、业务功能/技术组件拆解抽象

3、微服务/分布式/云原生？

4、编程语言/中间件选择？

5、总结

创业：大模型RAG系统三个月的开发心得和思考

1. 前言

2. RAG简介

3. RAG技术&架构思考

3.1 数据工程

3.2 检索生成

4. 技术&产品领导驱动商业的发展

5. 架构&编程语言的选择

6. 总结

7. References

TorchV的RAG实践分享(三):解析llama_index的数据存储结构和召回策略过程

1.前言

2.处理过程

2.1 数据处理过程

2.1.1 处理加载不同的文件类型(构建Document)

2.1.2 构建向量数据库索引(Index)

2.2 问答获取答案

2.2.1 召回查询获取TopK

2.2.2 构建Prompt发送大模型获取答案

3.总结

TorchV的RAG实践分享(二)：基于ElasticSearch的混合检索实战&原理分析

概述

ElasticSearch简介

算法&业务场景

语义检索(knn)

相关性检索(BM25/TF-IDF)

Score分值计算&注意事项

BM25的Score

KNN的Score

⚠️注意事项

TorchV产品驱动&总结

参考

RAG的概述

基于Apple MLX框架的M1设备上大模型微调实践

前言

准备

微调(Fine-tune)

训练

结论

Reference

Python3.11在CentOS7环境下的安装指定OpenSSL

References

4、安装vLLM