没有思考过Embedding不足以谈AI

随着 BERT、T5、LLaMA/Qwen3 等 预训练语言模型(PLM) 的出现,文本嵌入进入了“通用+可迁移”时代。

哈工大这篇 30+ 页综述系统回答了( 论文链接在文末 ):

通用文本嵌入(GPTE) 的架构、数据、模型

PLM 到底给GPTE带来了哪些 基础能力 与 高级扩展 ?

1. 一张图先看清 GPTE 架构

没有思考过Embedding不足以谈AI-2 图1:GPTE 典型架构——Bi-Encoder + 对比学习

骨干 :任意 PLM(BERT、T5、LLaMA…)

池化 :CLS / Mean / Last-Token / Prompt-Pooling

训练 :大规模文本对 + InfoNCE 对比损失

微调 :任务特定的轻量适配(LoRA、Adapter)

没有思考过Embedding不足以谈AI-3

Embedding训练数据

2. PLM 的「基础角色」

没有思考过Embedding不足以谈AI-4

50种有代表性的开源 GPTE 方法(模型)

模块

关键做法

代表工作

(1)嵌入抽取

CLS / Mean / Last-Token / 多层融合

SBERT、E5、GTE

(2)长文本

RoPE、Alibi、LongEmbed

Jina-v3、MosaicBERT

(3)训练策略

多阶段:弱监督→高质量

E5-Mistral

(4)学习目标

CL + MLM + MRL + KD

GTE-MLM、DiffCSE

(5)数据合成

LLM 生成正/负样本

Promptagator、Qwen3-Emb

没有思考过Embedding不足以谈AI-5

基于不同预训练语言模型(PLM)主干的通用文本嵌入(GPTE)模型性能对比,聚焦于广泛采用的开源 PLM: 模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。

没有思考过Embedding不足以谈AI-6

3. PLM 的「高级角色」

(6) 多模态

说到多模态,典型应用是RAG检索,从rag到multimodal-rag已然成一种趋势

另外现有MLLM能力也都很强,给一张照片,就能基于掌握的知识(结合河流走向和城市结构)推理出这是: 纳什维尔(Nashville)是美国田纳西州

没有思考过Embedding不足以谈AI-7

模型

模态

训练数据

特色

E5-V

T + I

LLaVA-NeXT

把 LLM 当图文编码器

VLM2Vec-V2

T + I + V

Qwen2-VL

统一视频/图像/文档检索

MegaPairs

T ↔ I

合成 500M 图文对

数据即战力

没有思考过Embedding不足以谈AI-8 表6:多模态嵌入模型全家福

没有思考过Embedding不足以谈AI-9 表7:多模态嵌入数据

(7) 多语言

模型

Backbone

语言数

亮点

mE5

XLM-R

100+

中英跨语种零样本检索

BGE-M3

XLM-R + Long

200+

8192 token 长文本

没有思考过Embedding不足以谈AI-10 表4:多语言 GPTE 模型概览

没有思考过Embedding不足以谈AI-11 表5:多语言 GPTE 训练数据概览

(8) 代码嵌入

早期 :CodeBERT、GraphCodeBERT(结构+文本)

LLM 时代 :CodeLlama、DeepSeek-Coder → 直接做 Code Embedding

对比学习 :UniXcoder、ContraBERT、CodeSage

没有思考过Embedding不足以谈AI-12 表8:基于 CL 的代码嵌入模型

表9:代码嵌入的训练数据

三句话总结

PLM 让文本嵌入从“专用”走向“通用”,现在正迈向“多模态+多语言+多任务”大一统。

数据合成 + 对比学习 + 大模型上下文窗口,是当前性能提升的三板斧。

下一步,嵌入模型需要“会推理、懂安全、能解耦”,而不仅是向量维度更高。

https://arxiv.org/pdf/2507.20783v1On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey

THE END
分享
二维码
< <上一篇
下一篇>>