没有思考过Embedding不足以谈AI
随着 BERT、T5、LLaMA/Qwen3 等 预训练语言模型(PLM) 的出现,文本嵌入进入了“通用+可迁移”时代。
哈工大这篇 30+ 页综述系统回答了( 论文链接在文末 ):
通用文本嵌入(GPTE) 的架构、数据、模型
PLM 到底给GPTE带来了哪些 基础能力 与 高级扩展 ?
1. 一张图先看清 GPTE 架构
图1:GPTE 典型架构——Bi-Encoder + 对比学习
骨干 :任意 PLM(BERT、T5、LLaMA…)
池化 :CLS / Mean / Last-Token / Prompt-Pooling
训练 :大规模文本对 + InfoNCE 对比损失
微调 :任务特定的轻量适配(LoRA、Adapter)
Embedding训练数据
2. PLM 的「基础角色」
50种有代表性的开源 GPTE 方法(模型)
模块
关键做法
代表工作
(1)嵌入抽取
CLS / Mean / Last-Token / 多层融合
SBERT、E5、GTE
(2)长文本
RoPE、Alibi、LongEmbed
Jina-v3、MosaicBERT
(3)训练策略
多阶段:弱监督→高质量
E5-Mistral
(4)学习目标
CL + MLM + MRL + KD
GTE-MLM、DiffCSE
(5)数据合成
LLM 生成正/负样本
Promptagator、Qwen3-Emb
基于不同预训练语言模型(PLM)主干的通用文本嵌入(GPTE)模型性能对比,聚焦于广泛采用的开源 PLM: 模型规模越大、主干越强,GPTE 性能越好,但解码器架构需更多参数才能与编码器架构匹敌。
3. PLM 的「高级角色」
(6) 多模态
说到多模态,典型应用是RAG检索,从rag到multimodal-rag已然成一种趋势
另外现有MLLM能力也都很强,给一张照片,就能基于掌握的知识(结合河流走向和城市结构)推理出这是: 纳什维尔(Nashville)是美国田纳西州
模型
模态
训练数据
特色
E5-V
T + I
LLaVA-NeXT
把 LLM 当图文编码器
VLM2Vec-V2
T + I + V
Qwen2-VL
统一视频/图像/文档检索
MegaPairs
T ↔ I
合成 500M 图文对
数据即战力
表6:多模态嵌入模型全家福
表7:多模态嵌入数据
(7) 多语言
模型
Backbone
语言数
亮点
mE5
XLM-R
100+
中英跨语种零样本检索
BGE-M3
XLM-R + Long
200+
8192 token 长文本
表4:多语言 GPTE 模型概览
表5:多语言 GPTE 训练数据概览
(8) 代码嵌入
早期 :CodeBERT、GraphCodeBERT(结构+文本)
LLM 时代 :CodeLlama、DeepSeek-Coder → 直接做 Code Embedding
对比学习 :UniXcoder、ContraBERT、CodeSage
表8:基于 CL 的代码嵌入模型
表9:代码嵌入的训练数据
三句话总结
PLM 让文本嵌入从“专用”走向“通用”,现在正迈向“多模态+多语言+多任务”大一统。
数据合成 + 对比学习 + 大模型上下文窗口,是当前性能提升的三板斧。
下一步,嵌入模型需要“会推理、懂安全、能解耦”,而不仅是向量维度更高。
https://arxiv.org/pdf/2507.20783v1On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey


共有 0 条评论