jina-embeddings-v5-text:新的最先进水平小型多语言 embeddings

张开发
2026/4/10 23:59:06 15 分钟阅读

分享文章

jina-embeddings-v5-text:新的最先进水平小型多语言 embeddings
作者来自 Elastic JINA两个参数量低于 1B 的多语言 embeddings在性能上达到业界最佳水平可在 Elastic Inference Service、Llama.cpp 和 MLX 上使用。我们发布了 jina-embeddings-v5-text这是我们 embedding 模型家族的第五代在 sub-1B 多语言 embeddings 的质量与效率边界上进一步推进jina-embeddings-v5-text-small677M参数MMTEB67.0MTEB English71.7jina-embeddings-v5-text-nano239M参数MMTEB65.5MTEB English71.0small 模型支持 32K token 上下文nano 为 8K支持 4 个任务专用 LoRA adaptersretrieval、text-matching、classification、clustering以及 Matryoshka 维度截断能力从 1024 到 32。在 239M 参数规模下nano 模型在检索质量上可匹配参数量是其两倍的模型。与上一代相比v5-text-small 在检索任务上可匹配 jina-embeddings-v43.8B但体积小 5.6 倍同时在参数量相近的情况下全面优于 jina-embeddings-v3572M。特性v5-text-smallv5-text-nano基础模型Qwen3-0.6B-BaseEuroBERT-210m参数量677M239MEmbedding 维度1024768上下文长度32,7688,192语言支持119Qwen3 tokenizer15EuroBERT tokenizerPoolinglast-tokenlast-tokenLoRA adapters4retrieval、text-matching、classification、clustering4retrieval、text-matching、classification、clusteringMatryoshka 维度32–102432–768MMTEB 分数67.065.5MTEB English 分数71.771.0许可证CC BY-NC 4.0CC BY-NC 4.0v5-text-small 在五个检索基准MTEB Multilingual、MTEB English、RTEB、BEIR 和 LongEmbed上取得了 sub-4B 模型中的最高任务级平均分63.28与 jina-embeddings-v43.8B63.62相当但模型体积小 5.6 倍。根据 2026/02/21 的 MTEB 排行榜jina-embeddings-v5-small0.6B 参数排名 #8是 MTEB Multilingual v2 中 1B 参数以下最强的 embedding 模型在所有指标上均优于 Qwen3-Embedding-0.6b。jina-embeddings-v5-nano0.2B 参数排名 #11在极小参数规模下取得了 top-11 的表现以极低的模型体量达到这一水平在同参数级别中没有其他模型能够接近这一性能。架构v5-text 使用 decoder-only 架构作为 backbone并采用 last-token pooling 代替 mean pooling。在模型结构中每一层 Transformer 都注入了四个轻量级 LoRA adapters分别用于 retrieval、text-matching、classification 和 clustering这些 adapter 在功能上彼此独立用户可以在推理阶段按需选择。在检索任务中query 会添加 “Query:” 前缀document 会添加 “Document:” 前缀以增强语义区分能力。上下文长度方面v5-text-small 支持 32K tokensv5-text-nano 为 8K相比 v3 提升 4 倍。入门Elastic Inference Service使用 v5-text 的最快方式是通过 Elastic Inference ServiceEIS上线生产环境。EIS 提供托管式 embedding 推理能力并具备内置扩缩容能力使你可以在 Elastic 部署中直接生成 embeddings而无需自行管理基础设施。PUT _inference/text_embedding/jina-v5 { service: elastic, service_settings: { model_id: jina-embeddings-v5-text-small } }请查看 EIS 文档以获取具体配置说明。Jina Embedding API我们提供托管的 Embedding API采用按 token 计费pay-per-token的模式。该 API 支持开箱即用的任务选择task selection、维度裁剪dimension truncation以及批量处理batch processing无需 GPU 即可使用。curl https://api.jina.ai/v1/embeddings \ -H Content-Type: application/json \ -H Authorization: Bearer YOUR_API_KEY \ -d { model: jina-embeddings-v5-text-small, task: retrieval.query, dimensions: 1024, input: [What is knowledge distillation?] }在 jina.ai/embeddings 获取 API key。Hugging Face sentence-transformers支持在本地运行并对推理过程拥有完全控制权。模型权重已发布在 Hugging Face并可与 sentence-transformers 直接集成使用实现开箱即用的 embedding 推理能力。from sentence_transformers import SentenceTransformer import torch model SentenceTransformer( jinaai/jina-embeddings-v5-text-small-retrieval, model_kwargs{dtype: torch.bfloat16}, ) query_emb model.encode(What is knowledge distillation?, prompt_namequery) doc_embs model.encode([Knowledge distillation transfers..., Venus is...], prompt_namedocument) similarity model.similarity(query_emb, doc_embs)vLLM面向生产级工作负载的高吞吐量推理服务框架。vLLM 原生支持 v5-text并采用 last-token pooling 机制以实现高效的 embedding 生成与服务化部署。from vllm import LLM from vllm.config.pooler import PoolerConfig model LLM( modeljinaai/jina-embeddings-v5-text-small-retrieval, dtypefloat16, runnerpooling, pooler_configPoolerConfig(seq_pooling_typeLAST, normalizeTrue), ) outputs model.encode([Query: climate change impacts], pooling_taskembed)为了在本地实现优化推理通过 llama.cpp 和 MLX每个任务的 LoRA 权重都会与基础模型进行合并从而生成独立的权重文件。这也是为什么你会看到按任务划分的多个独立仓库retrieval、text-matching、classification、clustering——每个仓库都包含已经完成合并的完整权重可直接加载使用在推理时无需 LoRA 额外开销。llama.cppGGUF支持在 CPU 或边缘设备上运行量化模型。我们为每个模型提供 14 种 GGUF 量化版本从 F16 到 IQ1_S 不等以覆盖不同的性能与资源需求场景。llama-server -hf jinaai/jina-embeddings-v5-text-small-retrieval-GGUF:Q4_K_M \ --embedding --pooling last -ub 32768MLX通过 MLX 实现原生 Apple Silicon 推理。所有任务 adapter 均提供全精度full precision、4-bit 和 8-bit 量化版本以适配不同的性能与资源需求场景。import mlx.core as mx from tokenizers import Tokenizer from model import JinaEmbeddingModel import json with open(config.json) as f: config json.load(f) model JinaEmbeddingModel(config) weights mx.load(model-4bit.safetensors) # or model.safetensors, model-8bit.safetensors model.load_weights(list(weights.items())) tokenizer Tokenizer.from_file(tokenizer.json) texts [Query: What is machine learning?] embeddings model.encode(texts, tokenizer)从 Hugging Face 下载 jinaai/jina-embeddings-v5-text-small-retrieval-mlx 也提供 text-matching 、 classification 和 clustering adapters 。训练两个模型都是从 Qwen3-Embedding-4B 蒸馏得到的这是一个更大的已训练 embedding 模型。小型版本使用 Qwen3-0.6B-Base 作为其 backbone 而 nano 使用 EuroBERT-210m 。我们的 training 结合了两种互补信号来自 4B teacher 的embedding distillation通过 cosine similarity loss 。 student 学习近似 teacher 的 embedding space 无需 instruction-style prompts 。这对于 labeled data 稀缺的语言和任务尤其有效。基于Task-specific contrastive loss InfoNCE 在 labeled query-document pairs 上结合 hard negative mining 和 in-batch negatives 。在冻结 distilled backbone 之后我们为每个 task category 训练独立的 LoRA adapters 。我们的 ablation studies 表明这种组合方法始终优于单一方法。在 MTEB English retrieval 上该组合方法在同一 backbone 上取得60.1nDCG10 相比 distillation-only 的 58.6 和 contrastive-only 的 54.3 。我们还在 training 中应用GOR Generalized Orthogonal Regularization 它鼓励 embedding components 更均匀分布。这不会显著提升 standard benchmark scores 但它使 binary quantization 几乎 lossless 这是 memory-constrained deployment 的关键特性。一些来自 training 的观察值得注意distillation 和 contrastive learning 在我们最初没有预料到的方式上是互补的。从 loss mixture 中移除任何单一组件都会导致 performance 全面下降。Task-specific LoRA adapters 在几乎可忽略的 parameter overhead 下优于 multi-task training 。GOR regularization 使 binary quantization 几乎 lossless 这对 deployment 比微小的 full-precision gains 更重要。结论Embedding models 越来越多地作为 tool-chain components 被用于更大的系统中。LLM agents 在 agentic workflows 中调用 embedding APIs 用于 retrieval 、 memory 和 classification 。像 OpenClaw 和 OpenViking 这样的项目将 embeddings 视为 agent context management 的 core infrastructure layer 而不是 standalone search endpoints 。在这种 regime 下inference cost 和 latency per call 与 benchmark scores 同样重要而 compact models 成为自然选择。向更小 embedding models 的趋势反映了更广泛的转变。on-device retrieval 、 browser-based search 和 edge deployment 都要求模型适配 constrained memory budgets 。Matryoshka dimension support 使单一模型能够同时支持 high-precision 和 ultra-fast approximate search 而无需 retraining 。结合 GGUF quantization 降至 1-2 bits production embedding service 的有效 memory footprint 降低一个数量级。我们正在开发 jina-embeddings-v5-multimodal 将相同 architecture 扩展到 vision 和 cross-modal retrieval 。早期结果表明将 vision encoder 与 fine-tuned text embedding model 对齐是可行的且不会降低 text performance 。敬请期待。原文https://jina.ai/news/jina-embeddings-v5-text-distilling-4b-quality-into-sub-1b-multilingual-embeddings/

更多文章