jina-embeddings-v5-text：新的最先进水平小型多语言 embeddings

张开发

• 2026/4/10 23:59:06 • 15 分钟阅读

分享文章

jina-embeddings-v5-text：新的最先进水平小型多语言 embeddings

作者来自 Elastic JINA两个参数量低于 1B 的多语言 embeddings在性能上达到业界最佳水平可在 Elastic Inference Service、Llama.cpp 和 MLX 上使用。我们发布了 jina-embeddings-v5-text这是我们 embedding 模型家族的第五代在 sub-1B 多语言 embeddings 的质量与效率边界上进一步推进jina-embeddings-v5-text-small677M参数MMTEB67.0MTEB English71.7jina-embeddings-v5-text-nano239M参数MMTEB65.5MTEB English71.0small 模型支持 32K token 上下文nano 为 8K支持 4 个任务专用 LoRA adaptersretrieval、text-matching、classification、clustering以及 Matryoshka 维度截断能力从 1024 到 32。在 239M 参数规模下nano 模型在检索质量上可匹配参数量是其两倍的模型。与上一代相比v5-text-small 在检索任务上可匹配 jina-embeddings-v43.8B但体积小 5.6 倍同时在参数量相近的情况下全面优于 jina-embeddings-v3572M。特性v5-text-smallv5-text-nano基础模型Qwen3-0.6B-BaseEuroBERT-210m参数量677M239MEmbedding 维度1024768上下文长度32,7688,192语言支持119Qwen3 tokenizer15EuroBERT tokenizerPoolinglast-tokenlast-tokenLoRA adapters4retrieval、text-matching、classification、clustering4retrieval、text-matching、classification、clusteringMatryoshka 维度32–102432–768MMTEB 分数67.065.5MTEB English 分数71.771.0许可证CC BY-NC 4.0CC BY-NC 4.0v5-text-small 在五个检索基准MTEB Multilingual、MTEB English、RTEB、BEIR 和 LongEmbed上取得了 sub-4B 模型中的最高任务级平均分63.28与 jina-embeddings-v43.8B63.62相当但模型体积小 5.6 倍。根据 2026/02/21 的 MTEB 排行榜jina-embeddings-v5-small0.6B 参数排名 #8是 MTEB Multilingual v2 中 1B 参数以下最强的 embedding 模型在所有指标上均优于 Qwen3-Embedding-0.6b。jina-embeddings-v5-nano0.2B 参数排名 #11在极小参数规模下取得了 top-11 的表现以极低的模型体量达到这一水平在同参数级别中没有其他模型能够接近这一性能。架构v5-text 使用 decoder-only 架构作为 backbone并采用 last-token pooling 代替 mean pooling。在模型结构中每一层 Transformer 都注入了四个轻量级 LoRA adapters分别用于 retrieval、text-matching、classification 和 clustering这些 adapter 在功能上彼此独立用户可以在推理阶段按需选择。在检索任务中query 会添加 “Query:” 前缀document 会添加 “Document:” 前缀以增强语义区分能力。上下文长度方面v5-text-small 支持 32K tokensv5-text-nano 为 8K相比 v3 提升 4 倍。入门Elastic Inference Service使用 v5-text 的最快方式是通过 Elastic Inference ServiceEIS上线生产环境。EIS 提供托管式 embedding 推理能力并具备内置扩缩容能力使你可以在 Elastic 部署中直接生成 embeddings而无需自行管理基础设施。PUT _inference/text_embedding/jina-v5 { service: elastic, service_settings: { model_id: jina-embeddings-v5-text-small } }请查看 EIS 文档以获取具体配置说明。Jina Embedding API我们提供托管的 Embedding API采用按 token 计费pay-per-token的模式。该 API 支持开箱即用的任务选择task selection、维度裁剪dimension truncation以及批量处理batch processing无需 GPU 即可使用。curl https://api.jina.ai/v1/embeddings \ -H Content-Type: application/json \ -H Authorization: Bearer YOUR_API_KEY \ -d { model: jina-embeddings-v5-text-small, task: retrieval.query, dimensions: 1024, input: [What is knowledge distillation?] }在 jina.ai/embeddings 获取 API key。Hugging Face sentence-transformers支持在本地运行并对推理过程拥有完全控制权。模型权重已发布在 Hugging Face并可与 sentence-transformers 直接集成使用实现开箱即用的 embedding 推理能力。from sentence_transformers import SentenceTransformer import torch model SentenceTransformer( jinaai/jina-embeddings-v5-text-small-retrieval, model_kwargs{dtype: torch.bfloat16}, ) query_emb model.encode(What is knowledge distillation?, prompt_namequery) doc_embs model.encode([Knowledge distillation transfers..., Venus is...], prompt_namedocument) similarity model.similarity(query_emb, doc_embs)vLLM面向生产级工作负载的高吞吐量推理服务框架。vLLM 原生支持 v5-text并采用 last-token pooling 机制以实现高效的 embedding 生成与服务化部署。from vllm import LLM from vllm.config.pooler import PoolerConfig model LLM( modeljinaai/jina-embeddings-v5-text-small-retrieval, dtypefloat16, runnerpooling, pooler_configPoolerConfig(seq_pooling_typeLAST, normalizeTrue), ) outputs model.encode([Query: climate change impacts], pooling_taskembed)为了在本地实现优化推理通过 llama.cpp 和 MLX每个任务的 LoRA 权重都会与基础模型进行合并从而生成独立的权重文件。这也是为什么你会看到按任务划分的多个独立仓库retrieval、text-matching、classification、clustering——每个仓库都包含已经完成合并的完整权重可直接加载使用在推理时无需 LoRA 额外开销。llama.cppGGUF支持在 CPU 或边缘设备上运行量化模型。我们为每个模型提供 14 种 GGUF 量化版本从 F16 到 IQ1_S 不等以覆盖不同的性能与资源需求场景。llama-server -hf jinaai/jina-embeddings-v5-text-small-retrieval-GGUF:Q4_K_M \ --embedding --pooling last -ub 32768MLX通过 MLX 实现原生 Apple Silicon 推理。所有任务 adapter 均提供全精度full precision、4-bit 和 8-bit 量化版本以适配不同的性能与资源需求场景。import mlx.core as mx from tokenizers import Tokenizer from model import JinaEmbeddingModel import json with open(config.json) as f: config json.load(f) model JinaEmbeddingModel(config) weights mx.load(model-4bit.safetensors) # or model.safetensors, model-8bit.safetensors model.load_weights(list(weights.items())) tokenizer Tokenizer.from_file(tokenizer.json) texts [Query: What is machine learning?] embeddings model.encode(texts, tokenizer)从 Hugging Face 下载 jinaai/jina-embeddings-v5-text-small-retrieval-mlx 也提供 text-matching 、 classification 和 clustering adapters 。训练两个模型都是从 Qwen3-Embedding-4B 蒸馏得到的这是一个更大的已训练 embedding 模型。小型版本使用 Qwen3-0.6B-Base 作为其 backbone 而 nano 使用 EuroBERT-210m 。我们的 training 结合了两种互补信号来自 4B teacher 的embedding distillation通过 cosine similarity loss 。 student 学习近似 teacher 的 embedding space 无需 instruction-style prompts 。这对于 labeled data 稀缺的语言和任务尤其有效。基于Task-specific contrastive loss InfoNCE 在 labeled query-document pairs 上结合 hard negative mining 和 in-batch negatives 。在冻结 distilled backbone 之后我们为每个 task category 训练独立的 LoRA adapters 。我们的 ablation studies 表明这种组合方法始终优于单一方法。在 MTEB English retrieval 上该组合方法在同一 backbone 上取得60.1nDCG10 相比 distillation-only 的 58.6 和 contrastive-only 的 54.3 。我们还在 training 中应用GOR Generalized Orthogonal Regularization 它鼓励 embedding components 更均匀分布。这不会显著提升 standard benchmark scores 但它使 binary quantization 几乎 lossless 这是 memory-constrained deployment 的关键特性。一些来自 training 的观察值得注意distillation 和 contrastive learning 在我们最初没有预料到的方式上是互补的。从 loss mixture 中移除任何单一组件都会导致 performance 全面下降。Task-specific LoRA adapters 在几乎可忽略的 parameter overhead 下优于 multi-task training 。GOR regularization 使 binary quantization 几乎 lossless 这对 deployment 比微小的 full-precision gains 更重要。结论Embedding models 越来越多地作为 tool-chain components 被用于更大的系统中。LLM agents 在 agentic workflows 中调用 embedding APIs 用于 retrieval 、 memory 和 classification 。像 OpenClaw 和 OpenViking 这样的项目将 embeddings 视为 agent context management 的 core infrastructure layer 而不是 standalone search endpoints 。在这种 regime 下inference cost 和 latency per call 与 benchmark scores 同样重要而 compact models 成为自然选择。向更小 embedding models 的趋势反映了更广泛的转变。on-device retrieval 、 browser-based search 和 edge deployment 都要求模型适配 constrained memory budgets 。Matryoshka dimension support 使单一模型能够同时支持 high-precision 和 ultra-fast approximate search 而无需 retraining 。结合 GGUF quantization 降至 1-2 bits production embedding service 的有效 memory footprint 降低一个数量级。我们正在开发 jina-embeddings-v5-multimodal 将相同 architecture 扩展到 vision 和 cross-modal retrieval 。早期结果表明将 vision encoder 与 fine-tuned text embedding model 对齐是可行的且不会降低 text performance 。敬请期待。原文https://jina.ai/news/jina-embeddings-v5-text-distilling-4b-quality-into-sub-1b-multilingual-embeddings/

更多文章

前端开发 2026/4/10 23:57:17

品牌伞的“张力”极限：一个品牌最多能覆盖多少个不同品类

品牌伞策略涉及一个品牌在多个品类中的布局，其重要性体现在推动企业发展和提升市场竞争力。通过这一策略，企业可以利用现有的品牌影响力，探索新的市场机会。例如，某知名科技公司初始集中于电子产品，后期成功扩展至家居…

低成本监控方案：OpenClaw千问3.5-35B-A3B-FP8实现服务器日志智能分析 1. 为什么选择OpenClaw做日志监控？ 三周前我的个人博客突然遭遇流量异常，但直到用户投诉才发现问题。传统ELK方案对个人项目就像用导弹打蚊子——不仅需要额外服务器部署…

张开发

前端开发 2026/4/10 23:27:56

一百六十六、Kettle——海豚调度器高效管理Linux资源库中的ETL任务（实战详解）

1. 为什么需要海豚调度器管理Kettle任务？ 做过数据处理的同学都知道，ETL（数据抽取、转换、加载）是数据仓库建设的核心环节。而Kettle作为老牌ETL工具，在企业中应用非常广泛。但在实际生产环境中，我们经常会…

张开发

jina-embeddings-v5-text：新的最先进水平小型多语言 embeddings

最新文章

Linux网络编程核心API速查手册湃

【独家首发】华为云+蚂蚁集团联合复盘：AI原生项目失败率下降67%的关键决策树（含可落地Checklist）

从0到1打造完美PRD：这10个细节让你的需求文档更专业

行业观察 | AI龙虾混战，为何销售易能率先“接入“腾讯生态？

代驾软件可以自己改界面吗？

R 4.5中DESeq2用于微生物组？：权威验证——3篇Nature Microbiology复现实验揭示其在低丰度菌群中的FDR失控风险

推荐文章

AVR长周期看门狗库：突破8秒限制实现毫秒级精准复位与睡眠唤醒

并发控制原理与实现：从进程线程到现代并发编程

HunyuanVideo-Foley开源大模型实战：基于Transformers/Accelerate推理优化

小步快跑・像CPU一样调度大脑高并发——东方仙盟・阿雪心学

STM8 Bootloader开发与固件远程升级实践

（复现）基于自适应滑模控制（ASMC）和神经网络容错控制的主从式无人机编队控制研究（Matlab代码实现）

相关文章

深入解析ZeroMQ inproc：线程间通信的高效实现与性能优势

BewlyBewly终极指南：打造高效个性化的B站浏览体验

IDM激活脚本架构设计：基于注册表锁定机制的99%成功率激活方案

Sulpho-Methyltetrazine-NHS ester，磺化甲基四嗪-琥珀酰亚胺酯的结构特点与功能

3步精通Zotero OCR：从安装到高效文本识别

OpCore-Simplify：驯服硬件兼容性的自动化引擎

分享文章

更多文章

品牌伞的“张力”极限：一个品牌最多能覆盖多少个不同品类

技术债清零行动启动！5步完成Spring Boot单体→AI微服务架构迁移，含自动化评估工具链

ansible 由于不同主机 python 版本不同执行报错

响应式公司网站设计制作：适配手机、平板的关键技巧

从产品经理视角设计AI Agent：需求定义、场景闭环与价值衡量

PyCharm 2023最新汉化指南：一键切换中文开发环境

我不是狐狸,我是那Harness Engineering律

智能体：AI未来的核心驱动力

手搓STM32H743开源飞控系列教程---(番外) 知识库实战：AI问答如何助力飞控开发效率翻倍

PaddleMIX革新扩散模型推理：FLUX-Lightning与CINN编译器双剑合璧实现4步极速图像生成

低成本监控方案：OpenClaw+千问3.5-35B-A3B-FP8实现服务器日志智能分析

一百六十六、Kettle——海豚调度器高效管理Linux资源库中的ETL任务（实战详解）