模型介绍

jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。

模型亮点

jina-embeddings-v2-base-code 是一个多语言嵌入模型,支持英语和 30 种常用编程语言,支持 8192 的序列长度。其骨干模型 jina-bert-v2-base-code 在 GitHub 代码数据集上进行预训练。该模型进一步在 Jina AI 收集的超过 1.5 亿对编码问题回答和文档字符串源代码对上进行训练。这些数据对来自各个领域,并经过严格的数据清理流程精心挑选。嵌入模型最初使用 512 序列长度进行训练,但借助 ALiBi 能力,可以扩展至 8000(甚至更长)的序列长度。这使得该模型在需要处理长文档的多种场景中非常有用,尤其是技术问答和代码搜索。该模型拥有 1.61 亿个参数,在实现快速且内存高效的推理的同时,依然具有出色的性能。

注意

此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。

许可协议

https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

免责声明

限于技术特性,平台在尽到合理努力的前提下,仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断,并承担因使用内容引起的所有风险。 我们提示您,除法律有明确规定外,平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见,不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果,并不代表平台立场。 由于机器学习特性,就相同的输入可能产生不同的输出结果,请您注意甄别。