无问芯穹文档

模型介绍

jina-embeddings-v2 系列是 JINA AI 自主研发的第二代 Embedding 系列模型。

模型亮点

jina-embeddings-v2-base-code 是一个多语言嵌入模型，支持英语和 30 种常用编程语言，支持 8192 的序列长度。其骨干模型 jina-bert-v2-base-code 在 GitHub 代码数据集上进行预训练。该模型进一步在 Jina AI 收集的超过 1.5 亿对编码问题回答和文档字符串源代码对上进行训练。这些数据对来自各个领域，并经过严格的数据清理流程精心挑选。嵌入模型最初使用 512 序列长度进行训练，但借助 ALiBi 能力，可以扩展至 8000（甚至更长）的序列长度。这使得该模型在需要处理长文档的多种场景中非常有用，尤其是技术问答和代码搜索。该模型拥有 1.61 亿个参数，在实现快速且内存高效的推理的同时，依然具有出色的性能。

注意

此模型的使用受 Apache 2.0 许可协议的约束。请在下方查看相关的协议内容。

许可协议

https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

免责声明

限于技术特性，平台在尽到合理努力的前提下，仍无法完全保证您通过本服务获得的输出的合法性、真实性、准确性以及完整性。您应对本服务中的输出自行加以判断，并承担因使用内容引起的所有风险。我们提示您，除法律有明确规定外，平台无法也不会对前述风险而导致的任何损失或损害承担责任。本服务下的输出不代表专业意见，不能代替如法律、医疗、金融等专业领域从业人员向您解答对应疑问。相关观点也仅限于算法所触达有限数据呈现的供您参考的结果，并不代表平台立场。由于机器学习特性，就相同的输入可能产生不同的输出结果，请您注意甄别。