0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全球首款支持 8K(8192)输入长度的开源向量模型发布

深度学习自然语言处理 来源:深度学习自然语言处理 2023-11-02 14:53 次阅读

作为多模态人工智能技术领域的翘楚,Jina AI 的愿景是铺平通往多模态 AI 的未来之路。今天,Jina AI 在向着该愿景前进的路上,达成了一个重要里程碑。我们正式发布了自主研发的第二代文本向量模型:jina-embeddings-v2,是全球唯一能支持 8K(8192)输入长度的开源向量模型。

据 MTEB 排行榜显示,jina-embeddings-v2 与 OpenAI 的专有模型 text-embedding-ada-002 在性能方面不相上下。目前,仅 OpenAI 与 Jina AI 两家人工智能技术公司推出了 8k 长度的 Embedding 模型。

自该模型发布,迅速登上 HackerNews 榜首,并长时间霸榜,在全球范围内引发了业内人士的广泛讨论。

0c5df42a-779c-11ee-939d-92fbcf53809c.png

其中,“8K 长度”和“开源”这两点特别受到业界的瞩目,正如 HackerNews 上读者的评论所言,支持 8k 输入长度的 jina-embeddings-v2在表达能力和计算效率之间取得了可喜的平衡,而其中的关键,就在于它的独特优势 —— 用更小的维度来实现高效的表征

0c841628-779c-11ee-939d-92fbcf53809c.png

虽然 text-embedding-ada-002 已经广泛应用于各种不同场景,但其 1536 维度的输出对于数据量巨大和价格敏感的开发者来说并不友好。jina-embeddings-v2 通过提供 768(base)和 512(small)两种输出维度的选择,赋予了开发者更大的灵活性。这更意味着开发者可以实现更低的计算和存储成本,适用于更多的实际落地的场景。

0c9170e8-779c-11ee-939d-92fbcf53809c.png

在 Jina AI,我们坚信开源技术之于创新、合作与社区力量的催化作用,所以 我们第一时间将模型开源,期待和社区一起共同打造开源 AI 生态。

0c9c67be-779c-11ee-939d-92fbcf53809c.png

向量模型与 8k 输入长度

在传统的自然语言处理任务中,通常会将文本转化为一组数字进行表示,也就是向量。向量模型用于生成向量表示,被广泛应用于检索、分类、聚类或语义匹配等任务。

在大模型时代,向量模型的重要性进一步增强。尤其是在检索增强生成(RAG)场景中,它成为了一个核心组件,用于解决大模型的上下文长度限制、幻觉问题和知识注入问题。因为大模型通常有上下文长度的限制,我们需要一个有效的方法来压缩、存储和查询大量的信息。这就是向量模型的用武之地。在 RAG 系统中,文档首先被转化为向量。随后,大模型可以快速地查询这些向量,找到与当前上下文相关的文档,再基于这些文档生成回复。

然而,目前的大部分开源向量模型都是仅支持最大 512 长度(大约 500 个汉字)的输入长度,这使得开发者无法表征长文本的语义。jina-embeddings-v2 支持最大 8k 长度的输入,突破了长文本向量表示的瓶颈,让开发者可以更自由的对文本信息进行不同语义颗粒度的完整表示,从而更精准的表示文本语义。这不仅可以帮助开发者提高 RAG 场景下大模型回复的准确性,而且适用于各种处理长文本的场景,例如处理数十页的报告综述、长篇故事推荐等。

与 text-embedding-ada-002 模型对比测试

与 OpenAI 的 text-embedding-ada-002 相比,jina-embeddings-v2 展现出不俗的实力。下表为两模型的性能对比。

0ca9aa5a-779c-11ee-939d-92fbcf53809c.png

值得注意的是,jina-embeddings-v2 在文本分类任务、检索任务、检索重排任务、和文本摘要任务上的得分都超过了 text-embedding-ada-002

拥抱开源

OpenAI 已经为我们展示了 8K 上下文长度模型的潜力,但 jina-embeddings-v2 不仅与其齐头并进,还做出了更大胆的决策:完全开源!这意味着任何人都可以使用、修改和进一步优化这款模型。

不仅如此,当我们与 OpenAI 的模型进行直接比较时,jina-embeddings-v2 在多个关键指标上展现出了优越的性能。考虑到 jina-embeddings-v2 是开源的,我们坚信通过社区的集体智慧和努力,我们将有机会超越目前的标杆。

正是因为我们坚信开放和共享的价值,我们希望与全球的研究者、工程师和 AI 爱好者共同努力,不断完善和推进这款模型。我们也在计划中继续拓展功能,例如提供更多语言的支持,以及开发更为强大的 API 平台。

特点和优势

全新的向量模型发布,再次证明了我们在技术创新上面的决心,jina-embeddings-v2 并非对前代模型的简单修订,而是经过了深入研发和优化后的全新设计,我们团队付出了很多努力,从数据收集、处理再到模型调优,使得 v2 模型在性能表现上有了质的飞跃。

此外,jina-embeddings-v2 支持 8K 输入长度,与其他领先的向量模型相比,在长文本任务中展现出了明显的优势,突显了其扩展上下文长度的实际价值。这一特点也为很多实际应用提供了更多可能性,比如法律文件解读、医学文献研究、深入的文学分析、金融数据洞察和聊天机器人的应答优化等等。

对于想要使用 jina-embeddings-v2 的开发者和研究者,我们在 Huggingface 平台上提供了两种规模的模型,以适应不同场景和需求:

jina-embeddings-v2-base-en

大小:0.27G(fp16),0.54G(fp32)

参数数量:1.37 亿

适用场景:适合处理需要高精度的大型任务

jina-embeddings-v2-small-en

大小:0.07G

参数数量:0.33 亿

适用场景:特别为轻量级的应用场景设计,如移动端应用或那些计算能力有限的设备上的任务

回顾本次发布历程,Jina AI 创始人兼 CEO 肖涵博士说:

“在 AI 技术快速发展的今天,始终保持前沿并向公众开放最新研究成果是我们的核心追求。有了 jina-embeddings-v2,我们达成了一个重要的里程碑。我们不仅开发了全球首款开源 8K 上下文长度的模型,而且其性能能够与 OpenAI 这样的行业巨头相匹敌。Jina AI 的目标很明确:我们希望推动 AI 民主化,让更多的人能够使用且受益,而不只是那些拥有大量资源的大公司。今天,我可以很自豪地说,我们朝着这一愿景迈出了坚实的一步。”

展望未来

Jina AI 深信开源的魔力,并致力于为 AI 社区构建前沿且易于接入的工具。接下来,我们还会推动以下几项重要工作:

分享学术成果:为了让社区更好地了解 jina-embeddings-v2 的性能和特点,团队将很快发布一篇详细的学术文章,深入介绍模型的技术细节,以及和其他模型的比较分析。

API 平台:我们正在努力构建一个 Embedding API 平台,其功能和 OpenAI 类似,帮助用户能够根据自己的需求,更轻松地使用我们的向量模型。

多语言支持:Jina AI 正着手引入多语种,下一步计划推出德文/英文以及中文/英文双语模型,并进一步增强我们模型的能力。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • API
    API
    +关注

    关注

    2

    文章

    1383

    浏览量

    60994
  • 聊天机器人
    +关注

    关注

    0

    文章

    278

    浏览量

    12103
  • 自然语言处理

    关注

    1

    文章

    509

    浏览量

    13103
  • OpenAI
    +关注

    关注

    8

    文章

    761

    浏览量

    5917

原文标题:Jina AI 推出全球首款开源 8K 向量模型,比肩 OpenAI

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    小派8K头显Kickstarter众筹5天超100万美元

    是美国、英国、日本、德国、加拿大、澳大利亚、法国、西班牙、瑞典以及荷兰。其中美国一共有超过455名支持者,英国有超过141名支持者,日本有97名支持者。小派8K头显在2017年1月
    发表于 09-25 13:10

    独家专访小派CEO翁志彬:8K头显才是VR硬件的开始

    做了哪些准备?预想中的众筹效果是怎样的?  翁志彬:小派8K登陆Kickstarter是我们年初既定的产品发布计划之一,我们将首发放在了Kickstarter全球众筹,是希望让全球的极
    发表于 09-29 13:52

    Oculus创始人体验小派8K 他如何评价中国VR?

    、庞大的视场角、定位系统的精准度都表达了十足的肯定,并说到:“小派8K超出了我的预期”。这位亿级身价的年轻人,似乎也一直在期待着一能够超越Oculus的VR设备。我们很高兴看到一中国智造的VR头显
    发表于 09-30 15:53

    阿里云全球首次互联网8K直播背后的技术解读

    摘要: 3月28日,云栖大会·深圳峰会现场,阿里云发布并现场演示了阿里视频云最新8K互联网直播解决方案。这是全球发布的首个8K视频云解决方案
    发表于 04-08 10:55

    阿里云朱照远:AI打开新视界 8K时代已来!

    8K的演示时,他非常震撼。从呼吁拥抱4K到拥抱8K才短短一年,他感受十分深刻。全球首次基于互联网的8K直播在3月28日云栖大会深圳的峰会上
    发表于 04-12 14:49

    全球100%开源穿戴套件

    全球100%开源(智能手环/表)穿戴开发套件一、资料下载与联系方式1.开发板功能演示视频教程之--开发环境搭建:pan.baidu.com/s/1jGgSXuQ 视频教程之--整板
    发表于 07-30 23:10

    8K投影离我们有多远?

    在今年的InfoComm展会上将会有全新的8K激光投影机亮相,这款产品采用固态激光光源,亮度达到20000流明以上。其实这不是8K投影的秀,早在去年末8K投影就已经走入了大众的视野。
    发表于 08-04 06:08

    全球采用Phase 6解决方案的M2M/IoT模组发布

    Qorvo与上海移远通信推出全球采用Phase 6解决方案的M2M/IoT模组
    发表于 03-11 07:14

    介绍支持向量机与决策树集成等模型的应用

    本文主要介绍支持向量机、k近邻、朴素贝叶斯分类 、决策树、决策树集成等模型的应用。讲解了支持向量
    发表于 09-01 06:57

    8K,6T,Soc芯片RK3588、RK3588S开发资料

    高端应用提供了极致的性能,同时提供了丰富的功能接口,可满足不同行业的产品定制需求。RK3588也是8K时代的通用型SoC,支持8K@60
    发表于 03-10 15:15

    全球鸿蒙 HarmonyOS 智能门锁哪些新特性呢?

    华为举行 2022 华为全屋智能及全场景新品春季发布会,余承东带来了华为智能门锁 Pro 新品。这是全球鸿蒙 HarmonyOS 智能门锁。这款新产品有哪些新特性呢?
    发表于 03-18 11:42

    RK3588芯片支持8K视频的硬编解码

    了RK3588芯片的性能输出。RK3588在视频编解码方面也十分突出,支持8K视频的硬编硬解,非常适合VR(虚拟现实)、AR(增强现实)、MR(混合现实)和XR(拓展现实)类的产品,可满足高端娱乐
    发表于 07-28 15:59

    嘉楠科技旗下全球RIS-V架构商用边缘AI芯片,华秋商城现货在售中

    )成立于2013年,是一家以ASIC高性能计算芯片设计为核心,集芯片研发、计算设备生产和软件服务的科技公司。作为国内较早采用开源指令集架构研发芯片的企业,嘉楠科技在2018年发布全球
    发表于 11-18 15:04

    全球RISC-V平板电脑——PineTab-V正式发布

    4月13日, 全球RISC-V平板电脑——PineTab-V正式开启预售 。PineTab-V由全球领先的开源硬件厂商Pine64设计推
    发表于 04-14 13:56

    使用M480 HS- USBD模拟8K报告率的气体放电鼠标支持远程唤醒

    应用程序: 此示例代码使用 M480 HS- USBD 模拟8K 报告率的气体放电鼠标, 支持远程唤醒 。 BSP 版本: M480系列 BSP CMSIS v3.03.000 硬件
    发表于 08-29 06:35