0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

支持Python和Java的BigCode开源轻量级语言模型

OSC开源社区 来源:OSC开源社区 2023-01-17 14:29 次阅读

BigCode 是一个开放的科学合作组织,致力于开发大型语言模型。

近日他们开源了一个名为 SantaCoder 的语言模型,该模型拥有 11 亿个参数,可以用于 PythonJava 和 JavaScript 这几种编程语言的代码生成和补全建议。

根据官方提供的信息,训练 SantaCoder 的基础是 The Stack(v1.1)数据集,SantaCoder 虽然规模相对较小,只有 11 亿个参数,在参数的绝对数量上低于 InCoder(67 亿)或 CodeGen-multi(27 亿),但 SantaCoder 的表现则是要远好于这些大型多语言模型。

不过也正是参数远远不及 GPT-3 等参数超过千亿级别的超大型语言模型,SantaCoder 适用的编程语言范围也比较有限,仅支持 Python、Java 和 JavaScript 三种语言。

5f7b7c24-85ec-11ed-bfe3-dac502259ad0.png

为了照顾用户隐私和保证训练质量,在训练模型之前,BigCode 注释了 400 个样本,并建立和不断完善 RegEx 规则,以便在训练前从数据集的代码中删除诸如电子邮件地址、密钥和 IP 地址等敏感信息。

为了让开发者可以放心使用 SantaCoder 生成的代码,BigCode 推出了Dataset Search搜索工具。

通过这个工具,开发者可以找出代码的来源,以便在 SantaCoder 产生的代码属于某一个项目的情况下,用户能够遵守相应的许可要求。

此外,BigCode 还推出了「Am I in The Stack?」工具,开发者可以检查自己名下的仓库是否是训练数据集的一部分,可以将自己的开源仓库从数据集中删除。

BigCode 目前已经在 Huggingface 网站中提供了 SantaCoder 演示。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • JAVA语言
    +关注

    关注

    0

    文章

    138

    浏览量

    19943
  • javascript
    +关注

    关注

    0

    文章

    511

    浏览量

    53403
  • python
    +关注

    关注

    51

    文章

    4675

    浏览量

    83466
  • GPT
    GPT
    +关注

    关注

    0

    文章

    300

    浏览量

    14868

原文标题:BigCode开源轻量级语言模型,仅支持Python、JS和Java

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    轻量级Java表达式引擎aviator的基本使用

    aviator本来是一个轻量级、高性能的基于JVM的表达式引擎。不过从5.0.0版本开始,aviator升级成为了aviatorScript,成为一个高性能、轻量级寄宿于 JVM (包括 Android 平台)之上的脚本语言
    发表于 09-13 09:42 367次阅读

    专业python web编程工具

    开发者提供的Web应用开发框架,Grok 的重点是敏捷开发,是一个易用而且功能强大的开发框架,基于 Zope 3 技术。7. Web.pyWeb.py是一个轻量级开源Python Web框架,小巧
    发表于 06-12 16:23

    Python中调用Java扩展包HanLP测试记录

    `最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持
    发表于 12-12 16:27

    轻量级Agent平台怎么测试?

    跨平台的语言成功应用于嵌入式设备中,同时也方便了嵌入式环境下的轻量Agent(Lightweight Agent)的实现。本文在ARM嵌入式环境下测试轻量级Agent平台。
    发表于 09-27 06:26

    轻量级的ui框架如何去制作

    原创分享:自制轻量级单片机UI框架框架元素用户接口代码开源平时常看csdn,但是从来没有自己写过。正好这几天需要用单片机做一个简易的ui界面,于是自己写了一个轻量级的ui框架。发个csdn分享给大家
    发表于 07-14 07:39

    Dllite_micro (轻量级的 AI 推理框架)

    DLLite-Micro 是一个轻量级的 AI 推理框架,可以为 OpenHarmony OS 的轻量设备和小型设备提供深度模型的推理能力DLLite-Micro 向开发者提供清晰、易上手的北向接口
    发表于 08-05 11:40

    后端选择 java, 还是 python?

    限制。Java 语言在当今所有语言里面的排名是第一位。而且市面上关于 Java 的招聘岗位也非常多。但是这并不代表学习 Java 就一定好。
    发表于 09-26 14:07

    适用于Java的嵌入式脚本语言是什么

    /fakescript-java简介fakescript是一款轻量级的嵌入式脚本语言,使用Java语言编写,语法吸取自lua、golang、
    发表于 12-23 08:17

    开源轻量级显示框架LVGL简介

    时,大部分开发者都会第一时间想到LVGL,这同时又突出展现出了它的另一个特点易移植。同样是开源、精简、轻量级,RISC-V和LVGL在设计理念上简直不谋而合,他们或许就代表着未来十年科技发展的主流
    发表于 03-31 18:49

    Lite Actor:方舟Actor并发模型轻量级优化

    设备的不断增多,并发模型显得举足轻重,本期我们将为大家带来方舟编译器对传统Actor并发模型轻量级优化。 一、什么是并发模型?在操作系统中,并发是任务在不影响最终执行结果的情况下无序
    发表于 07-18 12:00

    最流行的编程语言javapython

    世界上最大的编程相关书籍出版商Packt Publishing进行的市场研究显示,JavaPython是当今最流行的编程语言Java流行程度位居第3。 该公司通过调查11000受访
    发表于 09-26 10:22 0次下载
    最流行的编程<b class='flag-5'>语言</b><b class='flag-5'>java</b>,<b class='flag-5'>python</b>

    TinyDB轻量级数据库有哪些特点呢

    TinyDB 是一个纯 Python 编写的轻量级数据库,一共只有1800行代码,没有外部依赖项。
    的头像 发表于 10-28 14:07 1038次阅读

    一个纯Python编写的轻量级数据库

    TinyDB 是一个纯 Python 编写的轻量级数据库,一共只有1800行代码,没有外部依赖项。
    的头像 发表于 02-24 10:32 539次阅读

    轻量级数据库有哪些

    数据库系统由于其小巧、快速、易用等优势,越来越受到人们的青睐。那么,轻量级数据库有哪些?本文将为大家介绍几种常见的轻量级数据库系统。 1. SQLite SQLite被广泛应用于各种移动应用程序、Web应用程序和嵌入式系统中。它是一种
    的头像 发表于 08-28 16:41 4285次阅读

    百度智能云推出全新轻量级模型

    在近日举办的百度智能云千帆产品发布会上,三款全新的轻量级模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了业界的广泛关注。相较于传统的千亿级别参数大模型,这些
    的头像 发表于 03-22 10:28 198次阅读