BigCode 是一个开放的科学合作组织,致力于开发大型语言模型。
近日他们开源了一个名为 SantaCoder 的语言模型,该模型拥有 11 亿个参数,可以用于 Python、Java 和 JavaScript 这几种编程语言的代码生成和补全建议。
根据官方提供的信息,训练 SantaCoder 的基础是 The Stack(v1.1)数据集,SantaCoder 虽然规模相对较小,只有 11 亿个参数,在参数的绝对数量上低于 InCoder(67 亿)或 CodeGen-multi(27 亿),但 SantaCoder 的表现则是要远好于这些大型多语言模型。
不过也正是参数远远不及 GPT-3 等参数超过千亿级别的超大型语言模型,SantaCoder 适用的编程语言范围也比较有限,仅支持 Python、Java 和 JavaScript 三种语言。
为了照顾用户隐私和保证训练质量,在训练模型之前,BigCode 注释了 400 个样本,并建立和不断完善 RegEx 规则,以便在训练前从数据集的代码中删除诸如电子邮件地址、密钥和 IP 地址等敏感信息。
为了让开发者可以放心使用 SantaCoder 生成的代码,BigCode 推出了Dataset Search搜索工具。
通过这个工具,开发者可以找出代码的来源,以便在 SantaCoder 产生的代码属于某一个项目的情况下,用户能够遵守相应的许可要求。
此外,BigCode 还推出了「Am I in The Stack?」工具,开发者可以检查自己名下的仓库是否是训练数据集的一部分,可以将自己的开源仓库从数据集中删除。
BigCode 目前已经在 Huggingface 网站中提供了 SantaCoder 演示。
审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
JAVA语言
-
javascript
-
python
-
GPT
原文标题:BigCode开源轻量级语言模型,仅支持Python、JS和Java
文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。
相关推荐
aviator本来是一个轻量级、高性能的基于JVM的表达式引擎。不过从5.0.0版本开始,aviator升级成为了aviatorScript,成为一个高性能、轻量级寄宿于 JVM (包括 Android 平台)之上的脚本语言。
发表于 09-13 09:42
•367次阅读
开发者提供的Web应用开发框架,Grok 的重点是敏捷开发,是一个易用而且功能强大的开发框架,基于 Zope 3 技术。7. Web.pyWeb.py是一个轻量级的开源Python Web框架,小巧
发表于 06-12 16:23
`最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持
发表于 12-12 16:27
跨平台的语言成功应用于嵌入式设备中,同时也方便了嵌入式环境下的轻量Agent(Lightweight Agent)的实现。本文在ARM嵌入式环境下测试轻量级Agent平台。
发表于 09-27 06:26
原创分享:自制轻量级单片机UI框架框架元素用户接口代码开源平时常看csdn,但是从来没有自己写过。正好这几天需要用单片机做一个简易的ui界面,于是自己写了一个轻量级的ui框架。发个csdn分享给大家
发表于 07-14 07:39
DLLite-Micro 是一个轻量级的 AI 推理框架,可以为 OpenHarmony OS 的轻量设备和小型设备提供深度模型的推理能力DLLite-Micro 向开发者提供清晰、易上手的北向接口
发表于 08-05 11:40
限制。Java 语言在当今所有语言里面的排名是第一位。而且市面上关于 Java 的招聘岗位也非常多。但是这并不代表学习 Java 就一定好。
发表于 09-26 14:07
/fakescript-java简介fakescript是一款轻量级的嵌入式脚本语言,使用Java语言编写,语法吸取自lua、golang、
发表于 12-23 08:17
时,大部分开发者都会第一时间想到LVGL,这同时又突出展现出了它的另一个特点易移植。同样是开源、精简、轻量级,RISC-V和LVGL在设计理念上简直不谋而合,他们或许就代表着未来十年科技发展的主流
发表于 03-31 18:49
设备的不断增多,并发模型显得举足轻重,本期我们将为大家带来方舟编译器对传统Actor并发模型的轻量级优化。
一、什么是并发模型?在操作系统中,并发是任务在不影响最终执行结果的情况下无序
发表于 07-18 12:00
世界上最大的编程相关书籍出版商Packt Publishing进行的市场研究显示,Java和Python是当今最流行的编程语言,Java流行程度位居第3。 该公司通过调查11000受访
发表于 09-26 10:22
•0次下载
TinyDB 是一个纯 Python 编写的轻量级数据库,一共只有1800行代码,没有外部依赖项。
发表于 10-28 14:07
•1038次阅读
TinyDB 是一个纯 Python 编写的轻量级数据库,一共只有1800行代码,没有外部依赖项。
发表于 02-24 10:32
•539次阅读
数据库系统由于其小巧、快速、易用等优势,越来越受到人们的青睐。那么,轻量级数据库有哪些?本文将为大家介绍几种常见的轻量级数据库系统。 1. SQLite SQLite被广泛应用于各种移动应用程序、Web应用程序和嵌入式系统中。它是一种开
发表于 08-28 16:41
•4285次阅读
在近日举办的百度智能云千帆产品发布会上,三款全新的轻量级大模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了业界的广泛关注。相较于传统的千亿级别参数大模型,这些
发表于 03-22 10:28
•198次阅读
评论