电子发烧友网报道(文/李弯弯)最近爆火的ChatGPT有多强大,想必大家都已经知晓,它几乎可以生成任何形式的文本,从莎士比亚的十四行诗,到用5岁孩子都能理解的语言描述,以及复杂数学问题,也因此月活跃用户在短短上线两个月就达到1亿。
而强大的ChatGPT背后,离不开一项重要的工作,那就是数据标注。据美媒报道,为了训练ChatGPT,OpenAI的合作伙伴Sama雇佣了肯尼亚、乌干达和印度的外包员工,对庞大的数据库手动进行数据标注。
什么是数据标注
事实上,人工智能是一种可以根据人类需求做出合理行为的计算机程序,要想实现人工智能,就需要把人类的理解能力和判断能力教给计算机,让计算机拥有类似人类的识别能力。在这一过程中,需要计算机模仿人类进行经验学习。
而数据标注就是把需要计算机进行机器学习的的图片、视频等初级数据打上标签,让计算机不断的识别这些初级数据的特征,最终可以让计算机能够自主的识别。
这里涉及到几个概念:1、数据标注,简单来说,就是对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签,来满足机器训练学习的需求。2、标签,就是对需要机器学习的数据进行标识特征、类别和属性等,用于建立数据和机器训练学习的可读数据编码间的联系。3、数据标注员,就是负责对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签的工作人员。
计算机特征数据主要分为图像数据、语音数据、文本数据等。在自然语言处理的需求中,文本数据标注是关键环节,数据标注员需要通过对语句分词的标注、语义判断的标注、情感标注、多音字标注等,为人工智能机器学习提供高准确率的文本语料。
数据标注的流程,首先是从数据采集开始,由于新采集的数据是非结构化的,有些数据不完整,还有不一致、有杂音噪声的数据,需要通过数据清洗,对采集的数据进行筛选、去重、查缺补漏、平滑噪音等操作,将数据清理成适合标注的格式。
接着,数据经过清洗后,就可以进入数据标注的核心环节。在现实的标注工作中,数据管理员会将数据根据不同的需求,将待标注的数据分为不同的数据包任务,每一个数据任务都会有不同的规范和标注形式要求,然后将标注任务分配给多个标注员进行标注工作。
最后,为了提高数据输出的正确率,标注员完成标注工作后,需要质检师对数据进行检验,最终通过质检环节的数据才是可用于训练学习的数据。
庞大的数据标注工作,和低水平的报酬
从ChatGPT来看,虽然对于ChatGPT最后的强大能力来说,数据标注是重要的一环,然而这却是一项工作量及其庞大,报酬却并不高的工作。
虽然ChatGPT的前身GPT-3已经展示出非常强大的语句串联的能力。然而,当时的GPT-3却存在很多弊端,例如内容容易出现暴力、性别歧视等言论。之所以会出现这样的不足之处,是因为AI工具从互联网抓取了数千亿个单词来训练。由于互联网的词汇有不少带有偏见及负面的词汇,因此单纯凭借学习能力无法来清除这些训练数据。
为了获得这些有害内容的标签,OpenAI从2021年11月开始便向一家外包公司发送了数万条文本片段。这家公司便是Sama,Sama总部位于美国旧金山,该公司雇佣了肯尼亚、乌干达和印度的外包员工。大约30多名工作人员被分成三个小组,每个小组都专注于一个主题。据该公司的三名员工表示,他们每9个小时要阅读和标注150~200段文字,这些段落的范围从100个单词到1000多个单词不等。
薪酬方面,Sama为OpenAI雇佣的数据标签员工支付的时薪在1.32美元~2美元之间(约8.99元~13.62元),具体取决于资历和表现。据Sama员工透露,“代理商”是三个小组中最初级的数据标签人员,他们的基本工资为每月2.1万肯尼亚先令(约170美元或者约1158元)。此外,他们每月还能获得约70美元的奖金,如果达到准确性和速度等关键绩效指标,他们还可以获得佣金。
按此计算,一名每天工作9小时的员工预计税后时薪至少能拿1.32美元,如果超额完成所有目标,则最高可达到1.44美元。质量分析师是资历更深的数据标签员工,他们的工作是检查“代理商”的工作,如果他们达到了所有绩效目标,时薪可以拿到2美元。
OpenAI发言人曾在一份声明中证实,Sama在肯尼亚的员工为该公司正在开发的监测有害内容的工具作出了贡献,该工具最终被内置到ChatGPT中。
小结
随着ChatGPT的爆火,人工智能走进了更多人的视野。然而从目前的情况来看,人们印象中的人工智能仍然是很高端的事物,只有科技、互联网巨头企业及专业人士才能涉足的领域。然而人工智能产业链涉及面广泛,其中就包括数据标注。可以看到,人工智能的存在和实现,不仅仅是解放人们的双手,同时从这个层面来看,它对劳动力的需求也是庞大的。
而强大的ChatGPT背后,离不开一项重要的工作,那就是数据标注。据美媒报道,为了训练ChatGPT,OpenAI的合作伙伴Sama雇佣了肯尼亚、乌干达和印度的外包员工,对庞大的数据库手动进行数据标注。
什么是数据标注
事实上,人工智能是一种可以根据人类需求做出合理行为的计算机程序,要想实现人工智能,就需要把人类的理解能力和判断能力教给计算机,让计算机拥有类似人类的识别能力。在这一过程中,需要计算机模仿人类进行经验学习。
而数据标注就是把需要计算机进行机器学习的的图片、视频等初级数据打上标签,让计算机不断的识别这些初级数据的特征,最终可以让计算机能够自主的识别。
这里涉及到几个概念:1、数据标注,简单来说,就是对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签,来满足机器训练学习的需求。2、标签,就是对需要机器学习的数据进行标识特征、类别和属性等,用于建立数据和机器训练学习的可读数据编码间的联系。3、数据标注员,就是负责对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签的工作人员。
计算机特征数据主要分为图像数据、语音数据、文本数据等。在自然语言处理的需求中,文本数据标注是关键环节,数据标注员需要通过对语句分词的标注、语义判断的标注、情感标注、多音字标注等,为人工智能机器学习提供高准确率的文本语料。
数据标注的流程,首先是从数据采集开始,由于新采集的数据是非结构化的,有些数据不完整,还有不一致、有杂音噪声的数据,需要通过数据清洗,对采集的数据进行筛选、去重、查缺补漏、平滑噪音等操作,将数据清理成适合标注的格式。
接着,数据经过清洗后,就可以进入数据标注的核心环节。在现实的标注工作中,数据管理员会将数据根据不同的需求,将待标注的数据分为不同的数据包任务,每一个数据任务都会有不同的规范和标注形式要求,然后将标注任务分配给多个标注员进行标注工作。
最后,为了提高数据输出的正确率,标注员完成标注工作后,需要质检师对数据进行检验,最终通过质检环节的数据才是可用于训练学习的数据。
庞大的数据标注工作,和低水平的报酬
从ChatGPT来看,虽然对于ChatGPT最后的强大能力来说,数据标注是重要的一环,然而这却是一项工作量及其庞大,报酬却并不高的工作。
虽然ChatGPT的前身GPT-3已经展示出非常强大的语句串联的能力。然而,当时的GPT-3却存在很多弊端,例如内容容易出现暴力、性别歧视等言论。之所以会出现这样的不足之处,是因为AI工具从互联网抓取了数千亿个单词来训练。由于互联网的词汇有不少带有偏见及负面的词汇,因此单纯凭借学习能力无法来清除这些训练数据。
为了获得这些有害内容的标签,OpenAI从2021年11月开始便向一家外包公司发送了数万条文本片段。这家公司便是Sama,Sama总部位于美国旧金山,该公司雇佣了肯尼亚、乌干达和印度的外包员工。大约30多名工作人员被分成三个小组,每个小组都专注于一个主题。据该公司的三名员工表示,他们每9个小时要阅读和标注150~200段文字,这些段落的范围从100个单词到1000多个单词不等。
薪酬方面,Sama为OpenAI雇佣的数据标签员工支付的时薪在1.32美元~2美元之间(约8.99元~13.62元),具体取决于资历和表现。据Sama员工透露,“代理商”是三个小组中最初级的数据标签人员,他们的基本工资为每月2.1万肯尼亚先令(约170美元或者约1158元)。此外,他们每月还能获得约70美元的奖金,如果达到准确性和速度等关键绩效指标,他们还可以获得佣金。
按此计算,一名每天工作9小时的员工预计税后时薪至少能拿1.32美元,如果超额完成所有目标,则最高可达到1.44美元。质量分析师是资历更深的数据标签员工,他们的工作是检查“代理商”的工作,如果他们达到了所有绩效目标,时薪可以拿到2美元。
OpenAI发言人曾在一份声明中证实,Sama在肯尼亚的员工为该公司正在开发的监测有害内容的工具作出了贡献,该工具最终被内置到ChatGPT中。
小结
随着ChatGPT的爆火,人工智能走进了更多人的视野。然而从目前的情况来看,人们印象中的人工智能仍然是很高端的事物,只有科技、互联网巨头企业及专业人士才能涉足的领域。然而人工智能产业链涉及面广泛,其中就包括数据标注。可以看到,人工智能的存在和实现,不仅仅是解放人们的双手,同时从这个层面来看,它对劳动力的需求也是庞大的。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
ChatGPT
+关注
关注
27文章
1404浏览量
4540
发布评论请先 登录
相关推荐
在FPGA设计中是否可以应用ChatGPT生成想要的程序呢
当下AI人工智能崛起,很多开发领域都可看到ChatGPT的身影,FPGA设计中,是否也可以用ChatGPT辅助设计呢?
发表于 03-28 23:41
【国产FPGA+OMAPL138开发板体验】(原创)6.FPGA连接ChatGPT 4
OMAP-L138(定点/浮点DSP C674x+ARM9)+ FPGA处理器的开发板。
编写一个用于FPGA访问ChatGPT 4的程序代码是一个相当复杂的任务,涉及到硬件设计、网络通信、数据处理等多个
发表于 02-14 21:58
芯科技,解密ChatGPT畅聊之算力芯片
的GPU服务器,尤其是英伟达的A100 GPU,提供了强大而精确的计算能力。ChatGPT的功能远超日常对话,它能够学习、理解并生成人类般的文本,是人工智能领域的一个重要突破。但其真正力量的源泉,是背后那些不断工作的算力芯片,它
科技前沿的助力:探索语音标注平台的奇迹
在当今数字化的世界中,人工智能已经成为引领创新和变革的关键。而在人工智能背后默默支持着的一项重要技术,就是语音识别。然而,让机器准确理解人类语言并非易事,这就需要大量的数据标注工作。在
chatgpt是什么意思 ChatGPT背后的技术原理
今天我们为大家带来的文章,深入浅出地阐释了ChatGPT背后的技术原理,没有NLP或算法经验的小伙伴,也可以轻松理解ChatGPT是如何工作的。
发表于 07-18 17:12
•0次下载
点云标注的标准化与数据共享
点云标注的标准化和数据共享对于自动驾驶技术的发展具有重要意义。通过标准化和数据共享,可以促进点云标注技术的进步,提高自动驾驶汽车的感知和决策能力。 首先,点云
【核芯观察】ChatGPT背后的算力芯片(三)
在今年以来可以说是最热的赛道,而AI大模型对算力的需求爆发,也带动了AI服务器中各种类型的芯片需求,所以本期核芯观察将关注ChatGPT背后所用到的算力芯片产业链,梳理目前主流类型的AI算力芯片产业上下游企业以及运作模式。 接上期Chat
【核芯观察】ChatGPT背后的算力芯片(二)
在今年以来可以说是最热的赛道,而AI大模型对算力的需求爆发,也带动了AI服务器中各种类型的芯片需求,所以本期核芯观察将关注ChatGPT背后所用到的算力芯片产业链,梳理目前主流类型的AI算力芯片产业上下游企业以及运作模式。 接上期Chat
ChatGPT背后的算力芯片
在今年以来可以说是最热的赛道,而AI大模型对算力的需求爆发,也带动了AI服务器中各种类型的芯片需求,所以本期核芯观察将关注ChatGPT背后所用到的算力芯片产业链,梳理目前主流类型的AI算力芯片产业上下游企业以及运作模式。 Chat
ChatGPT系统开发AI人功智能方案
解决的问题和应用场景,例如智能客服、智能助手等。数据集准备:准备与应用场景相关的数据集,并将其清理、标注、整合等处理,以便为模型提供有效的训练数据。 1.下面是对接gpt的一些请求参数
发表于 05-18 10:16
数据标注——数字世界的基石
在现代社会中,数字技术已经渗透到了各行各业。而数据标注则是数字世界中不可或缺的一环,是保证数据质量和模型效果的必要步骤。下面我们来深入了解一下数据标
评论