0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT背后的数据标注,工作量大,报酬低!

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-02-17 09:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)最近爆火的ChatGPT有多强大,想必大家都已经知晓,它几乎可以生成任何形式的文本,从莎士比亚的十四行诗,到用5岁孩子都能理解的语言描述,以及复杂数学问题,也因此月活跃用户在短短上线两个月就达到1亿。

而强大的ChatGPT背后,离不开一项重要的工作,那就是数据标注。据美媒报道,为了训练ChatGPT,OpenAI的合作伙伴Sama雇佣了肯尼亚、乌干达和印度的外包员工,对庞大的数据库手动进行数据标注。


什么是数据标注

事实上,人工智能是一种可以根据人类需求做出合理行为的计算机程序,要想实现人工智能,就需要把人类的理解能力和判断能力教给计算机,让计算机拥有类似人类的识别能力。在这一过程中,需要计算机模仿人类进行经验学习。

而数据标注就是把需要计算机进行机器学习的的图片、视频等初级数据打上标签,让计算机不断的识别这些初级数据的特征,最终可以让计算机能够自主的识别。

这里涉及到几个概念:1、数据标注,简单来说,就是对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签,来满足机器训练学习的需求。2、标签,就是对需要机器学习的数据进行标识特征、类别和属性等,用于建立数据和机器训练学习的可读数据编码间的联系。3、数据标注员,就是负责对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签的工作人员。

计算机特征数据主要分为图像数据、语音数据、文本数据等。在自然语言处理的需求中,文本数据标注是关键环节,数据标注员需要通过对语句分词的标注、语义判断的标注、情感标注、多音字标注等,为人工智能机器学习提供高准确率的文本语料。

数据标注的流程,首先是从数据采集开始,由于新采集的数据是非结构化的,有些数据不完整,还有不一致、有杂音噪声的数据,需要通过数据清洗,对采集的数据进行筛选、去重、查缺补漏、平滑噪音等操作,将数据清理成适合标注的格式。

接着,数据经过清洗后,就可以进入数据标注的核心环节。在现实的标注工作中,数据管理员会将数据根据不同的需求,将待标注的数据分为不同的数据包任务,每一个数据任务都会有不同的规范和标注形式要求,然后将标注任务分配给多个标注员进行标注工作。

最后,为了提高数据输出的正确率,标注员完成标注工作后,需要质检师对数据进行检验,最终通过质检环节的数据才是可用于训练学习的数据。


庞大的数据标注工作,和低水平的报酬

从ChatGPT来看,虽然对于ChatGPT最后的强大能力来说,数据标注是重要的一环,然而这却是一项工作量及其庞大,报酬却并不高的工作。

虽然ChatGPT的前身GPT-3已经展示出非常强大的语句串联的能力。然而,当时的GPT-3却存在很多弊端,例如内容容易出现暴力、性别歧视等言论。之所以会出现这样的不足之处,是因为AI工具从互联网抓取了数千亿个单词来训练。由于互联网的词汇有不少带有偏见及负面的词汇,因此单纯凭借学习能力无法来清除这些训练数据。

为了获得这些有害内容的标签,OpenAI从2021年11月开始便向一家外包公司发送了数万条文本片段。这家公司便是Sama,Sama总部位于美国旧金山,该公司雇佣了肯尼亚、乌干达和印度的外包员工。大约30多名工作人员被分成三个小组,每个小组都专注于一个主题。据该公司的三名员工表示,他们每9个小时要阅读和标注150~200段文字,这些段落的范围从100个单词到1000多个单词不等。

薪酬方面,Sama为OpenAI雇佣的数据标签员工支付的时薪在1.32美元~2美元之间(约8.99元~13.62元),具体取决于资历和表现。据Sama员工透露,“代理商”是三个小组中最初级的数据标签人员,他们的基本工资为每月2.1万肯尼亚先令(约170美元或者约1158元)。此外,他们每月还能获得约70美元的奖金,如果达到准确性和速度等关键绩效指标,他们还可以获得佣金。

按此计算,一名每天工作9小时的员工预计税后时薪至少能拿1.32美元,如果超额完成所有目标,则最高可达到1.44美元。质量分析师是资历更深的数据标签员工,他们的工作是检查“代理商”的工作,如果他们达到了所有绩效目标,时薪可以拿到2美元。

OpenAI发言人曾在一份声明中证实,Sama在肯尼亚的员工为该公司正在开发的监测有害内容的工具作出了贡献,该工具最终被内置到ChatGPT中。


小结

随着ChatGPT的爆火,人工智能走进了更多人的视野。然而从目前的情况来看,人们印象中的人工智能仍然是很高端的事物,只有科技、互联网巨头企业及专业人士才能涉足的领域。然而人工智能产业链涉及面广泛,其中就包括数据标注。可以看到,人工智能的存在和实现,不仅仅是解放人们的双手,同时从这个层面来看,它对劳动力的需求也是庞大的。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10071
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶数据标注是所有信息都要标注吗?

    [首发于智驾最前沿微信公众号]数据标注对于自动驾驶来说,就像是老师教小朋友知识,数据标注可以让车辆学习辨别道路交通信息的能力。摄像头、雷达、激光雷达(LiDAR)拍下来的只是一堆原始信
    的头像 发表于 12-04 09:05 318次阅读
    自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>是所有信息都要<b class='flag-5'>标注</b>吗?

    算法工程师不愿做标注工作,怎么办?

    对于算法而言,图像标注是一项关键性工作,越是大量的新数据标注,对于算法的性能提升越有帮助。但是图像标注是一项极其费时费力的
    的头像 发表于 12-02 17:56 225次阅读
    算法工程师不愿做<b class='flag-5'>标注</b><b class='flag-5'>工作</b>,怎么办?

    浅析多模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——多模态标注重要性日益凸显。 一、什么是多模态标注? 多模态标注是指对文本、图像、语音、视频、点云等异构数据进行跨模态语义关联的标注
    的头像 发表于 09-05 13:49 750次阅读

    请问AICube所需的目标检测数据标注可以使用什么工具?

    请问AICube所需的目标检测数据标注可以使用什么工具? 我使用labelimg进行标注标注后的数据集改好文件名后导入不进去。一直卡在
    发表于 08-11 08:07

    自动驾驶数据标注主要是标注什么?

    [首发于智驾最前沿微信公众号]在自动驾驶系统的研发过程中,数据标注是实现高性能感知模型的基础环节,其核心目标是将车辆从环境中采集到的原始感知数据(主要包括图像、点云、视频序列等)转化为具有语义信息
    的头像 发表于 07-30 11:54 901次阅读
    自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>主要是<b class='flag-5'>标注</b>什么?

    什么是自动驾驶数据标注?如何好做数据标注

    [首发于智驾最前沿微信公众号]在自动驾驶系统的开发过程中,数据标注是一项至关重要的工作。它不仅决定了模型训练的质量,也直接影响了车辆感知、决策与控制的性能表现。随着传感器种类和数据量的
    的头像 发表于 07-09 09:19 924次阅读
    什么是自动驾驶<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?如何好做<b class='flag-5'>数据</b><b class='flag-5'>标注</b>?

    数据标注与大模型的双向赋能:效率与性能的跃升

    ​‌在人工智能蓬勃发展的时代,大模型凭借其强大的学习与泛化能力,已成为众多领域创新变革的核心驱动力。而数据标注作为大模型训练的基石,为大模型性能提升注入关键动力,是模型不可或缺的“养料。大模型则凭借
    的头像 发表于 06-04 17:15 1642次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>标注</b>与大模型的双向赋能:效率与性能的跃升

    东软集团入选国家数据数据标注优秀案例

    近日,东软飞标医学影像标注平台在国家数据局发布数据标注优秀案例集名单中排名第一(案例名称“多模态医学影像智能数据
    的头像 发表于 05-09 14:37 1006次阅读

    标贝科技“4D-BEV上亿点云标注系统”入选国家数据局首批数据标注优秀案例

    4月29日,作为第八届数字中国建设峰会的重要组成部分,由国家数据局主办的高质量数据集和数据标注主题交流活动在福州市数字中国会展中心举行。会议交流活动聚焦“推动高质量
    的头像 发表于 04-30 14:38 568次阅读
    标贝科技“4D-BEV上亿点云<b class='flag-5'>标注</b>系统”入选国家<b class='flag-5'>数据</b>局首批<b class='flag-5'>数据</b><b class='flag-5'>标注</b>优秀案例

    数据标注服务—奠定大模型训练的数据基石

    数据标注是大模型训练过程中不可或缺的基础环节,其质量直接影响着模型的性能表现。在大模型训练中,数据标注承担着将原始数据转化为机器可理解、可学
    的头像 发表于 03-21 10:30 2305次阅读

    标贝数据标注服务:奠定大模型训练的数据基石

    数据标注是大模型训练过程中不可或缺的基础环节,其质量直接影响着模型的性能表现。在大模型训练中,数据标注承担着将原始数据转化为机器可理解、可学
    的头像 发表于 03-21 10:27 877次阅读
    标贝<b class='flag-5'>数据</b><b class='flag-5'>标注</b>服务:奠定大模型训练的<b class='flag-5'>数据</b>基石

    自动化标注技术推动AI数据训练革新

    标贝自动化数据标注平台在全栈数据标注场景式中搭载了大模型预标注和自动化标注能力,并应用于3D点云
    的头像 发表于 03-14 16:46 1088次阅读

    标贝自动化数据标注平台推动AI数据训练革新

    标贝自动化数据标注平台在全栈数据标注场景式中搭载了大模型预标注和自动化标注能力,并应用于3D点云
    的头像 发表于 03-14 16:42 1341次阅读
    标贝自动化<b class='flag-5'>数据</b><b class='flag-5'>标注</b>平台推动AI<b class='flag-5'>数据</b>训练革新

    AI自动图像标注工具SpeedDP将是数据标注行业发展的重要引擎

    AI大浪潮下,许多企业都在不断借助AI来提升自己的行业竞争力,数据标注企业也不例外,传统人工标注效率不足的弊端困扰了多年,如今新的“引擎”就在眼前,他们当然不会放过这个机会。针对这样的需求,慧视光电
    的头像 发表于 01-02 17:53 1119次阅读
    AI自动图像<b class='flag-5'>标注</b>工具SpeedDP将是<b class='flag-5'>数据</b><b class='flag-5'>标注</b>行业发展的重要引擎

    标贝数据标注在智能驾驶训练中的落地案例

    标贝科技深耕AI数据服务多年,在无人驾驶、自动驾驶等智能驾驶领域拥有丰富的合作案例。多次采用点云标注以及3D&2D融合等标注方式为智能驾驶领域客户提供环境感知、决策策划、车道线标注、障
    的头像 发表于 12-24 15:17 3076次阅读
    标贝<b class='flag-5'>数据</b><b class='flag-5'>标注</b>在智能驾驶训练中的落地案例