ChatGPT背后的数据标注，工作量大，报酬低！-电子发烧友网

电子发烧友网报道（文/李弯弯）最近爆火的ChatGPT有多强大，想必大家都已经知晓，它几乎可以生成任何形式的文本，从莎士比亚的十四行诗，到用5岁孩子都能理解的语言描述，以及复杂数学问题，也因此月活跃用户在短短上线两个月就达到1亿。

而强大的ChatGPT背后，离不开一项重要的工作，那就是数据标注。据美媒报道，为了训练ChatGPT，OpenAI的合作伙伴Sama雇佣了肯尼亚、乌干达和印度的外包员工，对庞大的数据库手动进行数据标注。

什么是数据标注

事实上，人工智能是一种可以根据人类需求做出合理行为的计算机程序，要想实现人工智能，就需要把人类的理解能力和判断能力教给计算机，让计算机拥有类似人类的识别能力。在这一过程中，需要计算机模仿人类进行经验学习。

而数据标注就是把需要计算机进行机器学习的的图片、视频等初级数据打上标签，让计算机不断的识别这些初级数据的特征，最终可以让计算机能够自主的识别。

这里涉及到几个概念：1、数据标注，简单来说，就是对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签，来满足机器训练学习的需求。2、标签，就是对需要机器学习的数据进行标识特征、类别和属性等，用于建立数据和机器训练学习的可读数据编码间的联系。3、数据标注员，就是负责对文本、图像、音频、视频等数据进行高质量、高精度的处理打标签的工作人员。

计算机特征数据主要分为图像数据、语音数据、文本数据等。在自然语言处理的需求中，文本数据标注是关键环节，数据标注员需要通过对语句分词的标注、语义判断的标注、情感标注、多音字标注等，为人工智能机器学习提供高准确率的文本语料。

数据标注的流程，首先是从数据采集开始，由于新采集的数据是非结构化的，有些数据不完整，还有不一致、有杂音噪声的数据，需要通过数据清洗，对采集的数据进行筛选、去重、查缺补漏、平滑噪音等操作，将数据清理成适合标注的格式。

接着，数据经过清洗后，就可以进入数据标注的核心环节。在现实的标注工作中，数据管理员会将数据根据不同的需求，将待标注的数据分为不同的数据包任务，每一个数据任务都会有不同的规范和标注形式要求，然后将标注任务分配给多个标注员进行标注工作。

最后，为了提高数据输出的正确率，标注员完成标注工作后，需要质检师对数据进行检验，最终通过质检环节的数据才是可用于训练学习的数据。

庞大的数据标注工作，和低水平的报酬

从ChatGPT来看，虽然对于ChatGPT最后的强大能力来说，数据标注是重要的一环，然而这却是一项工作量及其庞大，报酬却并不高的工作。

虽然ChatGPT的前身GPT-3已经展示出非常强大的语句串联的能力。然而，当时的GPT-3却存在很多弊端，例如内容容易出现暴力、性别歧视等言论。之所以会出现这样的不足之处，是因为AI工具从互联网抓取了数千亿个单词来训练。由于互联网的词汇有不少带有偏见及负面的词汇，因此单纯凭借学习能力无法来清除这些训练数据。

为了获得这些有害内容的标签，OpenAI从2021年11月开始便向一家外包公司发送了数万条文本片段。这家公司便是Sama，Sama总部位于美国旧金山，该公司雇佣了肯尼亚、乌干达和印度的外包员工。大约30多名工作人员被分成三个小组，每个小组都专注于一个主题。据该公司的三名员工表示，他们每9个小时要阅读和标注150~200段文字，这些段落的范围从100个单词到1000多个单词不等。

薪酬方面，Sama为OpenAI雇佣的数据标签员工支付的时薪在1.32美元~2美元之间（约8.99元~13.62元），具体取决于资历和表现。据Sama员工透露，“代理商”是三个小组中最初级的数据标签人员，他们的基本工资为每月2.1万肯尼亚先令（约170美元或者约1158元）。此外，他们每月还能获得约70美元的奖金，如果达到准确性和速度等关键绩效指标，他们还可以获得佣金。

按此计算，一名每天工作9小时的员工预计税后时薪至少能拿1.32美元，如果超额完成所有目标，则最高可达到1.44美元。质量分析师是资历更深的数据标签员工，他们的工作是检查“代理商”的工作，如果他们达到了所有绩效目标，时薪可以拿到2美元。

OpenAI发言人曾在一份声明中证实，Sama在肯尼亚的员工为该公司正在开发的监测有害内容的工具作出了贡献，该工具最终被内置到ChatGPT中。

小结

随着ChatGPT的爆火，人工智能走进了更多人的视野。然而从目前的情况来看，人们印象中的人工智能仍然是很高端的事物，只有科技、互联网巨头企业及专业人士才能涉足的领域。然而人工智能产业链涉及面广泛，其中就包括数据标注。可以看到，人工智能的存在和实现，不仅仅是解放人们的双手，同时从这个层面来看，它对劳动力的需求也是庞大的。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉