数据标注 - 产业百科
摘要:数据加工包含数据清洗、数据标注、数据审核等,本质上是提升数据资源质量的过程,数据资源的质量越高其价值越大。由于非结构化数据占比越来越大,对于数据标注行业的需求稳定提升,已经形成一个稳定成长的行业,市场标注行业市场规模不断扩大,图像类和语音类需求占比超八成。2022年中国数据标注行业市场规模约为51亿元。
一、定义及分类
数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注技术作为提供训练数据的必经环节,促进了人工智能的快速发展。常见的数据标注按照数据类型可以分为图像标注、文本标注及语音标注。
二、商业模式
1、众包模式
现在数据标注通常采取众包的模式,众包模式的优点就是成本较低响应较快。这种式适用较简单的项目如点点拉框等项目。发布者往往将任务详细介绍和题目一同发送到平台上供广大数据标注兼职人员作答。但众包模式有一个很明显的问题就是质量较难把控,每个人对规则的理解不尽相同且不可避免的会有一部分对任务乱答一通,影响项目质量。为此各平台也会使用一些方式减少问题的产生提高项目质量。比如增加改判环节一道题在答完之后会由他人进行改判如若判错则不获得任务报酬,此外为防止错判维护答题人员利益还会设置申诉环节使答题人员对有疑问的题目进行申诉。设置标注人员级别,标注人员任务正确率较高答题数较多则能慢慢提高等级解锁更多任务获得更多的任务报酬且有机会进入改判环节成为改判员。
2、外包模式
外包模式与众包模式相对是将任务外包给专门的数据标注公司和团队,在项目一开始会对项目整体进行评估然后针对项目整体进行报价由数据标注公司自行安排培训安排人手,只需要保证在项目截止日期前保质保量交付数据即可。这种模式的优势就是数据质量和项目周期有保证。但是响应速度较慢成本较高,因为一开始需要安排竞标且平台需要安排专门的项目人员进行项目对接和项目跟进。现如今国内专门做数据标注的团队较多,但是大多数只是以工作室和几十人的小团队为主且业务类型集中在简单的拉框图像标注上。也有一些的较大型的公司如贵州的梦动科技已经形成产业化带动了当地的发展。又或者是“点我科技”他们自建有平台可以自研工具同时担任着数据标注平台和数据标注公司两种角色。
三、行业政策
随着数据要素市场不断壮大,数据要素市场的各个参与主体都投入到市场运作中。政府作为数据要素市场的管理者,将发挥政策扶持和积极引导作用,推动公共数据扩大开放,构建数据开放平台。相关政策文件的密集出台推动我国数据产业迅速发展,技术不断进步,基础设施不断完善,融合应用不断深入。2024年1月国家数据局等17部门发布《“数据要素×”三年行动计划(2024-2026年)》中指出:《行动计划》选取工业制造、现代农业、商贸流通、交通运输、金融服务、科技创新、文化旅游、医疗健康、应急管理、气象服务、城市治理、绿色低碳等12个行业和领域,推动发挥数据要素乘数效应,释放数据要素价值。
四、行业壁垒
1、技术能力壁垒
随着大模型时代的到来,数据标注行业对技术能力的要求越来越高。企业需要具备强大的数据处理能力,包括数据闭环工具链的智能化水平、对大模型/AI算法的理解、数据工程化能力以及基础设施建设等。这些技术能力的缺乏会限制企业的发展,尤其是在自动化标注和处理复杂数据集方面。
2、场景资源壁垒
数据标注服务需要紧密结合具体的应用场景,这意味着企业必须拥有高质量的场景数据和相应的领域专家或深度用户。这些资源的获取和维护需要大量的时间和成本投入,对于新进入者来说,缺乏这些资源会成为进入市场的障碍。
3、行业经验壁垒
数据标注行业的发展需要积累丰富的行业经验,这包括对客户需求的深刻理解、数据标注流程的优化以及与客户的长期合作关系建立。新进入者缺乏这些经验,难以快速适应市场变化和客户需求,从而在竞争中处于不利地位。
五、产业链
数据标注位于产业链中游,是AI商业化应用中重要的一环。行业的上游为数据源与数据产能,多元数据包括个人数据、企业数据、政府数据等,产能医院供应方包括标注自愿提供方和硬件资源供应商。中游为数据标注厂商,包括AI基础数据服务商,如海天瑞声等。下游则是人工智能的应用,涉及智慧政务、金融、工业、自动驾驶等领域。其中,处于中游的AI基础数据服务商主要进行数据的采集与标注,面向AI的数据治理平台服务商则使用数据治理的各组件管治多源异构数据,使其形成数据资产,提高数据质量。二者处理后的数据可直接提供给下游用于AI训练,从而加速AI落地。
六、行业现状
数据加工包含数据清洗、数据标注、数据审核等,本质上是提升数据资源质量的过程,数据资源的质量越高其价值越大。具体分环节看:企业标配的能力,基本在数据收集存储环节就已经完成;数据标注:由于非结构化数据占比越来越大,对于数据标注行业的需求稳定提升,已经形成一个稳定成长的行业,市场标注行业市场规模不断扩大,图像类和语音类需求占比超八成。2022年中国数据标注行业市场规模约为51亿元。
七、发展因素
1、有利因素
(1)人工智能技术的飞速发展
随着人工智能(AI)技术的不断进步,尤其是计算机视觉和自然语言处理等领域的应用日益广泛,对高质量、专业化的数据标注需求急剧增加。数据标注作为AI技术发展的基础,其市场需求随之增长。例如,图像和视频标注的复合年增长率接近17%,预计到2024年数据标注市场的价值将达到486亿美元。
(2)大模型时代的来临
大模型(如GPT-3等)的开发和应用需要大量的高质量数据作为训练基础。数据标注服务贯穿大模型的全生命周期,上下游合作关系更为紧密,这为数据标注行业带来了新的增长点。大模型范式的涌入使得自动化标注效率进一步提升,同时也对标注人才提出了更高的要求,如高学历多领域成为硬指标。
(3)政策支持和市场需求
中国政府对人工智能产业的大力支持,以及各行各业对智能化转型的需求,为数据标注行业提供了广阔的市场空间。例如,智能驾驶、医疗健康、金融科技等领域对数据标注的需求不断增长,推动了行业的扩张。此外,合成数据作为新兴赛道,其增速最高,为数据标注行业带来了新的增长动力。例如《数据经济促进共同富裕实施方案》、《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》、《“数据要素×”三年行动计划(2024-2026年)》等政策。
2、不利因素
(1)行业洗牌与竞争加剧
随着市场规模的扩大,更多的参与者进入数据标注行业,导致市场竞争日益激烈。由于行业准入门槛相对较低,许多中小规模的数据服务供应商涌现,这导致市场饱和,使得中小型供应商面临严峻的生存压力。同时,行业内部会出现一波“洗牌期”,那些无法适应市场变化、提升技术水平和服务质量的企业会被淘汰。
(2)技术门槛提升与人力成本增加
随着AI企业对数据标注的需求变得更加高质量、精细化和定制化,数据标注行业的技术门槛也在提高。这要求数据服务供应商具备更强的技术实力和精细化管理能力。同时,人力成本的上升也对数据标注企业构成了压力,尤其是在劳动力密集型的标注任务中,成本控制成为企业需要重点关注的问题。
(3)数据安全与隐私保护问题
数据标注涉及大量敏感信息的处理,如何确保数据的安全性和隐私保护成为行业的一个重要挑战。在众包、转包模式下,数据的安全性难以得到充分保障,存在数据泄露的风险。此外,对于金融机构和政府部门等特殊行业的需求方来说,数据的安全性尤为重要,数据标注企业需要建立完善的数据安全防护机制,以避免潜在的法律风险和信誉损失。
八、竞争格局
AI行业的蓬勃发展,对数据的需求呈井喷式增长,数据标注行业是伴随着AI的兴起而产生的一个新兴行业。目前,我国国内市场越来越多的互联网巨头公司开始组建自己的数据标注平台,京东(京东众智)、百度(百度众测)都已经拥有自己的标注平台和工具。头部公司之外,国内近年兴起众多数据标注公司,如龙猫数据、Testin云测、倍赛BasicFinder、数据堂等,这些公司仅次于第一梯队,都具有相当的规模。
海天瑞声是我国领先的训练数据专业提供商。自2005年成立以来,公司致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。公司所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智能家居、智慧城市等多种创新应用场景。2023年上半年公司收入为0.74亿元。
九、发展趋势
置信度分数最高的片段用于对标签的初始化,呈现给标注者。标注者可以从机器生成的多个候选标签中为当前片段选择合适的标签,或者对机器未覆盖到的对象添加分割段。AI辅助标注技术的应用,能够极大地降低人力成本并使标注速度大幅提升。目前,已经有一些数据标注公司开发了相应的半自动化工具,但是从标注比例来看,机器标注占30%左右,而人工标注占比达到70%左右。因此,数据标注工具的发展趋势是开发以人工标注为主机器标注为辅的半自动化标注工具,同时减少人工标注的比例,并逐步提高机器标注的占比。