从数据到高质量数据集 数据标注合规是关键

内容摘要第八届数字中国建设峰会于4月29日至30日在福建福州举办。本届峰会聚焦突破数据领域堵点难点问题,围绕如何进一步实现数据要素市场化价值化,如何进一步丰富并用好已有工具箱为数据“供得出、流得动、用得好、保安全”架桥、铺路、筑基等展开。峰会期间,

第八届数字中国建设峰会于4月29日至30日在福建福州举办。本届峰会聚焦突破数据领域堵点难点问题,围绕如何进一步实现数据要素市场化价值化,如何进一步丰富并用好已有工具箱为数据“供得出、流得动、用得好、保安全”架桥、铺路、筑基等展开。峰会期间,中国电信发布星海·多模态数据智能标注平台和星海·多方隐私计算工具服务,推进高质量数据集和数据安全流通利用,助力数据产业发展。

数据产业规模扩展与生态完善并进

国家数据局数据显示,2024年,全国数据市场交易规模超1600亿元,同比增长30%以上。数据标注产业发展也取得了阶段性成果。我国七个基地的数据标注规模达17282TB,形成医疗、工业、教育等行业的高质量数据集335个,带动数据标注相关产值83亿元。

以中国电信为代表的通信运营商,依托“云网数智安”一体化优势,已建成覆盖全国的7大数据标注基地,形成“算力+平台+场景”的生态闭环。中国电信以星海·数据要素服务平台为着力点,支撑全国7省+30地市级公共数据要素运营,依托“云网数智安”一体化优势,助力打造国家级数据标注试点基地,例如在四川成都新津区,联合地方政府打造国家级数据标注基地。

高质量数据集是技术创新燃料

高质量数据集是人工智能发展的基石,其价值不仅在于技术突破,更在于推动社会经济的全面数字化转型。

中国电信四川公司与成都市国家数据标注基地牧山园区合作,从地方应用痛点出发,利用已采集的19个地市方言语音大数据,成功构建了四川方言高质量数据集,并基于此训练出四川方言大模型,支撑落地政务服务热线、医疗问诊等场景,提升座席人员工作效率超20%。

凭借海量数据资源和自主可控技术优势,中国电信形成了多模态数据智能标注能力,本次峰会,中国电信展出了星海·多模态数据智能标注平台,集成50余种数据标注工具,以大模型自动预标注技术提升标注效率17倍,复杂任务一致性突破95%。

产业协同推进数据标注合规

数据标注作为生成式AI的“第一道安全阀”,其合规性决定着数据要素流通的根基。中国电信通过融合量子加密、区块链技术,打造“蓉数公园·新津节点”,实现数据标注全流程可追溯。推出的“大模型多方隐私计算训练平台”创新性地融合“弹性调度+隐私安全”技术架构,支持至少3种分布式优化聚合算法,可灵活适配10余方参与的大规模隐私协同训练。

同时中国电信加强生态合作,联合整数智能、路米科技等10余家中小企业,构建数据标注、人才培训、智能服务等生态合作圈,开放电信技术平台及工具链能力,扶持中小企业发展;联合上海库帕思、中文在线等10余家数商企业,打造语料共建共享生态联盟,促进跨领域跨行业数据集进一步开放;打造星海企业级可信数据空间,即星海数据开源社区,提供一体化数据治理、模型训练等供需,促进上下游企业共建共用。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-9