详情

高质量数据集典型案例|招商局集团交通物流行业高质量数据集

来源:国家数据局2026/1/23 14:11:218920
导读
以场景价值实现为目标,建立“数据-模型-场景”循环驱动的“数据飞轮”。以集团高价值场景的建设,驱动高质量数据集的建设。
  交通物流行业产业链长、环节多,数据格式多样且分散,行业整体面临数据积累不足、存储分散、质量不高、缺少共享等难题。作为全球交通物流领域的领军企业,招商局集团肩负国资委 “AI+物流” 建设重任。在行业大模型及应用场景建设中,集团通过建立知识管理机制体制、搭建知识管理平台,建成数百GB文本数据集及数百TB多模态数据集,据此训练的“商道”物流行业大模型,全面应用于集团交通物流各版块的智能化转型升级。
 
  方案和成效
 
  一是由上至下统筹督办,构建交通物流行业知识目录体系。构建了覆盖7大业务板块、100+业务域、600+垂直细分交通物流领域的知识目录,知识覆盖率与准确率均达95%,实现了交通物流行业知识语料的系统化梳理与建设。
 
  二是以评促建,构建大规模高质量行业数据集。通过信通院高质量数据集4级测评。12项高质量数据集测评指标均超过90分,成为首家通过该项测评的央企单位。
 
  三是发挥示范带头作用,发布行业标准。牵头编制两项交通物流行业大模型相关标准。填补了物流大模型的标准空白,为行业数据建设与模型应用提供了统一规范与技术指引。
 
  四是以场景价值驱动高质量数据集建设。以场景价值实现为目标,建立“数据-模型-场景”循环驱动的“数据飞轮”。以集团高价值场景的建设,驱动高质量数据集的建设。
 
  创新点
 
  一是建设贯穿于大模型全生命周期的数据工程。通过数据合成、多模态解析等技术实现人工标注减少80%、解析准确率超95%。
 
  二是建立生态共建与总分协同机制。构建技术专家与业务专家融合的团队,汇聚多方专业力量打造高质量数据集。
 
  三是建立应用场景驱动的数据运营管理体系。以“可用-好用-落地”为原则构建评估体系。从完整性、准确性等维度设计16项核心指标,确保数据集与大模型应用场景的深度契合。

版权与免责声明:凡本网注明“来源:兴旺宝”的所有作品,均为浙江兴旺宝明通网络有限公司-兴旺宝合法拥有版 权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:兴旺宝”。违反上述声明者,本网将追究其相关法律责任。 本网转载并注明自其它来源(非兴旺宝)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

展开全部
马上评论