一、可信AI人工智能数据集质量评估体系简介 2025年12月,中国信通院人工智能研究所迭代发布可信AI人工智能数据集质量评估体系2.0,具体覆盖评估标准、评估指标、评估工具以及评估方案等四大核心维度,按照三步走策略开展数据集质量评估工作:第一步,开展国家标准《高质量数据集 质量评测规范》规定的3大类17个具体基础质量指标评测,筛查明确人工智能数据集的基础质量问题。第二步,基于行业标准《面向人工智能的数据集质量通用评估方法 总体要求》(YD/T 6486-2025)进一步开展高阶深化指标项评测,深入挖掘AI数据集深层质量问题,形成质量问题清单和优化改进报告。第三步,针对行业专属场景开展定制化领域场景评测,助力解决行业高质量数据集建设中的关键问题。 图1 可信AI人工智能数据集质量评估体系2.0 二、可信AI人工智能数据集质量评估测试观察(2025Q1-Q4) 观察一:内容稠密性不足成为人工智能数据集建设的核心质量问题 内容稠密性是指人工智能高质量数据集中单位样本所涵盖各类数据信息及成分要素的综合数据密度大小,根据质量评估案例统计,当前人工智能数据集四大类主要质量问题占比分别达到83.55%、6.89%、6.61%、1.59%。其中,内容稠密性方面,数据内容细节、句子成分及关联关系存在缺失,且存在信息相似度较高的样本数据集;领域相关性方面,数据内容与本行业领域的业务场景逻辑无关,“答”非所“问”;领域准确性方面,数据集未体现行业领域场景的复杂概念和深层真实业务关系;样本唯一性方面,数据集缺少丰富广泛的行业领域特征,数据来源单一,数据类型简单,可支持模型训练任务较少。 图2 可信AI人工智能数据集核心质量问题分析(数据截止至2026年1月) 观察二:人工智能数据集质量评估重点由单模态向多模态迈进 由于具身智能、空间智能以及世界模型技术高速发展,当前高质量数据集已从单一文本模态扩展至图文、视频、音频、时序数据等多种模态融合形态,核心质量指标也从单一模态质量逐步转向跨模态语义对齐、多模态融合以及多模态一致性保障等多模态质量评估要求。根据2025年可信AI数据集质量评估统计,多模态对齐一致性已成为影响多模态大模型泛化能力的关键质量维度,在工业质检、轨道交通、智能座舱等场景中,多模态不一致问题导致模型推理偏差率超过 15%,通过引入跨模态一致性质量评估校验算子,可使多模态数据集有效利用率提升 20% 以上。 观察三:人工智能数据集质量评估更加深入行业领域和专属场景 人工智能高质量数据集质量评估从通用基础质量指标转向行业专属场景质量指标,助力“人工智能+”场景全面落地。不同重点行业领域具有各自专属领域场景和行业规则,通过构建行业专属场景质量评估指标体系,可有效提升行业高质量数据集的质量管控,精准赋能行业模型训练与迭代优化。根据实践统计,2025年全年可信AI人工智能数据集质量评估累计覆盖医疗、工业、物流、交通、航空、建筑、航天、政务等多个重点行业领域,具体包含道交通装备制造、呼吸疾病诊疗、航天学科知识、建筑行业供应链管理、航空运行、物流管理等具体领域核心场景。 图3 可信AI人工智能数据集质量评估行业占比分析(数据截止至2026年1月) 观察四:人工智能数据集用途阶段从模型预训练向模型应用全生命周期延伸 人工智能高质量数据集质量评估全面覆盖模型预训练、监督微调、强化对齐、推理训练、模型评测、智能体训练等大模型全生命技术周期。2025年全年可信AI人工智能数据集质量评估覆盖预训练数据集、监督微调SFT数据集、推理思维链COT数据集、模型评测数据集、强化对齐数据集以及智能体训练数据集等六大类型,具体类型占比从大到小依次为71.67%、25.67%、2.11%、0.23%、0.16%、0.16%,其中,文本高质量数据集数量占比达到99%以上。 图4 可信AI人工智能数据集质量评估数据类型分析(数据截止至2026年1月) 观察五:“数据-模型”动态闭环质量评估成为大模型能力提升关键 通过建立数据质量评估与模型性能精准映射的动态闭环反馈方法与机制,实现数据集质量评估与模型性能训练的持续动态协同优化,可显著降低人工智能系统开发迭代成本。2025年12月,中国信通院人工智能研究所提出以模型效果为导向的动态质量评估算子,并基于中国中车轨道交通装备制造行业高质量数据集,采用百度文心0.3B+21B大小模型进行LoRA微调验证,实验数据表明:行业大模型在语音相似度与关键词匹配度等核心指标上提升逾20%,验证了动态质量评估机制对模型性能优化的有效性。 图5 可信AI人工智能数据集动态质量评估技术验证分析 三、下一步工作计划 未来,中国信通院人工智能研究所将持续完善和迭代优化人工智能数据集质量评估技术能力体系,欢迎相关人工智能企业和行业企业专家共同参与。同时,2026年上半年首批可信AI人工智能数据集质量评估工作已经正式启动,欢迎各个人工智能相关企业和行业高质量数据集建设企业参与评估。



