面向高质量数据集的全流程自动化评测平台构建研究

Journal: Advances in Computer and Autonomous Intelligence Research DOI: 10.12238/acair.v3i4.17909

蒋亚军

中电数据产业集团有限公司

Abstract

作为人工智能模型可靠性与可复现性的基础,高质量数据集的现有评测体系大多以人工判定模式为主,或仅覆盖静态模态,不符合现阶段模型的跨模态、可复现与合规化要求。本次研究以高质量数据集为研究对象,构建一种面向建设、格式、分类与质量评测四类内容并支持多模态数据的全流程自动化评测平台,采用算子化可执行指标实现可复现的规则化检测,通过结构化证据包与模板化报告实现评测结论的可流转与可审计化。

Keywords

高质量数据集;全流程;自动化评测;多模态;算子化;可审计性

References

[1] 王诚文,董青秀,穗志方,等.自然语言处理评测数据集质量评估研究[J].中文信息学报,2023,37(2):15.
[2] 丁浩,张畅,顾乐,等.面向AI全生命周期的高质量数据集评测体系研究[J].数字化转型,2025,2(8):87-97.
[3] 代婕.数字经济背景下数据质量评估模型研究[J].电子商务评论,2025,14(6):2589-2599.
[4] 蔡莉,朱扬勇.从数据质量到数据产品质量[J].大数据,2022,8(3):26-39.
[5] 姜磊,张涛.GSBERT:一种基于可视化解释的数据标注自动检测方法实证[J].图书情报工作,2025,69(11):111-122.
[6] 赵志君,庄馨予.中国人工智能高质量发展:现状,问题与方略[J].改革,2023,(9):11-20.
[7] 燕江依,李荪,樊威,等.新一代数据标注产业对“人工智能+”范式创新的作用机理与实践路径研究[J].信息通信技术与政策,2025,51(8):26.
[8] 张何灿,易成岐,郭鹏,等.高质量AI数据体系面临的数据版权困境,应对策略解析与实施路径研究[J].农业图书情报学报,2025,36(9):32-43.

Copyright © 2025 蒋亚军

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License