湖北日报讯(记者戴文辉)近日,湖北省数据局发布第三批湖北省高质量数据集名单。
数据之于大模型,犹如石油之于汽车。原油需炼化成汽油才能供汽车使用,同理,海量原始数据也需“炼化”形成高质量数据集,才能助力大模型的精准跃升。在算法趋同、算力普惠的竞争环境中,高质量数据集正在成为AI训练、质量升级和打造差异化大模型的关键支撑。2025年8月,中国信息通信研究院联合多家机构发布的《人工智能高质量数据集建设指南》,指出高质量数据集具备“三高”特征:高价值应用、高知识密度、高技术含量,正是这些特征使得高质量数据集成为模型性能跃升的核心要素。
我省于2024年12月开始征集高质量数据集。截至目前,已征集170个,体量达15000TB(太字节,1TB等于1024GB);择优发布其中60个,体量近7700TB,涵盖文本、图形图像、视频、结构化数据等多元形式,具备模型适配性强、标注准确性高、行业辐射广的特点。
本次发布的第三批高质量数据集共有25个,聚焦AI创新与产业赋能,具有显著的湖北特色。如文旅领域的动漫数据集,依托多模态动漫制作数据,为AIGC动画生成、口型驱动、风格化重渲染等场景提供“创意燃料”,支撑国产动漫工业化转型;智能驾驶领域的自动驾驶环境感知、交通道路路网维护和灾害识别等方面的数据集,助力自动驾驶技术在复杂道路环境下的可靠性升级;在医疗卫生领域,结合湖北医疗资源优势,涵盖典型病例临床诊疗结构化、血液样本库特征等数据,支撑医疗AI研发与健康产业创新。
国家数据局将2026年明确为“数据要素价值释放年”,将进一步推动数据“供得出、流得动、用得好、保安全”。省数据局相关负责人表示,我省将聚焦科学研究、医疗卫生、教育教学、城市治理等重点赛道,布局建设一批“产业数据+产业知识+人工智能”三位一体的高质量数据集,探索九游娱乐开展高质量数据集运营,赋能我省人工智能产业发展。
