2026年:人工智能从学习迈向应用,高质量数据成关键
- 时间:
- 浏览:190
- 来源:华见咨询管理(深圳)有限公司
数据供给成AI瓶颈
2026年6月16日, 在江西南昌举办的“2026人民数据大会”乃是由小红书和人民数据联合主办的, 于此次大会上, 身为北京航天航空大学教授的国家数据专家咨询委员会某委员郑重指出, 人工智能正迅猛地从学习时期大步迈进规模化运用阶段, 然而高质量数据供应匮乏已然成为阻碍其深度落地施行的要点阻碍了。2025年份国内AI测验鉴定数据量达到了101.34EB, 这一数据首次超过了98.14EB的培训练习数据量, 此情况标志着人工智能已经正式跨越了学习进度时期, 从而步入着规模化运用时期了。一年里, 词元的调用数量大概是21100万亿, 词元逐渐演变成人工智能领域全新的度量标准, 是这样的情况呀。
高端数据匮乏困局
发言里, 张向宏教授着重指出, 赖以支撑人工智能技术进行升级的高质量数据集, 至今仍处于匮乏状态。存量的公域语料之中, 持续供给的力量显得乏力, 海量的私域数据、非结构化数据以及行业高端数据, 均无法实现有效供给, 如此这般, 便致使市面上各类大模型的能力趋于相同, 在专业场景应用方面难以达成突破。他直接表明,当下大部分高质量数据集的生产, 依旧处在“作坊式”的阶段, 大模型公司以及人工智能企业, 大多采取“自采自用”的方式, 极度缺乏规模化生产的能力。
数据工厂应运而生
针对这一陷入的困境, 张向宏提出, 发展“数据工厂”乃是达成高质量数据集规模化、标准化生产不能不做的选择。他做出介绍, 自从去年年底提出“数据工厂”概念以后, 全国已经有28个省、市把数据工厂建设列为2026年工作重点。数据工厂作为一种能够规模化、设施化、标准化生产高端数据的新型基础设施, 有希望完全改变当下数据供给落后的状况。这一概念在大会上引起与会专家广泛的讨论。
四种模式加速落地
从建设路径来讲, 存在着这样几种情况, 其一是数据标注企业进行升级, 其二是算力工厂实现转型, 其三是人工智能企业数据业务被剥离, 其四是技术创新企业起到引领作用, 这些乃是当前数据工厂建设的四种主要模式 张向宏声称, 这些模式各有各的优势, 可以依照不同地区以及企业的实际状况进行灵活选择 比如说, 有部分数据标注企业借助技术升级实现了向专业数据工厂的转型, 而当中一些算力工厂利用现有的设施发展起了数据生产业务 更多的案例分析能够访问www.fc-bowuguan.cn去查阅。
多层次供给体系
张向宏提出建议, 要在国家数据底座这个层面来布局建设数据工厂, 还要在核心功能节点这个层面布局建设数据工厂, 并且要在行业与企业基础设施等层面布局建设数据工厂。只有通过构建多层次数据供给体系, 其中涵盖从行业通识的层面, 再到行业专属的层面, 最后到业务专精的层面, 才能够推动数据要素切实去服务于人工智能发展以及千行百业的场景需求。他着重表明, 这种分层布局能够有效地解决不同场景之下的数据质量问题, 进而为各类大模型提供精准的、专业的数据支持。
行业变革迫在眉睫
当下, 数据工厂的建设正从概念朝着实践迈进, 全国好多地方都已将它纳入了 2026 年的重点工作范畴。张向宏觉得, 打造数据工厂是达成高质量数据集规模化、标准化供给的必然抉择, 同样也是推动人工智能创新发展的关键举措。他倡导各方赶快行动起来, 为人工智能创新发展提供够充分且可持续的“燃料”。针对此, 您觉得数据工厂能不能真正突破 AI 数据瓶颈呢? 欢迎在评论区留言探讨, 点赞并分享这篇文章让更多人留意这场数据变革。
猜你喜欢