AI-Ready数据

未分类
644 词

了解多少写多少吧

你长远一点的方向,希望是和地球大数据集成共享和挖掘利用相关的,例如如何制备AI-Ready的数据?有什么标准,有什么技术,结合什么样的场景?

AI-Ready程度(AI-Readiness)

美国国家海洋和大气管理局(NOAA)曾出版了一本《企业数据管理手册》,NOAA在本书中指出AI-Readiness包含以下要素:

数据质量

完整性
一致性
无偏性
时效性
来源和可靠性

访问

数据格式
交付选项
使用权(清晰、机器可读的许可证)
安全/隐私(保护受限数据)

文档

机器可读的元数据(关于数据的信息)
数据字典(关于每个参数的信息)
标识符(唯一标识数据集的编号/代码)

NOAA提出了一个四级成熟度模型,并详细描述了每个等级的特征,为数据集的AI-Readiness提供了一个快速评估的框架。

级别:0(Not AI-Ready)

  • 数据一致性角度:未进行内部一致性的检查
  • 数据访问角度:仅通过请求或订单系统对公众开放使用
  • 元数据角度:没有数据字典可用,或数据字典不是机器可读格式(例如PDF)

级别:1(Minimal)

  • 数据一致性角度:手动一致性检查
  • 数据访问角度:只有一个非程序化的访问选项,例如文件下载
  • 元数据角度:数据字典是机器可读格式(例如CSV、XML、JSON)

级别:2(Intermediate)

  • 数据一致性角度:一致性检查部分自动化,部分结果有文档记录
  • 数据访问角度:多种访问方式,且至少包括一个可编程访问方法(API)
  • 元数据角度:数据字典使用机器可读的元数据标准

级别:3(Optimal)

  • 数据一致性角度:完全自动化的内部一致性检查和报告;且考虑了与社区数据集的外部一致性
  • 数据访问角度:除多种交付选项(下载、API)外,还有基于云和高性能计算提供的数据即服务(DaaS)
  • 元数据角度:机器可读的元数据标准;参数与行业标准或其他机构数据集标准协调一致

Is your data ready for AI? https://www.youtube.com/watch?v=0Ec0tgdpDEU

美国国家科学基金会如何定义AI-Ready数据集 https://nadc.china-vo.org/article/20241219164120

AI Ready Data: Forging the Path to Reliable and Scalable AI https://www.youtube.com/watch?v=pNVLfcRWbSE

留言