1.语料库概念
在语言学中,语料库研究的是大规模的语言数据集合,这些数据通常以电子形式存储,包括书面语或转录的口语,通过计算机辅助分析进行研究,是用于支持特定语言研究问题的一组可由机器读取的文本集合[1]。
对于地球科学领域,语料库以地球科学为核心主题,包含与地球信息相关的实体,系统支持从大量非结构化文本中提取结构化地理地学信息,降低碎片化信息带来的研究和发现成本[2]。
2.语料库实例
2.1 总体结构
以北京市土地利用语料库为例,文件总体结构如下:

图2.1 北京市土地利用语料库总体结构
2.2 各部分说明
(1) Image—影像数据目录
包含北京市各年份土地利用所对应的遥感图像。
(2) Metadata—元数据目录
对数据进行描述,提供其拍摄时间、覆盖区域、分辨率、数据来源、投影方式、土地利用分类体系及其用途。示例如下:

图2.2 北京市土地利用语料库元数据示例
(3) Annotation—标注信息目录
使用csv文件对遥感图像中地块或像素的土地利用分类标注。内容包括像元位置,土地利用类型及所属区域。示例如下:

图2.3 北京市土地利用语料库标注信息示例
(4) Document—文本资料目录
包括与之相关的支撑文件,例如政府公告、科研报告、土地规划文书等。
3.参考文献
[1] McEnery, T., & Hardie, A. (2012). Corpus Linguistics: Method, Theory and Practice. Cambridge University Press.
[2] 李皓,乐鹏,Deodato TAPETE,等.ESDC:一种用于支持地学文献信息抽取的开放地球科学数据语料库[J].中国科学:地球科学,2024,54(12):3888-3902.