统计部门应用系统繁多,数据来源广。
专题库建设的步骤和方法
专题库建设时,首先需要明确该专题的数据范围,专题数据可来源于统计年鉴、专题汇报等文件以及联网直报系统等应用,紧密围绕专题的业务本质进行设定,如能源专题库则应该包括能源建设、能源生产、能源消费等内容。
根据对统计领域已有系统和基础数据的分析,建立专题库的数据模型。其元数据主要包括13类,其中9类为业务元数据。
专题库中最直接的为数据,通过对9类业务元数据的分析可得知指标与数据关联最为紧密,其他元数据均可通过指标与数据进行关联,通过分析和设计,可变为如图3所示的数据模型。
通过分析每个元数据本身的属性,根据模型可得出每一数据应包括60多个属性,考虑数据存储及专题库的价值,逐一评估后给出需冗余的属性,如下:id、值、报送单位_id、期别_id、指标_id、目录条目_id、入库时间戳、报送单位全称、期别_起、期别_讫、指标全称、目录_id、目录条目名称、分组1条目_id 、分组2条目_id 、分组3条目_id 、分组4条目_id 、分组5条目_id 、分组6条目_id 、分组7条目_id、地域1级_id 、地域2级_id 、地域3级_id、计量单位_id、数据释意全文。
其中,5个必须字段为值、报送单位_id、期别_id、指标_id、目录条目_id;2个管理字段为id、入库时间戳,以及18个冗余存储字段。
数据是专题库的基础,所有的数据处理和分析都是建立在及时、准确、全面的数据之上,专题数据的来源主要包括以下几个方面:
(1)通过联网直报系统由企业、地方统计部门等按照制度报送周期的要求进行数据的报送;
(2)通过各专业司建立的信息上报系统,由相关的企业(如房地产企业等)进行定期的数据报送;
(3)通过电子邮件、纸质文件等由各部委办局或地方统计局等将相关的数据进行汇总报送;
专题库的建设将支撑不同的数据来源、不同类型数据的汇聚,并以统一的数据集合加以利用。
当数据处理和存储时需考虑数据的处理,包括输入格式转换、数据筛选、数据单位的转化、数据的校验、数据存储等。
(1) 输入格式转换。不同的数据来源可能有不同的数据格式,系统将自动解析来源数据的格式,并转换为系统的统一数据格式。
(2) 数据筛选。由于专题库的数据有着多种数据来源,可能存在不同来源间的数据冲突,系统将建立数据冲突的处理机制,对数据进行筛选,确定数据采集途径的标准,确保数据的唯一性。
(3) 数据单位的转化。在统计数据中,经常会碰到以不同数量级的单位作统计的数据,如万吨和吨。针对这种情况,系统将自动把不同数量级的单位转换成标准单位存储入库。