关闭→
当前位置:求学君>快乐学习>毕业论文>统计数据专题库的研究与设计分析

统计数据专题库的研究与设计分析

求学君 人气:3.81K

摘 要:着眼统计领域信息的发展趋势,从建设统计专题数据的必要性、基本思路出发,对统计领域专题数据库建设的步骤、方法、应用等进行阐述,并对统计数据专题库的应用等方面作了一些思考。

统计数据专题库的研究与设计分析

【关键词】专题库 统计 数据处理 数据应用

Abstract: Focus on the development trend of information in the field of statistics, the need to build statistical thematic data from the basic idea of view, the thematic areas of statistics database construction steps, methods, applications and so forth, and the application of statistical data, etc. for thematic library some thinking.

Key words Thematic library statistical data processing data application

1 统计专题库建设的必要性

统计部门应用系统繁多,数据来源广。在对数据进行使用时,一方面可能会出现不同系统中的相同指标数据矛盾的情况;另一方面,若涉及不同专业,则需要协调的范围、周期的难度都会明显增大,数据的时效性和及时性都难以得到保障。而专题库的建设将可有效的将历史数据整合利用起来,以专业为边界切割海量数据,实现按专业的跨年度数据存储,从而可进行更深价值的挖掘。

2 专题库建设的步骤和方法

2.1 确定专题范围

专题库建设时,首先需要明确该专题的数据范围,专题数据可来源于统计年鉴、专题汇报等文件以及联网直报系统等应用,紧密围绕专题的业务本质进行设定,如能源专题库则应该包括能源建设、能源生产、能源消费等内容。

2.2 建立数据模型

根据对统计领域已有系统和基础数据的分析,建立专题库的数据模型。其元数据主要包括13类,其中9类为业务元数据(图1)、4类为管理元数据(图2)。

专题库中最直接的为数据,通过对9类业务元数据的分析可得知指标与数据关联最为紧密,其他元数据均可通过指标与数据进行关联,通过分析和设计,可变为如图3所示的数据模型。

通过分析每个元数据本身的属性,根据模型可得出每一数据应包括60多个属性,考虑数据存储及专题库的价值,逐一评估后给出需冗余的属性,如下:ID、值、报送单位_ID、期别_ID、指标_ID、目录条目_ID、入库时间戳、报送单位全称、期别_起、期别_讫、指标全称、目录_ID、目录条目名称、分组1条目_ID 、分组2条目_ID 、分组3条目_ID 、分组4条目_ID 、分组5条目_ID 、分组6条目_ID 、分组7条目_ID、地域1级_ID 、地域2级_ID 、地域3级_ID、计量单位_ID、数据释意全文

其中,5个必须字段为值、报送单位_ID、期别_ID、指标_ID、目录条目_ID;2个管理字段为ID、入库时间戳,以及18个冗余存储字段。

2.3 确定数据来源

数据是专题库的基础,所有的数据处理和分析都是建立在及时、准确、全面的数据之上,专题数据的来源主要包括以下几个方面:

(1)通过联网直报系统由企业、地方统计部门等按照制度报送周期的要求进行数据的报送;

(2)通过各专业司建立的信息上报系统,由相关的企业(如房地产企业等)进行定期的数据报送;

(3)通过电子邮件、纸质文件等由各部委办局或地方统计局等将相关的数据进行汇总报送;

专题库的建设将支撑不同的数据来源、不同类型数据的汇聚,并以统一的数据集合加以利用。

2.4 数据处理及存储

当数据处理和存储时需考虑数据的处理,包括输入格式转换、数据筛选、数据单位的转化、数据的校验、数据存储等。

(1) 输入格式转换。不同的数据来源可能有不同的数据格式,系统将自动解析来源数据的格式,并转换为系统的统一数据格式。

(2) 数据筛选。由于专题库的数据有着多种数据来源,可能存在不同来源间的数据冲突,系统将建立数据冲突的处理机制,对数据进行筛选,确定数据采集途径的标准,确保数据的唯一性。

(3) 数据单位的转化。在统计数据中,经常会碰到以不同数量级的单位作统计的数据,如万吨和吨。针对这种情况,系统将自动把不同数量级的单位转换成标准单位存储入库。

TAG标签:#专题 #统计数据 #