用户名: 密码: 验证码: 验证码 注册
用户名:密码:验证码:注册
繁體瀏覽
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

 

信息公开详情
大数据时代下的统计创新

发布时间:16-10-31    浏览次数:454 

索引号014036055/2016-00307生成日期16-10-31公开日期16-10-31
文件编号公开时限长期公开
发布机构惠山区统计局公开形式网站,文件
公开方式主动公开公开范围面向全社会
有效期长期公开程序部门编制,经办公室审核后公开
主题词(一级)综合政务主题词(二级)文秘工作
关键词汇报,报告,文件,公文体裁报告
文件下载 

 

 内容概要:

 

一、何谓大数据,何谓大数据时代

大数据话题正被人们在不断传播,一个大规模生产、分享和应用数据的时代正在开启,他将逐渐成为社会基础设施的一部分,像公路、铁路、水电一样不可或缺,他是一次重大的时代转型,就像我们能用望远镜探索宇宙,能用显微镜研究微生物一样,他正在改变我们认识这个世界的方式,而且更多的改变正蓄势代发。在这种快速变革下统计工作如何适应时代发展需求,如何结合新数据发展变化趋势,如何利用大数据进行统计分析就成了必要课题。

二、大数据时代统计与传统统计的差异

大数据时代的到来为今后的统计数据采集、统计工作开展开辟了一个新的契机,但同时对传统统计工作方式也是一个全新的挑战,要找寻两者的平衡和谐首先要清楚的意识到两者的不同特点。

1、数据采集方式显著不同。大数据由于其产生的环境决定了其数据来源的特殊性,这是互联网时代下的一种特殊产物,伴随着互联网、搜索引擎这些新型事物的出现,大数据概念逐步产生,大数据运用被逐步认可并广泛运用。而传统统计工作的数据采集主要是靠各个统计系统内的数据上报以及一些特定的调查进行数据采集。由于数据采集方式和来源的差异,大数据存在更多的不确定性,数据的提供者是模糊未知的,而统计数据的提供者是确定的。

2、数据采集量与质的显著差异。除了数据采集方式外,统计数据和大数据的数据采集量与质也产生了明显差异。一是样本大小的不尽相同。传统统计除了固定的普查外,其余大多数据采集是采用抽样调查及调查推算的方式,而大数据时代的数据却是全样本数据采集。二是样本间采集关联度不尽相同。传统统计更注重采集数据的因果关系,讲究数据的连贯性、因果性,而大数据时代下的数据采集不再热衷于寻找数据的因果关系,有些数据的产生从表面看可能无任何联系,但其结果却有一定的关联甚至相关,这些数据都可放入一个样本框进行对比分析以求得到想要的答案。三是样本的随机性更大。传统统计下的数据采集具有一定的特定性,有数据采集的特定目标、特定对象、特定范围、特定指标,而大数据下的数据采集打破了这种常规,在数据采集归纳前是没有特定目标、特定对象、特定范围,更没有明确的指标,只有等到数据产生并采集到一定量之后才能看出被采集数据的一些特性。

3、数据处理要求不同。大数据时代下的数据处理与传统意义上的数据处理相比可谓有了质的变化。一是数据由因果关系向相关关系的转变。人们对数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度决定了数据最后价值的关键。人们越来越关注数据产生得出的结论而忽略数据产生的原因,这就要求我们在处理分析数据的时候更多的把握数据间的相关关系而非因果关系。二是数据处理更多的运用预测的概念。以往传统的数据处理基本都对已发生的数据作出分析判断,得出结论,对于未发生的数据最多采用推算的方式进行分析,而大数据时代完全颠覆了这样的思维方式,他更倾向于对未知数据的预测,他让数据成为了有价值的公司资产、重要经济投入和新型商业模式的基石,一切数据都有被预知的可能性,我们已经进入了一个用数据进行预测的时代,而这个预测结果会影响众多个体及群体的行为导致不确定事件的确定发生。三是数据处理的精准要求被降低。传统意义上的数据处理必须是精准或接近精准的,我们一直以误差率最小为数据处理的基本要求,而大数据时代的数据处理由于样本量的无限放大,数据处理的速度要求的不断提高,数据本身变得不再精准 ,同时我们对数据处理的要求也变得不需要那么精准,甚至有时候误差率的出现更有利于对结果的预测。

三、大数据时代下对统计与数据的误读

大数据时代产生数据对个人的影响远大于对群体的影响,随着人们越来越融入这个数据时代,被各种数据分析包裹,让大多数人在认识上也出现了混淆与偏差。

误读之一认为大数据就是统计。最近网络上流行一个词汇对照表,罗列出我们一些生活中经常用到的词汇已经被现代网络语言所替代,或者是被一些新颖词汇所替代,其中有个词汇就是统计被大数据所替代,个人觉得这完全是一种误导误读。大数据统计只能是统计方法的一种,不可能也不应该替代统计的宽泛含义。无论从数据来源还是数据分析直至数据产生,两者之间都不存在替代关系,而这个词汇表却反映出当下很多国民的一个解读误区,急需被纠正。

误读之二认为大数据比统计更精准。很多公众会觉得大数据由于采集的数据量大,自然就产生的数据结果更精准,殊不知统计数据与大数据采集下产生的数据两者在数据特性上存在很大差异,事实上统计数据更严谨更精准,只是因为其数据范围有限、公开程度有限使得形成了误读。但并不是说大数据就不准确,不能反映客观事物,事实上很多时候传统统计不能解决的问题也确实要靠大数据进行分析,如何让公众更清楚的认识到两者的关系与差别就尤为重要。

误读之三认为大数据比统计更有时效。我们传统统计数据都在规定的时点才对外公布,从上报到汇总、数据分析、数据公布都有一定的时间限制,而大数据在数据统计上更随时随地,这就给公众造成一种假象,认为大数据比传统统计更有时效,其实不然。解读一大数据虽然数据产生较快,但是同时数据的失效更快,其在产生的同时数据基础已经发生了变化,从而导致了其数据的时效性更短。解读二传统统计数据虽然是在固定时间才统计、分析、汇总及发布,但其具有一定的时间段特征,反映了被调查对象在一定时期内的活动状况,数据基础相对稳定,并且数据具有一定的连续性。正因为公众并不了解这些,因此也导致了对数据的理解误区。

四、大数据下的统计创新发展

1、建设数据中心,实现大数据与传统统计数据相结合分析。

充分发挥市场在资源配置中的决定性作用,进行顶层设计和统筹协调,通过全国大数据中心的建立,在传统统计的基础上,运用云技术,采集建设、公共安全、产业信息、公共信息等各种平台,推动大数据在产业规划、科技研发、社会保证、公共服务、公共安全等各方面的作用。将大数据与传统统计数据进行结合分析,即可在宏观上进行分析规划,又可纠正数据的偏差性,同时对现有统计数据还起到一定的监测评估作用。

2、建立共享机制,推动大数据与传统统计数据的有序开放共享。依托大数据中心的建设,整合各类云平台数据与传统统计数据,对数据进行分类、汇总、分析、过滤,逐步分阶段、分层次的进行有序开放。第一步实现政府部门数据的共享,通过共享解决部门间数据不一致、不公开、不协调等问题,通过共享完成地区间、地域间的数据口径统一、时适监测。第二步实现公共数据资源的开放共享。对于涉及民生保障、公共服务、民众关注度高的数据进行及时公开,在公开数据的同时,要公开信息来源、数据产生依据、数据可能产生的偏差、误差等信息,以免公共误解误读。第三步推进大数据在社会治理与公众服务中的运用。建立健全数据调节体系、评估体系,设立新形势下的信用体系,将产生的数据直接用于评估、监管、检测以及处罚的依据。同时建立健全服务信息数据系统,提高数据在交通、旅游、医药等公共服务、公共保障方面的运用,打造智能化、和谐化城市。

3、培育数据产业链,探索大数据与统计调查服务外包。依托现有互联网、物联网、信息服务等产业基础,将数据存储、数据开发和数据应用形成完整产业链,探索第三方数据分析服务、技术外包服务,深化大数据在各行业的创新应用,发展数据软件业。在保证数据安全的前提下,将统计调查中社会属性部分进行分离,结合大数据调查特性,充分利用服务外包,加快数据处理速度,提高数据利用率,打造数据产业链。

 

 
 
进入编辑状态