从统计抽样的角度讲,这些数据因其未遵循概率抽样原则,因此可能不具有很好的代表性

  • A+

从统计抽样的角度讲,这些数据因其未遵循概率抽样原则,因此可能不具有很好的代表性。但是统计学也告诉我们,当样本量迅速增加时,样本对总体的代表性会自然增加(虽然相应的增幅会越来越小)。而大数据时代的一个显著特征就是海量数据,其数据量在理论上甚至可以逼近整个总体数据,如网民留下的网络行为数据。此时,人们会惊讶地发现,他们面对的不再是精巧设计之下的抽样样本,而是开始接近于研究总体的完整数据。

 更重要的是,在小数据时代,样本只能对总体的一致特征具有代表性,而无法覆盖到各种亚群体的罕发事件(小概率事件)。随着大数据的出现,丰沛的数据量使研究者几乎可以将数据集任意细分到任何所关心的维度和深度,而仍然有充分的样本信息可被利用。这使得分析结果显然比小数据时代有了更好的代表性。

 除了充沛的数据量之外,数据的多维度也使其代表性进一步增强。当不同来源的数据彼此孤立时,可能并无任何分析价值。但是,当它们能够通过某些关键点(如个体ID)连接起来时,实际上就会从更多的侧面对目标个体或群体进行立体画像,使基于这些维度对相应目标的推断更准确。

 数据的代表性还体现在数据能够被多次重复使用。历史数据实际上就是对个体某种行为规律的记录,这些数据在采集时可能并无其他用途,但是累积到一定程度,特别是在和其他维度的数据相结合时,就可能揭示出更深入的用户信息。例如,移动电话运营商的数据库中会自动基于基站“握手”信息收集到用户的位置信息,这些数据当时只是用来传输电话信号,并无其他用途。但是,当它积累到一定程度时,显然就会揭示出该个体的日常行动规律。如果再进一步结合其通话业务量、通话行为特征等数据,就能够更加精确地定位出用户的消费特征,从而可以被一些发布个性化位置广告服务和促销活动的公司再次利用。事实上,滴滴打车等公司之所以要砸下几亿元来争抢用户出行的入口,其核心目的也就是为了获取这些有价值的用户行为数据。

莱特币是什么? 

莱特币(Litecoin,简称LTC)诞生于2011年11月9日,创始人是李启威。这是一种基于“点对点”(Peer-to-Peer,PTP)技术而出现的网络货币,也是MIT/X11许可下的一个开源软件项目,能够帮助用户即时付款给世界上任何人。 

莱特币的设计基于比特币协议,不同于比特币的地方是:即使是在现阶段,通过消费级的硬件也能高效地挖矿。莱特币提供了更快速的交易确认(平均2.5分钟),使用基于Scrypt(一种加密算法)的挖矿工作量证明算法,面向多数人使用的普通计算机和图形处理器(GPU)。莱特币设计目的之一是提供一种挖掘算法,使它能在挖掘比特币的机器上被同时运行。 

随着为挖掘比特币而设计的专用集成电路(ASIC)逐渐兴起,莱特币也不断进行着演变。但在莱特币被广泛应用之前,不太可能出现专门为莱特币设计的专用集成电路。 

莱特币的交易原理是:由一个类似比特币的点对点网络,通过Scrypt工作量证明方案来处理莱特币交易、结余和发行。莱特币的总量是比特币的4倍,共8400万个;产量减半时间和比特币一样都是4年;共识机制和比特币一样都是工作量证明机制;区块时间为2.5分钟,是比特币用时的1/4,每2.5分钟打包一个区块;区块奖励最早是50个莱特币,截至2018年1月,莱特币区块奖励为25个莱特币,发行量约为5400万个。


weinxin
扫码关注
了解更多内容
免费领取10套量化交易策略

发表评论

目前评论: