还剩16页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据如何启迪未来培训资料也就是这一两年的光景,我们在朦胧之中仿佛己经进入了一个言必称“大数据”的时代就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活与懂得世界的方式成为新发明与新服务的源头而更多的改变正蓄势待发大数据激发了一场思想风暴,导演了一场思维变革大数据正往常所未有的速度颠覆人们探索世界的方法,引起社会、经济、学术、科研、国防.、军事等领域的深刻变革执迷于精确性已然成为信息缺乏时代、模拟时代的产物;同意不精确、宽容混杂性将不可尽力避免,而是被证明的标准途径那些总是爱追因溯源、刨根问底的人们或者许会被遗弃,由于大数据时代里由果追因已经是明H黄花的“伎俩”,只要“是什么”“不要问我为什么”成为了最佳答案由于数据呈现的有关性己经能够满足大部分人的认知需求,而透过大数据现象挖掘事物本质,个中成本(时间、物质)也不是深谙博弈之道的人们所愿担负的数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大进展趋势数据资产成为与土地、资本、人力并驾齐驱的关键生产要素围绕数据资产,一幕幕跌宕起伏的产业大戏已经上演本文就将带您去深入熟悉“大数据”概念,带领您去领会大数据时代的“造化”为您送上一颗“子弹”,引发您的“头脑风暴”,覆灭您的保守之心,怠慢之气!大数据引领人类数据生成方式步入高级阶段数据生成的“自主时代”人类历史上从未有哪个时代与今天一样产生如此海量的数据数据的产生已经完全不受时间、地点的限制从开始使用数据库作为数据管理的要紧方式开始人类社会的数据产生方式大致经历了三个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生首先是运营式系统阶段数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所使用,作为运营系统的数据管理子系统比如超市的销售记录系统,银行的交易记录系统、医院病人的医疗记录等人类社会数据按指令在云端运行的数据分析除此以外,谷歌还坐拥人们在谷歌网站进行搜索及通过其网络时所产生的大量机器数据用户所输入的每一个搜索请求,都会让谷歌明白他在寻找什么,所有人类行为都会在互联网上留下痕迹路径,而谷歌占领了一个绝佳的点位来捕捉与分析该路径不仅如此,谷歌在搜索之外还有更多获取数据的途径企业安装“谷歌分析GoogleAnalytics”之类的产品来追踪访问者在其站点的足迹,而谷歌也可获得这些数据网站还使用“谷歌广告联盟GoogleAdsense”,将来自谷歌广告客户网的广告展示在其站点,因此,谷歌不仅能够洞察自己网站上广告的展示效果,同样还能够对其他广告公布站点的展示效果一览无余将所有这些数据集合在一起所带来的结果是企业不仅从最好的技术中获益,同样还能够从最好的信息中获益在信息技术方面,许多企业可谓耗资巨大,然而在信息技术的构成部分之信息领域,谷歌所进行的庞大投入与所获得的巨大成功,却罕有企业能望其项背大数据时代的急先锋一一亚马逊谷歌并不是惟一一个推行大数据的大型技术公司互联网零售商亚马逊已经采取了一些激进的举动,令其有可能成为谷歌的最大威胁曾有分析者预测,亚马逊215年营收将超过100亿美元,它马上赶超沃尔玛成为世界最大的零售商如同谷歌一样,亚马逊也要处理海量数据,只只是它处理数据带有更强的电商倾向消费者们在亚马逊的网站上对想看的电视节目或者是想买的产品所进行的每一次搜索,都会让亚马逊对该消费者的熟悉有所增加基于搜索与产品购买行为,亚马逊就能够明白接下来应该推荐什么产品而亚马逊的聪明之处还不止于此,它还会在网站上持续不断地测试新的设计方案,从而找出转化率最高的方案中国大数据企业领跑人还是追风者?阿里巴巴大数据二产业资本近年来,中国的大数据企业如雨后春笋般兴盛起来,百度等大数据巨头与各专门大数据公司引领“风骚”而最为可贵的是,在如同阿里巴巴等企业里,己经实现了数据的资产化,我们不得不佩服马云的前瞻性2009年9月,阿里巴巴集团就投资设立阿里云计算有限公司,在杭州、北京与硅谷等地设有研发中心与运营机构阿里云的目标是要打造互联网数据分享的第一平台,成为以数据为中心的先进的云计算服务公司在20n年,阿里巴巴收购了流量统计技术服务提供商CNZZ意味着阿里巴巴在其电子商务产业链整合布局上又完成关键性一步CNZZ是由IDG投资的网络技术服务公司,专注于为互联网各类站点提供独立的第三方数据统计分析同时,CNZZ拥有互联网数据采集、统计与挖掘三大技术,从事互联网数据监测、统计分析的技术研究、产品开发与应用能够说,在大数据时代,阿里巴巴下了一盘很大的棋将大数据与商业投资紧密结合,也是阿里巴巴的强项所在比如近期成立小微金融集团,为商家与用户提供支付、小贷、担保及保险业务其中,最为人传道的是被金融界人士称之“虚拟信用卡”的“信用支付”,它是阿里巴巴面对网上个人买家的个人消费金融信贷服务产品,而授信的基础便是庞大的用户交易数据支付宝平台将根据用户交易数据,对用户进行授信,信用额度可用于在淘宝等购物支付,用户需要在还款日之前进行还款,最长能够获得38天免息期一一这也意味着,支付宝的“虚拟信用卡”确实来了按照阿里金融设计的“信用支付”商业模式,通过数据来确定买家信用支付额度,合作银行通过支付宝来授信,阿里巴巴成立的商诚担保公司将为买家的“信用支付”做担保,买家在手机支付时可使用自己的“信用支付”额度购物,合作银行把钱支付给卖家支付宝从合作商家那里抽取照的“信用支付”服务费虚拟信用卡与大数据的融合,产生了重大的影响一些银行界人士已经开始担心由于阿里巴巴集团拥有的庞大客户群与宝贵的数据库,阿里“虚拟信用卡”可能构成对银行信用卡的竞争,对传统银行造成冲击对此,笔者认为这是一个不可避免的趋势,唯一能够做的就是把它规范化、制度化紫光股份大数据企业的并购者2013年7月,启迪控股旗下的紫光股份公布公告称,公司拟通过向特定对象非公开发行股份及支付现金方式购买能通科技股份有限公司与深圳市融创天下科技股份有限公司100%股份,并募集配套资金紫光股份此次借助资本市场一举并购两家有关公司,在云计算、IT运维服务、移动互联网应用与大数据处理方面将取得先发优势能通科技股份有限公司致力于重点行业信息化解决方案与公共安全信息管懂得决方案公司进展方向涉及云计算、智慧城市等领域,业务领域涵盖IT运维及IT基础设施服务及智慧城市等重点行业信息化解决方案、数据中心基础环境建设等有关服务,是国内领先的IT服务提供商深圳市融创天下科技股份有限公司是国内领先的移动互联网平台服务提供商以国际领先的核心技术、核心技术产品化与移动互联网运营为突出优势,成为提供移动互联网多媒体平台应用服务的领先企业,是国家级高新技术企业融创天下在2009年入选号称“硅谷圣经”与“投资风向标”年入Herring》(红鳞鱼)杂志最具投资价值企业全球100强;在2008年NOKIA组织的全球MOBILERULES大赛中,入围全球核心科技类最强十二名,是流媒体领域唯一一名同时为中国区唯一一名公司己形成移动多媒体运营、移动互联网运营平台能力输出、三网融合硬件终端产品研发与销售的三大业务体系公司6年持续投资超过3亿在移动互联网底层核心技术的研发上,具有国内及国际技术发明专利上百项,形成了以T
3、TIVC与TMCM云计算中间件三大核心技术的移动多媒体技术体系,已成为具备技术优势、平台产品优势与运营优势、商业模式创新优势的综合性新锐企业紫光收购案事实上宣示了企业进展的一种新走向,大数据不光作为一种产业将大放异彩,也将成为科技企业的中枢板块田溯宁(宽带资本董事长)说:“正像人类几百年前在大航海时代,发现、征服海洋,寻找到新大陆的机遇一样我们突然身处过去无法想象的数据海洋,通过征服这个数据海洋,能够抵达人类知识的新边疆”“未来企业将都会是数据驱动的企也,不管你处于什么行业企业规模大小”,王京文(用友软件股份有限公司董事长兼CEO)如是说王明夫(与君咨询董事长)预测“传统产业、各行各业,都面临在大数据与移动互联网时代如何完全转型与再造问题我喊了十儿年的产业整合,也在大数据时代出现了全新的整合逻辑与实现契机”大数据技术改变了信息的生产、传播、加工与组织方式,打破了传统的信息不对称与物理区域壁垒,对各业界的生存环境与方式带来了显著的影响大数据专家赵国栋、易欢欢、糜万军、鄂维南在共同著述《大数据时代的历史机遇-产、业变革与数据科学》一书中宣称“缺少数据资源,无以为谈产业缺少数据思维,无以言未来数据的积存、挖掘、分析、归纳、整理.,是一只优秀团队所务必具备的基本素养,没有它,你永远是匹夫之勇”因而数据思维与数据资产在未来的重要性不言而喻“紫光1000”全球首台“云计算机”2013年12月10H启迪控股旗下紫光股份有限公司在京召开“紫光股份云服务战略暨紫光云计算机”公布会会上,紫光股份总裁齐联公布了公司的“云服务”战略,率先提出“云计算机”的概念,同时推出了拥有自主知识产权的全球首台“紫光云计算机二紫光股份将“云计算机”定义为使用与个人计算机与超级计算机完全不一致的分布式体系架构,借助于云计算的虚拟化技术,由多个成本相对较低的计算资源融合而成的一台具有强大计算能力的计算机它可高效支持大数据处理、高吞吐率与高安全信息服务等多类应用需求,其计算能力与存储能力可动态伸缩并无限扩展紫光云计算机有着广阔的应用前景,可满足金融、电信、公安、交通、卫生、广电等大数据行业用户提出的高性能、低成本、高可靠性与高可扩展性的要求,也将促进信息技术在物联网、智慧城市、智能电网、智能交通、智能医疗、食品安全等大数据应用领域的广泛应用比如,按“平安城市”建设要求,一个中等城市的视频监控数据量为300PB/年,用一台紫光云计算机可在储存三个月监控记录的同时,对所有数据完成处理紫光股份在云计算领域已具备了一定的技术与产业基础2012年,在工信部的大力支持下,紫光股份与南京市秦淮区合作,联合实施“紫云工程”,在南京市中国云计算创新基地建立了云信息服务产业创新中心中心是集云计算、大数据新技术研发、科技成果转化、培养新兴产业、人才培养为一体的产业化创新基地,将为区域内的智能电网、新兴通讯、智能交通、物联网、智慧城市、电子商务、移动互联提供云计算的SPISaaS.PaaSlaaS服务目前“紫云工程”已取得阶段性重大成果,“紫云工程”被工信部命名为“新秦淮模式”,标志着紫光股份在云计算及大数据产业创新方面已达到国际领先水平紫光云计算机的研制成功,标志着紫光股份已在分布式计算、虚拟资源管理与快速部署等云计算核心技术领域取得重大突破,掌握并拥有自主可控的云计算技术体系与成套软硬件系统,使我国的云计算核心产业达到了国际先进水平,为云计算在我国信息化建设中发挥重要作用奠定了坚实的技术与产业化基础同时,其开放式平台能够使国产CPU等核心硬件与基础软件有机会在大数据时代发挥出与国外同等产品相当的性能,从而带动我国信息产业国产化水平的大幅提高,为保障国家信息安全发挥重要作用数据思维与数据资产大数据思维的重要性远远超过数据资产,具备大数据思维,才能够积存数据资产;不具备大数据思维,则可能弃珍宝如敝履公司最重要的是建立大数据思维,而非仅仅盯住数据资产优秀的数据思维,必定反映在优质数据资产人们难以定量评价一个人的数据思维,因此只好退而求其次,关心在数据思维的影响下,数据资产的优劣根据《大数据时代的历史机遇-产业变革与数据科学》一书,数据资产的价值能够从五个维度来评估,分别是规模、活性、多维度、关联性、颗粒度这五个维度,没有绝对的数值能够参考,而且具体到每个行业是完全不一致的数据资产的“五维”所谓颗粒度指标反映数据的精细化程度那些宏观的数据,价值含量较低相反那些细化到个人、单品的数据,才会带来前所未有的洞察力,这也是与精细化管理的思想紧密有关的颗粒度是反映数据资产质量的第一个维度细化到个人、单品,个别网络、门派、零件,夸张的说一粒沙子,也要清清爽爽地记录下它的位置、大小、重量,甚至,由于风吹浪打漂流的痕迹不要忘了“一沙一世界,一花一天堂二多维度指标借用空间维度的概念,来指代数据来源的丰富性每增加一个数据维度,会影响所有用原数据的分析与推断,甚至会带来颠覆性的证据我们以美国的FICO信用评分机制(由美国个人消费信用评估公司开发出的一种个人信用评级法)为例,几乎每个美国人都有一个FICO信用评分,当人们申请信用卡、汽车贷款、住房贷款时,大多数的信贷机构会参考这一评分但是,在其进展的初期,FICO模型中,仅仅依靠申请人在现有住址住了多久、为现在的企业工作了多久、申请人账号开设了多久等数据根据这个评估,几乎所有30岁下列的人,都会存在很大的风险现在人们明白淘宝上的购买主力,恰恰是以年轻人为主因此零售商们群起反对,这些条款限制了发卡人数,不利于刺激消费当FICO增加了评估数据的维度后,譬如纳入教育水平、职业等指标,那些受到过良好教育、从事风光职业的人,也就获得了信用卡事实证明,他们的违约率极低在多维度指标中,人们特别重视一类“先验”维度比如,人们在买股票的时候,一定先观察一只股票的行情走势;人们在购商品的时候,一定会对比与询价互联网有助于把这些数据收集起来,进行分析,从而预测未来人们是否会买入股票或者者商品活性指标的命名,带有感性的色彩其原意是指生物体内发生的生理过程或者处于活动的状态或者属性数据的活性,指代数据被更新的频次频次越高,活性越大FACEBOOK公司2012年10月,庆祝月度活跃用户超过10亿个这里的活跃用户与数据的活性紧密有关股民对换手率指标非常熟悉,换手率标志股票交易是否活跃,成为推断股价走势非常重要的指标新浪微博的数据,无疑是最具活性的数据之一,表达出实时的价值利用微博数据,进行实时的精准营销,是许多公司孜孜以求的目标规模指标最容易懂得没有“量”的积存,就没有“质”的突破数据量的增长,即是数据规模的扩大但是到底有多大规模,才能算是“大”数据,的确是各行各业都很关心的问题譬如互联网应用,假如没有1000万个A股账户,那绝对是呼风唤雨的“老大”规模这个指标很重要,但不需要执着于此指标不一致行业,不一致的业务,对规模的定义完全不一致数据思维要先于数据规模关联度指标反映不一致多维数据的内在联系之因此把关联度拿出来单独讨论,要紧原因就是同一企业内部存在大量的“孤岛”现象,不一致部门之间积存的数据无法融合,形不成合力关于数据思维与数据资产的运筹,《大数据时代的历史机遇■产业变革与数据科学》给出了建议“
(一)天下武功,唯快不破工越快地处理数据,越早地获取信息,就会越及时地做出商业选择
(二)更多的数据来源,比更多的数据量更重要这也是为什么数据资产评价模型中,要把关联性与多维度作为重要指标的原因
(三)数据量含多种信息,取决于观察视角不要由于短期内没有用途而随意丢弃
(四)面对数据量指数般的增长,要早作打算
(五)大数据不是核心问题,要聚焦于业务进展,善于从大数据中挖掘利于业务进展的信息
(六)分享,而非保密数据在流淌中增值流水不腐,户枢不蠹”数据科学家大数据作为资产,其搜寻、识别、筛选、组合等等工作的强烈专业性不言而喻,这就需要专业的大数据人才,特别是数据科学家另外,大数据本身也给科学与教育事业进展提供了前所未有的机会它将对现有的科研与教育体制、科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革用数据来研究科学,科学地研究数据数据科学的兴起与进展,将深刻改变人类探索世界的思维与方法中国科学院院士、美国普林斯顿大学教授鄂维南强调”数据科学将达到与自然科学分庭抗礼的地位J数据科学要紧包含两个方面用数据的方法来研究科学与用科学的方法来研究数据前者包含生物信息学、天体信息学、数字地球等领域后者包含统计学、机器学习、数据挖掘、数据库等领域这些学科都是数据科学的重要构成部分但只有把他们有机地放在一起,才能形成整个数据科学的全貌而我们需要的数据科学人才应该具备两方面的素养一是概念性的,要紧是对模型的懂得与运用;二是实践性的,要紧是处理实际数据的能力培养这样的人才,需要数学、统计与计算机科学等学科之间的密切合作,同时也需要与产业界或者其他拥有数据的部门之间的合作目前还没有任何一所高校具有这样的平台大数据时代的中国梦取舍之道大数据时代的域外空间不容忽视的是,人不仅是信息、数据的使用者,还是生产者有关我们的信息,有些是我们自身愿意让他人熟悉、共享的,也有很多不乐意公之于众的隐私信息但大数据体系本身,不考虑个体乃至群体是否愿意分享,而是自动自发的吸纳着所有能够吸纳的数据一个人能够通过搜索引擎,查知心仪对象的底细,也将成为被搜索对象,用人单位人力资源专员很可能通过他(她)的微博获悉简历之外更为真实、暴露出更多缺点的一面,甚至会由于几张搞怪照片就认定他(她)是一个轻浮的人,而做出拒绝录用的决定同样,而今的企业已经不能通过公关传播等包装手段,来塑造所谓的完美形象;只要有过违法记录、违反社会责任履行要求的记录,就将持续付出形象代价有趣的是,与《大数据时代》形成参照,揭示大数据时代带给人的负面影响的另一本书《删除大数据取舍之道》,也出自维克托•迈尔-舍恩伯格之手《删除大数据取舍之道》开篇即阐释了大数据时代带来的隐私非隐的问题,指出,“数字技术已经让社会丧失了遗忘的能力,取而代之的则是完善的经历……Google对我们的熟悉比我们自己能够记住的还要多”维克托•迈尔-舍恩伯格提醒指出,人们之因此能够结成群体与社会,是由于同意一定范畴的共同信息,从而形成共享经历与共同情感;如若而今及以后变得不可能遗忘、不可能对信息作出范畴限制,共享经历与共同情感及其提供的基础作用就会消失非但如此,大数据体系、数字化经历还可能造成对公民的全景操纵,进一步强化社会等级,巩固并加深现有的不平等的信息权力分配《删除大数据取舍之道》书中提出了对大数据体系、数字化经历负面性的六种可能计策数字化克制、保护信息隐私权、建设数字隐私权基础设施、调整人类的现有认知、打造良性的信息生态、完全语境化“数字化克制”指的是人作为信息社会的主体,要积极发挥能动性,在洞察到放弃“遗忘”的潜在影响后,审慎操纵过多的个人信息对外公布当然,这需要就此作出一种艰难的权衡抉择积极分享个人信息毫无疑问能够为我们带来诸多便利,操纵信息分享会减少部分便利保护信息隐私权、建设数字隐私权基础设施、打造良性的信息生态,需要政府及互联网行业、法学界等方面加强协商信息隐私权最基本的形式是给予个人选择是否共享信息的权利,严禁任何其他个人或者组织在法律许可与信息所有者许可之外,滥用个人信息尽管对“信息隐私权”这个概念的界定,必定将引起较大争议,但唯有通过广泛讨论,方能为共识的取得制造可能在此基础上,政府应建设数字隐私权基础设施,并推动有关的立法进程郭贺铿还指出应尽快制定《信息公开法》“现在很多机构与企业拥有大量客户信息应当既鼓励面向群体、服务社会的数据挖掘,又要防止侵犯个体隐私;既提倡数据共享,又要防止数据被滥用”他认为,需要界定数据挖掘、利用的权限与范围,防止信息被损坏、篡改、泄露或者被窃,保护公民的信息安全所谓“调整人类的现有认知”、“完全语境化”,指向的是数字化、互联网时代信息存储及形成经历中容易被忽视的两大缺陷无法被数字化存储的信息被忽视,能够被数字化的信息(数据)在被提取利用时会脱离原有语境,形成新的数字化偏见大数据时代的“规律”与“规范市场规律与国家使命2013年9月30日上午,在中华人民共与国64周年国庆前夕,中共中央政治局以实施创新驱动进展战略为题举行第九次集体学习这次中央政治局集体学习走出中南海,把“课堂”搬到了中关村,采取调研、讲解、讨论相结合的形式进行期间,百度创始人兼CEO李彦宏作为创新企业代表向中央政治局讲解了信息技术领域的前沿课题一一大数据的进展情况“李彦宏的稿子,据说改了很多次”一位接近百度的人士说,“要在短短几分钟里讲清晰大数据,并不容易”李彦宏所讲的主题是“大数据”,这是百度与中关村管委会一起反复沟通多次才决定的在众多话题中,大数据能实现什么样的未来这个话题,吸引了中央高层的目光在讲解中,李彦宏认为大数据有两个重要价值,一是促进信息消费,加快经济转型升级;二是关注社会民生,带动社会管理创新我觉得这两点恰好说到了常委们的心上,经济社会进展是执政的不变要务,一家商业公司,不仅关注经济进展中浮现的商业机会,还能把为社会制造价值放在与商业利益同等位置,十分难得当然,大数据还有一些其他很重要的价值,李彦宏并没有说,时间关系抓住重点说说就行了,李彦宏要紧想讲的,是后面的情况互联网评论家葛甲指出“数据开放在割据状态的互联网上靠企业的力量是完不成的,只有从政府层面去进行推动现在做大数据的公司这么多,事实上多数只有个壳子,没有实际内容大数据的基础是巨量数据,不具备一定程度的数据量,是做不成的」当然,由BAT三家垄断去做大数据,也不太公平,小企业总要有些出头机会的因此,李彦宏提出了数据开放这个概念假如数据开放了,对大数据的进展当然是好事,各家企业把数据汇合在一起真正形成大数据后用以造福社会,但其中的商业利益如何保证,是个问题让一家或者几家公司去掌握这个资源,显然不能服众,但是让百度与腾讯这些企业牵头去做这件事,还是靠谱的既然李彦宏提出了数据开放这个概念,百度本身就已经做好了开放自身数据的准备,这是个积极姿态未来有可能的进展模式,是由国家牵头设立大数据中心,由几家有能力的企业各自派出技术力量,在高度保密性与公正性的基础上,对大数据的应用进行研发这种将数据化整为零的模式,有可能成为中国互联网摆脱落后局面的良机这里面的难处,在于配套的管理制度与法律法规政府的作用就是保护其公平性坚决保护小企业的商业利益,扮演好管理者与仲裁者的角色,不要让自身经济利益牵涉其间当然,让政府对大数据重视起来,并给出资源与政策加以扶持,还有很多难以言说的好处大数据开发出来总是要有人去用的,政府、企事业单位,经济实体等,这有个用户教育与习惯培养的过程有数据有技术还不够,还要有市场,才能把大数据成果投放出去,利用市场运行过程对其进行不断完善,才能形成良性循环的生态未来中国互联网的一个大趋势是开放,固步自封,过度考虑一亩三分地的时代马上过去了在常委们此次走群众路线的集体学习活动中,李彦宏把这个意思融合在了讲解过程里,常委们一定是听明白了葛甲认为,数据开放“这里面的难处,在于配套的管理制度与法律法规,政府的作用就是保护其公平性,坚决保护小企业的商业利益,扮演好管理者与仲裁者的角色,不要让自身经济利益牵涉其间二信息产业专家、中国工程院院士郭贺铿今年在一篇名为《大数据时代的机遇与挑战》的文章中也写道“中国人口居世界首位,将会成为产生数据量最多的国家,但我们对数据储存不够重视,对存储数据的利用率也不高此外,我国一些部门与机构拥有大量数据却不愿与其量第一次大的飞跃正是建立在运营式系统开始广泛使用数据库开始这个阶段最要紧特点是数据往往伴随着一定的运营活动而产生并记录在数据库中的,比如超市每销售出一件产品就会在数据库中产生相应的一条销售记录这种数据的产生方式是被动的然后是用户原创内容阶段互联网的诞生促使人类社会数据量出现第二次大的飞跃但是真正的数据爆发产生于Web
2.0时代,而Web
2.0的最重要标志就是用户原创内容UGCUserGeneratedContento这类数据近几年一直呈现爆炸性的增长,要紧有两个方面的原因首先是以博客、微博为代表的新型社交网络的出现与快速进展,使得用户产生数据的意愿更加强烈其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便利这个阶段数据的产生方式是主动的而今,我们进入了感知式系统阶段人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段这次飞跃的根本原因在于感知式系统的广泛使用随着技术的进展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛的布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控这些设备会源源不断的产生新数据,这种数据的产生方式是自动的简单来说,数据产生经历了被动、主动与自动三个阶段这些被动、主动与自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因正如Google的首席经济学家HalVarian所说,数据是广泛可用的,所缺乏的是从中提取出知识的能力数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中从“池塘捕鱼”到“大海捕鱼”“大数据时代的预言家”维克托・迈尔-舍恩伯格ViktorMayer-Schnberger在其所著的《大数据时代》一书中就阐释所谓“大数据”的含义,即不仅人类生产与生活中“有意义”的信息海量产生,相比以往呈几何数级的爆炸他部门共享,导致信息不完整或者重复投资政府应通过体制机制改革打破数据割据与封锁J还有一位业界专家告诉记者,政府对大数据行业的扶持,除促进数据公开外,应使用购买服务的方式,而非越俎代庖,设立不必要的政府项目“(大数据)标准与产业格局尚未形成,是我国实现跨越式进展的宝贵机会”哪贺铿说,“要注意科学规划,切忌一哄而上式增长,“无意义”的数据的膨胀速度也同样惊人;而且,政府、企业已经具备了全面采集“大数据”并予以无遗漏分析的技术能力大数据本身是一个比较抽象的概念,单从字面来看它表示数据规模的庞大但是仅仅数量上的庞大显然无法看出大数据这一概念与以往的“海量数据”MassiveData、“超大规模数据“VeryLargeDala等概念之间郁可区别关于大数据尚未有一个公认的定义,不一致的定义基本是从大数据的特征出发,通过这些特征的阐述与归纳,试图给出其定义在这些定义中,比较有代表性的是3V定义,即认为大数据需满足三个特点规模性Volume、多样性Variety与高速性Velocityo除此之外,还有提出4V定义的,即尝试在3V的基础上增加一个新的特性关于第四个V的说法并不统一,IDC市场研究公司InternationalDataCorporation全球领先之科技产业媒体、研究及活动公司认为大数据还应当具有价值性Value大数据的价值往往呈现出稀疏性的特点而IBMInternationalBusinessMachinesCorporation国际商业机器有限公司认为大数据必定具有真实性Veracity维基百科对大数据的定义则简单明了大数据是指利用常用软件工具捕获、管理与处理数据所耗时间超过可容忍时间的数据集从数据库DatabaseDB到大数据BigDataBD看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别大数据的出现,必将颠覆传统的数据管理方式在数据来源、数据处理方式与数据思维等方面都会对其带来革命性的变化假如要用简单的方式来比较传统的数据库与大数据的区别的话,我们认为“池塘捕鱼”与“大海捕鱼”是个很好的类比“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异这些差异要紧表达在如下几个方面数据规模“池塘”与“大海”最容易发现的区别就是规模“池塘”规模相对较小,即便是先前认为比较大的“池塘”VLDBVeryLargeDatabase与“大海XLDBExtremelyLargeDatabase相比仍旧偏小“池塘”的处理对象通常以MB为基本单位,而“大海”则常常以GB甚至是TB、PB为基本处理单位数据类型过去的“池塘”中,数据的种类单一,往往仅仅有一种或者少数几种,这些数据又以结构化数据为主而在“大海”中,数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构化与非结构化的数据,同时半结构化与非结构化数据所占份额越来越大模式Schema与数据的关系传统的数据库都是先有模式,然后才会产生数据这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”而大数据时代很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中这就好比先有少量的鱼类,随着时间推移,鱼的种类与数量都在不断的增长鱼的变化会使大海的成分与环境处于不断的变化之中处理对象在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象而在“大海”中,“鱼”除了是捕捞对象之外,还能够通过某些“鱼”的存在来推断其他种类的“鱼”是否存在也就是说传统数据库中数据仅作为处理对象而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题处理工具捕捞“池塘”中的“鱼一种渔网或者少数几种基本就能够应对,也就是所谓的OneSizeFitsAIL但是在“大海”中,不可能存在一种渔网能够捕获所有的鱼类,也就是说NoSizeFilsAll从“池塘”到“大海”,不仅仅是规模的变大传统的数据库代表着数据工程DataEngineering的处理方式,大数据时代的数据已不仅仅只是工程处理的对象,需要采取新的数据思维来应对图灵奖获得者、著名数据库专家JimGray博土观察并总结人类自古以来,在科学研究上,先后历经了实验、理论与计算三种范式当数据量不断增长与累积到今天,传统的三种范式在科学研究,特别是一些新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种范式来指导新形势下的科学研究基于这种考虑,JimGray提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第四种范式TheFourthParadigm第四种范式的实质就是从以计算为中心,转变到以数据处理为中心,也就是我们所说的数据思维这种方式需要我们从根本上转变思维正如前面提到的“捕鱼”,在大数据时代,数据不再仅仅是“捕捞”的对象,而应当转变成一种基础资源,用数据这种资源来协同解决其他诸多领域的问题计算社会科学ComputalionalSocialScience基于特定社会需求,在特定的社会理论指导下,收集、整理与分析数据足迹dataprint以便进行社会解释、监控、预测与规划的过程与活动计算社会科学是一种典型的需要使用第四种范式来做指导的科学研究领域DuncanJ.Watts在《自然》杂志上的文章《Atwenty-firstcenturyscience》也指出借助于社交网络与计算机分析技术,21世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学从云计算到大数据如今,大数据的重要性越来越明显,但就与云计算一样,它也不是一个从天而降的新事物,而是在三个要紧因素的驱动下,逐步成长成熟的大数据的驱动力第一个驱动力,就是业界常说的大数据的三个VVolumeVarietyVelocity而这三个V能够有多种解读首先来看看第一个V巨大的数据量与数据完整性IT业界所指的数据,诞生只是60多年而一直到PC普及到千家万户之前,由于存储、计算与分析工具的技术与成本限制,许多自然界与人类社会值得记录的信号,并未形成数据一一几十年前,气象、地质、石油物探、出版业、媒体业与影视业是大量、持续产出信号的行业,但那时90%以上使用的是存储模拟信号,难以通过计算设备与软件进行直接分析那些拥有大量资金与人才的政府与企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中值得注意的是,业界对达到如何的数量级才算是大数据并无定论,事实上在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否完整才最重要第二个V在海量、种类繁多的数据间发现其内在关联互联网时代,各类设备通过TCP/IP网络连成了一个整体进入Web
2.0时代,PC用户不单单能够通过网络获取信息,还成为了信息的制造者与传播者这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多一一从技术角度看,能够称之为结构化数据、半结构化数据、非结构化数据与流式数据2005年,微软亚洲研究院一年一度的“21世纪的计算”大会将主题设定为“DataCentricComputing”,也就是“以数据为中心的计算”,那时业界就已建立了这样的认知价值来自于数据,或者者说,数据一直都是有价值的商业资产一一此前,人们往往过于重视“计算与存储性能的提升”;而从那时起,业界就已更关注“数据分析与处理的效率”——对海量数据进行分析、处理与集成,找出原本看来亳无关系的那些数据的“关联性”,把大概没有用的数据变成有用的信息,以支持我们做出的推断第三个V能够懂得为更快地满足实时性需求如今,通过各类布•线与无线电网络,人与人、人与各类机器、机器与机器之间无处不在的连接,这些连接不可避免地带来数据交换,而数据交换的关键是降低延迟一一要解决数据产生、传输、处理、存储、抽取、分析、可视化等各个环节带来的延时,以近乎实时(这意味着小于250亳秒)的方式呈献给用户如今,数据的实时化需求越来越清嘶用户想驾车去吃饭,先用地图应用查询餐厅的位置、估计行车路线的拥堵情况、停车场信息甚至是其他用户对餐厅的评论吃饭的过程中,他会用手机拍摄食物的照片,编辑简短的评论,公布到微博上,还能够用LBS应用查找在同一间餐厅吃饭的人,看是否具有好友在邻近第二个驱动力,是云计算的普及与成为主流云计算与大数据到底有什么区别?前两年大家都在讲云计算,现在怎么乂变成大数据了?微软全球资深副总裁,微软(中国)有限公司董事长张亚勤对此解释说,事实上,云计算与大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用由于云计算的普及与成为主流,让上述三个V不再成为挑战,反而成为大数据成长的驱动力另一方面由于数据越来越多、越来越复杂、越来越实时•这就更加需要云计算去处理,因此二者之间是相辅相成的举例而言,30年前存储1TB数据的成本大约是16亿美元,如今存储到云上只需不到10()美元;但存储下来的数据,假如不以云计算进行挖掘与分析,就只是僵死的数据,没有太大价值第三个驱动力,是人工智能、机器学习与数据挖掘等技术的迅速进展在这样的背景下,以微软为例,它已经能够为用户提供三个层次的端到端大数据解决方案一一其一是数据管理,即如何获取、存储与保护数据;其二是数据丰富,即如何清洗、发现不一致数据间的数据有关性;其三是,数据洞察力,即通过分析、呈现与决策工具,获得洞察力,并最终通过付诸行动,产生价值通俗的说,就是将信号转化为数据,将数据分析为信息,将信息提炼为知识以知识促成决策与行动归根到底,大数据的最终意义在于获得洞察力与价值,这也正是大数据的第四个VValue这个V比前面的三个V都更重要大数据塑造科技、商业新态势在科技、商业领域,大数据具备极大的想象空间上个世纪七十年代,纽约的治安状况很糟糕一位名叫杰克•迈普JackM叩1c的年轻警察根据个人警务经验,发明了一种名为“未来图表”Chartsofthefuture的犯罪预测方法论,能够根据过往抢劫案的记录数据来推测新案件可能发生的时间与地点这种方法确实有效,1994年,新上任的纽约市警察局局长开发了“未来图表”的电子版将之更名为“CompStat”,推广至全市的警务系统CompStat的技术核心是犯罪测绘系统CrimeMappingSystem与数据库采集系统DatabaseCollectionSystem而微软的MicrosoftM叩Point、AccessExcel等产品为两个系统提供了坚实的支撑一一基于大量的数据采撷、挖掘与分析工作,纽约警察局尝试对历史上犯罪分子的行为规律进行归纳与总结,并有效地改善了城市的治安数据显示,在CompStat得到推广应用后,1995年,纽约的凶杀案发生率降低了约25%车辆盗窃案发生率降低了约24%而且这些数字还随着IT软硬件技术的持续更新与CompStat系统的不断完善而逐年下降未来,透过技术手段完全遏制犯罪行为,让每一个城市与地区的居民时时刻刻都安全无虞一一这或者许不是梦想2012年8月,纽约市长迈克尔•布隆伯格MichaelBloomberg亲手掀开了纽约警察局与微软携手开发的城域感知系统DASDomainAwarenessSystem的面纱该系统将覆盖整个纽约市的300多个监控摄像头、260多枚辐射探测器、几百个车牌信息读取装置所收集的信息汇总到警方数据库中,可结合探测数据、实时影像、911报警电话与警方积存的罪案历史档案,帮助警方更准确地侦测并锁定马上发生的犯罪活动及嫌疑人对商业竞争的参与者们来说,大数据意味着兴奋人心的业务与服务创新机会零售连锁企业、电商业巨头都已在大数据挖掘与营销创新方面有着很多的成功案例,它们都是商业嗅觉极其敏锐、敢于投资未来的公司,也因此获得了丰厚的回报而关于那些拥有行业经验,并熟练掌握云计算开发与应用技能的小型企业,特别是初创企业来说,则更是意义非凡最近几年,我们看到的一些明星初创公司,比如ClouderaSpkmkKloutTellApart等,人员规模只在数十人,但对某个行业拥有深厚知识,并能通过云与大数据的技术手段,快速解决该行业的共性需求与痛点一一在未来数年,这样的“小而精”、“快而准”企业会越来越多,并做出有可能改变世界的颠覆性产品很高兴看到,在北京中关村,在微软的云加速器二期,也有类似的初创企业加入,与硅谷、海法的创业者们一起,把握住了时代的脉搏大数据时代的到来大数据时代的急先锋《纽约时报》把2012年定义为“大数据的十字路口”大数据之因此进入主流大众的视野,源自三种趋势的合力第一,许多高端消费品公司加强了对大数据的应用社交网络巨擎Facebook使用大数据来追踪用户在其网络的行为,通过识别你在它的网络中的好友,从而给出新的好友推荐建议,用户拥有越多的好友,他们与Facebook之间的黏度就越高更多的好友意味着用户会分享更多照片、公布更多状态更新、玩更多的游戏商业网站Linkdin则使用大数据在求职者与招聘职位之间建立关联有了Linkdin猎头们再也不用向潜在的受聘者打陌生电话来碰运气,而能够通过简单的搜索找出潜在受聘者并联系他们与此相似,求职者也能够通过联系网站上其他人,自然而然地将自己推销给潜在的雇主第二,以上两家公司都在2012年早些时候陆续上市Facebook在纳斯达克上市Linkedln在纽约证券交易所上市这两家企业与谷歌一样,尽管表面上是消费品公司,然而其本质是大数据企业除去这两家,Splunk也在2012年完成了上市它是一家帮助大中型企业提供运营智能的大数据企业这些企业的公开上市提高了华尔街关于大数据的兴趣这种兴趣带来了空前的盛况一一硅谷的风险投资家们开始前仆后继地投资大数据企业大数据将引发下一波创业大潮,而这次浪潮有望让硅谷在未来几年取代华尔街第三,亚马逊、Facebook.Linkedln与其他以数据为核心消费品的活跃用户们,开始期待自己在工作中也能获得畅通无阻地使用大数据的体验,而不再仅仅限于生活娱乐用户们此前一直想不通,既然互联网零售商亚马逊能够推荐阅读书目、推荐电影、推荐可供购买的产品,为什么他们所在的企业却做不到类似的情况比如,既然汽车租赁公司拥有客户过去租车的信息与现有可用车辆库存的信息,这些公司为何就不能在向不一致的租车人提供合适的车辆方面做得更智能一点?公司还能够通过新的技术,将公开信息利用起来一一比如某个特定市场的状况,会议活动信息,与其他可能会影响市场需求与供给的事件通过将内部供应链数据与外部市场数据结合在一起,公司就能够更加精确地预测什么车辆可用,与可用时间与此类似,零售商应当能够将来自外部的公开数据与内部数据结合在一起,利用这种混合的数据进行产品定价与市场布局同时还能够同时考虑影响现货供应能力的多种因素与消费者购物习惯,包含哪两种产品相搭配会卖得更好,这样零售商就能够提升消费者的平均购买量,从而获得更高的利润大数据时代的急先锋一一谷歌谷歌的体量与规模,使它拥有•比其他大多数企业更多的应用大数据的途径谷歌的优势之一在于,它拥有一支软件工程师部队,这使得谷歌能够从无到有地建立大数据技术谷歌的另一个优势在于它所拥有的基础设施谷歌搜索引擎本身的设计,就旨在让它能够无缝链接成千上万的服务器假如出现更多的处理或者存储需要,抑或者某分服务器崩溃,谷歌的工程师们只要再添加更多的服务器就能轻松搞定谷歌软件技术的设计也秉持着同样的基础设施理念MapReduce谷歌开发的编程工具,用于大规模数据集的并行运算与谷歌文件系统GoogleFileSystem就是两个典型的例子《连线》杂志在2012年初夏曾报道称,这两个软件系统“重塑了谷歌建立搜索索引的方式”为数众多的企业如今开始使用Hadoop它是MapReduce与谷歌文件系统的一种开源衍生产品Hadoop同意横跨多台电脑,对庞大的数据集合进行分布式处理在其他企业刚刚开始使用Hadoop的时候,谷歌早已多年深耕大数据技术,这让它在行业中获得了巨大的领先优势如今谷歌正在进一步开放数据处理领域,将其与更多第三方共享谷歌最近刚刚推出web服务BigQuery该项服务同意使用者对超大量数据集进行交互式分析按照谷歌目前的状况,“超大量”,意味着数十亿行数据BigQuery就是。