很遗憾,因您的 浏览器版本过低导致无法获得最佳浏览体验,推荐下 载安装谷歌浏览器!

终于有人把云计算、大数据和 AI 讲明白了(二)

2019-02-13  来自: 云唯IT实训云 计算培训大数据培训 浏览次数:55

接上文:终于有人把云计算大数据和 AI 讲明白了(一)

三、大数据拥抱云计算

在PaaS层中一 个复杂的通用应用就是大数据平台。大数据 是如何一步一步融入云计算的呢?

3.1 数据不大也包含智慧

一开始 这个大数据并不大,你想象 原来才有多少数据?现在大 家都去看电子书,上网看新闻了,在我们80后小时候,信息量没有那么大,也就看看书,看看报,一个星 期的报纸加起来才有多少字啊,如果你 不在一个大城市,一个普 通的学校的图书馆加起来也没几个书架,是后来 随着信息化的到来,信息才会越来越多。

首先我 们来看一下大数据里面的数据,就分三种类型,一种叫结构化的数据,一种叫 非结构化的数据,还有一 种叫半结构化的数据。什么叫 结构化的数据呢?叫有固 定格式和有限长度的数据。例如填 的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。现在越 来越多的就是非结构化的数据,就是不定长,无固定格式的数据,例如网页,有时候非常长,有时候几句话就没了,例如语音,视频都 是非结构化的数据。半结构化数据是一些xml或者html的格式的,不从事 技术的可能不了解,但也没有关系。

数据怎 么样才能对人有用呢?其实数 据本身不是有用的,必须要 经过一定的处理。例如你 每天跑步带个手环收集的也是数据,网上这 么多网页也是数据,我们称为Data,数据本 身没有什么用处,但是数 据里面包含一个很重要的东西,叫做信息Information,数据十分杂乱,经过梳理和清洗,才能够称为信息。信息会包含很多规律,我们需 要从信息中将规律总结出来,称为知识knowledge,知识改变命运。信息是很多的,但是有 人看到了信息相当于白看,但是有 人就从信息中看到了电商的未来,有人看 到了直播的未来,所以人家就牛了,你如果 没有从信息中提取出知识,天天看朋友圈,也只能 在互联网滚滚大潮中做个看客。有了知识,然后利 用这些知识去应用于实战,有的人会做得非常好,这个东西叫做智慧intelligence。有知识 并不一定有智慧,例如好 多学者很有知识,已经发 生的事情可以从各个角度分析的头头是道,但一到实干就歇菜,并不能转化成为智慧。而很多的创业家之所以伟大,就是通 过获得的知识应用于实践,最后做了很大的生意。

所以数 据的应用分这四个步骤:数据,信息,知识,智慧。这是很 多商家都想要的,你看我 收集了这么多的数据,能不能 基于这些数据来帮我做下一步的决策,改善我的产品,例如让 用户看视频的时候旁边弹出广告,正好是他想买的东西,再如让 用户听音乐的时候,另外推 荐一些他非常想听的其他音乐。用户在 我的应用或者网站上随便点点鼠标,输入文 字对我来说都是数据,我就是 要将其中某些东西提取出来,指导实践,形成智慧,让用户 陷入到我的应用里面不可自拔,上了我 的网就不想离开,手不停的点,不停的买,很多人 说双十一我都想断网了,我老婆 在上面不断的买买买,买了A又推荐B,老婆大人说,“哎呀,B也是我喜欢的啊,老公我要买”。你说这 个程序怎么这么牛,这么有智慧,比我还了解我老婆,这件事 情是怎么做到的呢?

云计算培训

3.2 数据如何升华为智慧

数据的 处理分几个步骤,完成了 才最后会有智慧。

第一个 步骤叫数据的收集。首先得有数据,数据的 收集有两个方式,第一个方式是拿,专业点 的说法叫抓取或者爬取,例如搜 索引擎就是这么做的,它把网 上的所有的信息都下载到它的数据中心,然后你 一搜才能搜出来。比如你去搜索的时候,结果会是一个列表,这个列 表为什么会在搜索引擎的公司里面呢,就是因 为他把这个数据啊都拿下来了,但是你一点链接,点出来 这个网站就不在搜索引擎它们公司了。比如说新浪有个新闻,你拿百度搜出来,你不点的时候,那一页 在百度数据中心,一点出 来的网页就是在新浪的数据中心了。另外一 个方式就是推送,有很多 终端可以帮我收集数据,比如说小米手环,可以将 你每天跑步的数据,心跳的数据,睡眠的 数据都上传到数据中心里面。

第二个 步骤是数据的传输。一般会 通过队列方式进行,因为数 据量实在是太大了,数据必 须经过处理才会有用,可是系统处理不过来,只好排好队,慢慢的处理。

第三个 步骤是数据的存储。现在数据就是金钱,掌握了 数据就相当于掌握了钱。要不然 网站怎么知道你想买什么呢?就是因 为它有你历史的交易的数据,这个信 息可不能给别人,十分宝贵,所以需要存储下来。

第四个 步骤是数据的处理和分析。上面存 储的数据是原始数据,原始数 据多是杂乱无章的,有很多 垃圾数据在里面,因而需要清洗和过滤,得到一 些高质量的数据。对于高质量的数据,就可以进行分析,从而对数据进行分类,或者发 现数据之间的相互关系,得到知识。比如盛 传的沃尔玛超市的啤酒和尿布的故事,就是通 过对人们的购买数据进行分析,发现了 男人一般买尿布的时候,会同时购买啤酒,这样就 发现了啤酒和尿布之间的相互关系,获得知识,然后应用到实践中,将啤酒 和尿布的柜台弄的很近,就获得了智慧。

第五个 步骤就是对于数据的检索和挖掘。检索就是搜索,所谓外事不决问google,内事不决问百度。内外两 大搜索引擎都是讲分析后的数据放入搜索引擎,从而人 们想寻找信息的时候,一搜就有了。另外就是挖掘,仅仅搜 索出来已经不能满足人们的要求了,还需要 从信息中挖掘出相互的关系。比如财经搜索,当搜索 某个公司股票的时候,该公司 的高管是不是也应该被挖掘出来呢?如果仅 仅搜索出这个公司的股票发现涨的特别好,于是你就去买了,其实其 高管发了一个声明,对股票十分不利,第二天就跌了,这不坑害广大股民么?所以通 过各种算法挖掘数据中的关系,形成知识库,十分重要。

云计算培训

云计算培训

3.3 大数据时代,众人拾柴火焰高

当数据量很小的时候,很少的 几台机器就能解决。慢慢的 当数据量越来越大,最 牛的服 务器都解决不了问题的时候,就想怎么办呢?要聚合 多台机器的力量,大家齐 心协力一起把这个事搞定,众人拾柴火焰高。

对于数据的收集,对于IoT来讲,外面部 署这成千上万的检测设备,将大量的温度,适度,监控,电力等 等数据统统收集上来,对于互 联网网页的搜索引擎来讲,需要将 整个互联网所有的网页都下载下来,这显然 一台机器做不到,需要多 台机器组成网络爬虫系统,每台机器下载一部分,同时工作,才能在有限的时间内,将海量 的网页下载完毕。

云计算培训

对于数据的传输,一个内 存里面的队列肯定会被大量的数据挤爆掉,于是就 产生了基于硬盘的分布式队列,这样队 列可以多台机器同时传输,随你数据量多大,只要我的队列足够多,管道足够粗,就能够撑得住。

云计算培训

对于数据的存储,一台机 器的文件系统肯定是放不下了,所以需 要一个很大的分布式文件系统来做这件事情,把多台 机器的硬盘打成一块大的文件系统。

云计算培训

再如数据的分析,可能需 要对大量的数据做分解,统计,汇总,一台机器肯定搞不定,处理到 猴年马月也分析不完,于是就 有分布式计算的方法,将大量 的数据分成小份,每台机器处理一小份,多台机器并行处理,很快就能算完。例如著名的Terasort对1个TB的数据排序,相当于1024G,如果单机处理,怎么也要几个小时,但是并行处理209秒就完成了。

云计算培训

云计算培训

云计算培训

所以说大数据平台,什么叫做大数据,说白了 就是一台机器干不完,大家一起干。随着数据量越来越大,很多不 大的公司都需要处理相当多的数据,这些小 公司没有这么多机器可怎么办呢?

3.4 大数据需要云计算云计算需要大数据

说到这里,大家想起云计算了吧。当想要 干这些活的时候,需要好 多好多的机器一块做,真的是想什么时候要,想要多少就要多少。例如大 数据分析公司的财务情况,可能一周分析一次,如果要 把这一百台机器或者一千台机器都在那放着,一周用一次对吧,非常浪费。那能不 能需要计算的时候,把这一 千台机器拿出来,然后不算的时候,这一千 台机器可以去干别的事情。谁能做这个事儿呢?只有云计算,可以为 大数据的运算提供资源层的灵活性。而云计算也会部 署大数据放到它的PaaS平台上,作为一 个非常非常重要的通用应用。因为大 数据平台能够使得多台机器一起干一个事儿,这个东 西不是一般人能开发出来的,也不是 一般人玩得转的,怎么也 得雇个几十上百号人才能把这个玩起来,所以说 就像数据库一样,其实还 是需要有一帮专业的人来玩这个东西。现在公有云上基本 上都会有大数据的解决方案了,一个小 公司我需要大数据平台的时候,不需要 采购一千台机器,只要到公有云上一点,这一千 台机器都出来了,并且上 面已经部署好了的大数据平台,只要把 数据放进去算就可以了。

云计算需要大数据,大数据需要云计算,两个人就这样结合了。

四、人工智能拥抱大数据

4.1 机器什 么时候才能懂人心

虽说有了大数据,人的欲 望总是这个不能够满足。虽说在 大数据平台里面有搜索引擎这个东西,想要什 么东西我一搜就出来了。但是也 存在这样的情况,我想要的东西不会搜,表达不出来,搜索出 来的又不是我想要的。例如音 乐软件里面推荐一首歌,这首歌我没听过,当然不知道名字,也没法搜,但是软件推荐给我,我的确喜欢,这就是 搜索做不到的事情。当人们 使用这种应用的时候,会发现 机器知道我想要什么,而不是 说当我想要的时候,去机器里面搜索。这个机 器真像我的朋友一样懂我,这就有点人工智能的意思了。

人们很 早就在想这个事情了。最早的时候,人们想象,如果要是有一堵墙,墙后面是个机器,我给它说话,它就给我回应,我如果 感觉不出它那边是人还是机器,那它就 真的是一个人工智能的东西了。

4.2 让机器学会推理

怎么才 能做到这一点呢?人们就想:我首先 要告诉计算机人类的推理的能力。你看人 重要的是什么呀,人和动 物的区别在什么呀,就是能推理。我要是 把我这个推理的能力啊告诉机器,机器就 能根据你的提问,推理出相应的回答,真能这样多好。推理其 实人们慢慢的让机器能够做到一些了,例如证明数学公式。这是一 个非常让人惊喜的一个过程,机器竟 然能够证明数学公式。但是慢 慢发现其实这个结果,也没有那么令人惊喜,因为大 家发现了一个问题,数学公式非常严谨,推理过程也非常严谨,而且数 学公式很容易拿机器来进行表达,程序也相对容易表达。然而人 类的语言就没这么简单了,比如今天晚上,你和你女朋友约会,你女朋友说:如果你早来,我没来,你等着,如果我早来,你没来,你等着。这个机 器就比比较难理解了,但是人都懂,所以你和女朋友约会,你是不敢迟到的。

4.3 教给机器知识

所以仅 仅告诉机器严格的推理是不够的,还要告 诉机器一些知识。但是知识这个事儿,一般人 可能就做不来了,可能专家可以,比如语言领域的专家,或者财经领域的专家。语言领 域和财经领域知识能不能表示成像数学公式一样稍微严格点呢?例如语 言专家可能会总结出主谓宾定状补这些语法规则,主语后面一定是谓语,谓语后面一定是宾语,将这些总结出来,并严格 表达出来不久行了吗?后来发现这个不行,太难总结了,语言表达千变万化。就拿主谓宾的例子,很多时 候在口语里面就省略了谓语,别人问:你谁啊?我回答:我刘超。但是你 不能规定在语音语义识别的时候,要求对 着机器说标准的书面语,这样还是不够智能,就像罗 永浩在一次演讲中说的那样,每次对着手机,用书面语说:请帮我呼叫某某某,这是一 件很尴尬的事情。

人工智 能这个阶段叫做专家系统。专家系统不易成功,一方面 是知识比较难总结,另一方 面总结出来的知识难以教给计算机。因为你 自己还迷迷糊糊,似乎觉得有规律,就是说不出来,就怎么 能够通过编程教给计算机呢?

4.4 算了,教不会你自己学吧

于是人们想到,看来机 器是和人完全不一样的物种,干脆让机器自己学习好了。机器怎么学习呢?既然机 器的统计能力这么强,基于统计学习,一定能 从大量的数字中发现一定的规律。

其实在 娱乐圈有很好的一个例子,可见一斑

有一位 网友统计了知名歌手在大陆发行的 9 张专辑中 117 首歌曲的歌词,同一词 语在一首歌出现只算一次,形容词、名词和 动词的前十名如下表所示(词语后 面的数字是出现的次数):

a形容词b名词c动词
0孤独:340生命:500爱:54
1自由:171路:371碎:37
2迷惘:162夜:292哭:35
3坚强:133天空:243死:27
4绝望:84孩子:234飞:26
5青春:75雨:215梦想:14
6迷茫:66石头:96祈祷:10
7光明:67鸟:97离去:10

如果我 们随便写一串数字,然后按 照数位依次在形容词、名词和 动词中取出一个词,连在一起会怎么样呢?

例如取圆周率 3.1415926,对应的词语是:坚强,路,飞,自由,雨,埋,迷惘。稍微连接和润色一下:

坚强的孩子,

依然前行在路上,

张开翅膀飞向自由,

让雨水埋葬他的迷惘。

是不是有点感觉了?当然真 正基于统计的学习算法比这个简单的统计复杂的多。

然而统 计学习比较容易理解简单的相关性,例如一 个词和另一个词总是一起出现,两个词应该有关系,而无法 表达复杂的相关性,并且统 计方法的公式往往非常复杂,为了简化计算,常常做 出各种独立性的假设,来降低 公式的计算难度,然而现实生活中,具有独 立性的事件是相对较少的。

4.5 模拟大脑的工作方式

于是人 类开始从机器的世界,反思人 类的世界是怎么工作的。

云计算培训

人类的 脑子里面不是存储着大量的规则,也不是 记录着大量的统计数据,而是通 过神经元的触发实现的,每个神 经元有从其他神经元的输入,当接收到输入的时候,会产生 一个输出来刺激其他的神经元,于是大 量的神经元相互反应,最终形 成各种输出的结果。例如当 人们看到美女瞳孔放大,绝不是 大脑根据身材比例进行规则判断,也不是 将人生中看过的所有的美女都统计一遍,而是神 经元从视网膜触发到大脑再回到瞳孔。在这个过程中,其实很 难总结出每个神经元对最终的结果起到了哪些作用,反正就是起作用了。

于是人 们开始用一个数学单元模拟神经元

这个神经元有输入,有输出,输入和 输出之间通过一个公式来表示,输入根 据重要程度不同(权重),影响着输出。

云计算培训

于是将n个神经 元通过像一张神经网络一样连接在一起,n这个数 字可以很大很大,所有的 神经元可以分成很多列,每一列 很多个排列起来,每个神 经元的对于输入的权重可以都不相同,从而每 个神经元的公式也不相同。当人们 从这张网络中输入一个东西的时候,希望输 出一个对人类来讲正确的结果。例如上面的例子,输入一个写着2的图片,输出的 列表里面第二个数字最大,其实从机器来讲,它既不 知道输入的这个图片写的是2,也不知 道输出的这一系列数字的意义,没关系,人知道意义就可以了。正如对于神经元来说,他们既 不知道视网膜看到的是美女,也不知 道瞳孔放大是为了看的清楚,反正看到美女,瞳孔放大了,就可以了。

对于任 何一张神经网络,谁也不敢保证输入是2,输出一 定是第二个数字最大,要保证这个结果,需要训练和学习。毕竟看 到美女而瞳孔放大也是人类很多年进化的结果。学习的过程就是,输入大量的图片,如果结 果不是想要的结果,则进行调整。如何调整呢,就是每 个神经元的每个权重都向目标进行微调,由于神 经元和权重实在是太多了,所以整 张网络产生的结果很难表现出非此即彼的结果,而是向 着结果微微的进步,最终能 够达到目标结果。当然这 些调整的策略还是非常有技巧的,需要算 法的高手来仔细的调整。正如人类见到美女,瞳孔一 开始没有放大到能看清楚,于是美女跟别人跑了,下次学 习的结果是瞳孔放大一点点,而不是放大鼻孔。

4.6 没道理但做得到

听起来 也没有那么有道理,但是的确能做到,就是这么任性。

神经网 络的普遍性定理是这样说的,假设某 个人给你某种复杂奇特的函数,f(x):

云计算培训

不管这 个函数是什么样的,总会确 保有个神经网络能够对任何可能的输入x,其值f(x)(或者某 个能够准确的近似)是神经网络的输出。

如果在 函数代表着规律,也意味 着这个规律无论多么奇妙,多么不能理解,都是能 通过大量的神经元,通过大量权重的调整,表示出来的。

4.7 人工智 能的经济学解释

这让我想到了经济学,于是比较容易理解了。

云计算培训

我们把 每个神经元当成社会中从事经济活动的个体。于是神 经网络相当于整个经济社会,每个神 经元对于社会的输入,都有权重的调整,做出相应的输出,比如工资涨了,菜价也涨了,股票跌了,我应该怎么办,怎么花自己的钱。这里面没有规律么?肯定有,但是具体什么规律呢?却很难说清楚。

基于专 家系统的经济属于计划经济,整个经 济规律的表示不希望通过每个经济个体的独立决策表现出来,而是希 望通过专家的高屋建瓴和远见卓识总结出来。专家永 远不可能知道哪个城市的哪个街道缺少一个卖甜豆腐脑的。于是专 家说应该产多少钢铁,产多少馒头,往往距 离人民生活的真正需求有较大的差距,就算整 个计划书写个几百页,也无法 表达隐藏在人民生活中的小规律。

基于统 计的宏观调控就靠谱的多了,每年统 计局都会统计整个社会的就业率,通胀率,GDP等等指标,这些指 标往往代表着很多的内在规律,虽然不能够精确表达,但是相对靠谱。然而基 于统计的规律总结表达相对比较粗糙,比如经 济学家看到这些统计数据可以总结出长期来看房价是涨还是跌,股票长 期来看是涨还是跌,如果经济总体上扬,房价和 股票应该都是涨的。但是基于统计数据,无法总结出股票,物价的微小波动规律。

基于神 经网络的微观经济学才是对整个经济规律最最准确的表达,每个人 对于从社会中的输入,进行各自的调整,并且调 整同样会作为输入反馈到社会中。想象一下股 市行情 细微的波动曲线,正是每 个独立的个体各自不断交易的结果,没有统一的规律可循。而每个 人根据整个社会的输入进行独立决策,当某些 因素经过多次训练,也会形 成宏观上的统计性的规律,这也就 是宏观经济学所能看到的。例如每 次货币大量发行,最后房价都会上涨,多次训练后,人们也就都学会了。

4.8 人工智能需要大数据

然而神 经网络包含这么多的节点,每个节 点包含非常多的参数,整个参 数量实在是太大了,需要的 计算量实在太大,但是没有关系啊,我们有大数据平台,可以汇 聚多台机器的力量一起来计算,才能在 有限的时间内得到想要的结果。

人工智 能可以做的事情非常多,例如可 以鉴别垃圾邮件,鉴别黄 色暴力文字和图片等。这也是 经历了三个阶段的。第一个 阶段依赖于关键词黑白名单和过滤技术,包含哪 些词就是黄色或者暴力的文字。随着这 个网络语言越来越多,词也不断的变化,不断的 更新这个词库就有点顾不过来。第二个阶段时,基于一些新的算法,比如说贝叶斯过滤等,你不用 管贝叶斯算法是什么,但是这 个名字你应该听过,这个一 个基于概率的算法。第三个 阶段就是基于大数据和人工智能,进行更 加精准的用户画像和文本理解和图像理解。

由于人 工智能算法多是依赖于大量的数据的,这些数 据往往需要面向某个特定的领域(例如电商,邮箱)进行长期的积累,如果没有数据,就算有 人工智能算法也白搭,所以人 工智能程序很少像前面的IaaS和PaaS一样,将人工 智能程序给某个客户安装一套让客户去用,因为给某个客户单独安装一套,客户没有相关的数据做训练,结果往往是很差的。但是云计算厂商往往是积累了大量数据的,于是就在云计算厂商里面安装一套,暴露一个服务接口,比如您想鉴别一个文本是不是涉及黄色和暴力,直接用这个在线服务就可以了。这种形势的服务,在云计算里面称为软件即服务,SaaS (Software AS A Service)

于是工智能程序作为SaaS平台进入了云计算

五、云计算,大数据,人工智能过上了美好的生活

终于云计算的三兄弟凑齐了,分别是IaaS,PaaS和SaaS,所以一般在一个云计算平台上,云,大数据,人工智能都能找得到。对一个大数据公司,积累了大量的数据,也会使用一些人工智能的算法提供一些服务。对于一个人工智能公司,也不可能没有大数据平台支撑。所以云计算,大数据,人工智能就这样整合起来,完成了相遇,相识,相知。


关键词: 云计算培训   大数据培训   0基础转行   IT培训  
在线客服 ×

职业规划师李老师

18010167689

3月就业学员喜报

平均薪资9417元

只需一个决心

4个月0基础转行

截止开班

仅剩5个名额

友情链接:    顶峰彩票  天地汇棋牌游戏   汇旺彩票---首页欢迎你   pk10回血上岸经验   汇旺彩票---首页欢迎你