什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?

来源:网络

点击:1211

A+ A-

所属频道:新闻中心

关键词: 数据分析,数据挖掘,人工智能,机器学习,深度学习

    0 数据时代/人工智能时代的降临前夜

    从2016年开始,业界忽然针对机器学习和人工智能的追捧大行其道,其中更以Google推出的AlphaGo程序在2016年3月以4:1大胜韩国九段围棋选手李世石;2016年岁末,在国内棋类网站弈城网上出现了一个类似“围棋上帝”的账号(“围棋上帝”是指每一步都绝对正确,每一步都绝对算到,洞悉全局的一切),在2016年12月29日至31日的3天时间里,神秘高手连胜柯洁九段、陈耀烨九段、朴廷桓九段、芈昱廷九段、唐韦星九段等高手。

    什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?

    2017年初, AlphaGo化身神秘网络棋手Master击败包括聂卫平、柯洁、朴廷桓、井山裕太在内的数十位中日韩围棋高手,在30秒一手的快棋对决中无一落败, 拿下全胜战绩,在棋界和科技界引发剧震。

    AlphaGo的胜利充分让世人认识到了AI(Artifical Intelligence)的威力和未来,于是人工智能忽然之间离我们近在咫尺;对于我们大部分人来说,到底什么是人工智能?它是忽然之间冒出来的新概念吗?接下来笔者将为各位读者梳理一下其发展的路径以及历程以及主要的关键词。

    1 数据分析(Data Analysis)

    伴随着信息化时代的降临,人类第一次有了数据化的概念和积累;基于数据库系统和应用程序,可以直观查看统计分析系统中的数据,从而可以很快得到我们想要的结果;这个就是最基本的数据分析功能,也是我们在信息化时代了,除了重构业务流程、提升行业效率和降低成本之外,另一个非常重要的数据分析功能,数据直观化。

    什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?

    举例如下,在财务系统的信息化中,基于企业的财务系统,我们可以直观获取企业现金流量表、资产负债表和利润表,这些都来自与我们的数据分析技术。目前常用的软件是Excel, R, Python等工具。

    2 数据挖掘(Knowledge-Discovery in Databases)

    简称KDD,从其英文缩写中可以发现,其是基于数据库系统的数据发现过程,立足与数据分析技术之上,提供更为高端和高级的规律趋势发现以及预测功能;同时数据量将变得更为庞大,依赖于模式识别等计算机前沿的技术;其还有另外一个名称为商业智能(BI, Business Intelligence),依托于超大型数据库以及数据仓库、数据集市等数据库技术来完成。

    什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?

    主要的应用领域在电子商务领域,主要的原因是电商时代其有迫切的数据挖掘的需求和应用场景,比如经典的啤酒与尿布的关联性就是电商应用中的一个例子。

    主要挖掘方法有: 分类 (Classification), 估计(Estimation), 预测(Prediction), 相关性分组或关联规则(Affinity grouping or association rules), 聚类(Clustering), 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)等技术。

    此时的数据挖掘不足之处主要集中在数据库系统对于数据的检索分析能力支持有限,数据处理能力的不足大大限制了商业应用的进行,大部分场景下都是基于数据抽样的分析;同时挖掘应用需要进行定制化的开发,开发和维护成为即为昂贵,应用领域非常的狭小。

    这个时代主要的数据挖掘的解决方案主要集中在BI之上,主要来自于Oracle, IBM, Microsoft等数据库厂商的解决方案。

    3 机器学习

    随着2006年以Hadoop为代表的大数据技术的蓬勃兴起,解决了数据库时代的数据存储和处理能力的不足限制;云计算技术的大规模应用,比如Amazon和阿里云为代表的云计算厂商,将处理能力和计算能力的成本大大降低,从而让大规模的集群计算系统变得非常廉价;从而将针对数据的分析拓展至全量的数据分析,而非数据抽样。另外一个方面是将从前在数据挖掘时代无法应用的算法和思路变成了可能。这个时代ML(Machine Learning)逐渐取代数据挖掘,成为火热的关键词。

    什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?

    那机器学习与数据挖掘的关系是什么呢? 机器学习是建立在数据挖掘技术之上发展而来,结合大数据技术(Hadoop, MapReduce, Spark/Storm等),逐步开发和应用了若干新的分析方法逐步演变而来形成的;这两个领域彼此之间交叉渗透,彼此都会利用对方发展起来的技术方法来实现业务目标,数据挖掘的概念更广一下,机器学习只是数据挖掘领域中的一个新兴分支与细分领域,只不过基于大数据技术让其逐渐成为了当下显学和主流。

    以下是摘在百度知道的定义:机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

    什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?

    上述定义的核心是尝试基于计算机系统来模拟人类的学习行为,从而获取新的知识与技能;换句话说,机器学习可以发展我们人类未曾发现的知识和规律,学习到人类从未掌握的技能;这是一个非常惊人的进步,超越人类的认知极限,从而引领人类进入了一个崭新的机器时代。

    机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。在我们当下的生活中,语音输入识别、手写输入识别等技术,识别率相比之前若干年的技术识别率提升非常巨大,达到了将近97%以上,大家可以在各自的手机上体验这些功能,这些技术来自于机器学习技术的应用。Google Translate技术据说已经达到了类比人工翻译的准确程度,兼具“信达雅”的特性,能做到这一点就来自于Google对其进行了大量语言学习的训练而成的。

    机器学习主要以监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习和强化学习等形式。下面我们简要介绍以下这几种学习形式的基本内容:

    监督学习是 对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。监督学习是训练神经网络和决策树的最常见技术。这两种技术(神经网络和决策树)高度依赖于事先确定的分类系统给出的信息。

    在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。

    在此学习方式下,介于监督学习和半监督学习之间。输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据 来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预 测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。

    在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈 到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)。

    以上几种学习形式,目前使用最多的是监督学习和非监督学习模式,在自然语言处理(NLP),图形图像识别等领域应用甚广。强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。

    此类的技术解决方案在Python, R都提供了相应的机器学习的算法实现,比如scikit-learn和R中的内置算法实现。

    4 深度学习(Deep Learning)

    深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。晦涩难懂的概念,略微有些难以理解,但是在其高冷的背后,却有深远的应用场景和未来。

    什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?

    那深度学习和机器学习是什么关系呢? 深度学习是实现机器学习的一种方式和一条路径。其核心是模拟和学习人类大脑的神经元工作方式,比如其按特定的物理距离连接;而深度学习使用独立的层、连接,还有数据传播方向,比如最近大火的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能,让机器认知过程逐层进行,逐步抽象,从而大幅度提升识别的准确性和效率。

    到了当下,经过深度学习技术训练的机器在识别图像时比人类更好,比如识别猫、识别血液中的癌细胞特征、识别MRI扫描图片中的肿瘤。谷歌AlphaGo学习围棋等等领域,已经超越了人类目前的认知和能力极限。

    主要的实现框架包括有:Google的Tensorflow, 源自加州伯克利分校的Caffe, 诞生于蒙特利尔理工学院的Python实现Theano, 来自facebook的Torch, Java版的深度学习框架DeepLearning4j等等不一而足。

    5 人工智能(Artifical Intelligence, AI)

    人工智能目前在业界是炙手可热,所有的互联网公司以及各路大迦们纷纷表态AI将是下一个时代的革命性技术,可与互联网、移动互联网时代的变更相媲美;AlphaGo在围棋领域战胜人类最顶尖的棋手让大众第一次直观认知到了AI的威力和强大,于是大家都不禁在思考到底什么是人工智能, 它将带给人类一个什么样的变化和未来?

    1956年,在达特茅斯会议(Dartmouth Conferences)上,计算机科学家首次提出了“AI”术语之时,就设想是否有一天机器可以像人一样拥有意识(consciousness)、自我(Self)和心智(Mind),随着计算机工业和科学的飞速发展,曾经的幻想和遥不可及的设想已经可以看到变成现实的曙光。

    那人工智能到底是什么呢? 笔者个人的理解是人工智能将学会人脑一样的思考、分析、推理和学习,具备人类相应的智商和独立思考能力;进而可能具备自我迭代和进化能力,帮助人类共同进行进化,极大提升目前人类社会的智能化程度。

    什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?

    正如我们曾经看到过的诸多科幻典型中所描述的各类场景,笔者个人也比较认同其中的某些负面的可能性,不如当机器具备类似人类的智能之后,机器智能和人类将如何相处? 如果发生冲突,人类何以控制机器智能,并引导人工智能按照人类的意志来发展? 人类是否有能力控制机器智能的运行机制?等等之类的问题只能有待未来的科学家们来解决。

    深度学习、机器学习都是人工智能发展的重要领域,这些技术手段让人工智能从虚幻逐步变为现实,在带给人类诸多便利和大幅度的社会效率提升中,即将革命性地改变我们人类社会的进程发展。

    6 总结

    深度学习、机器学习的发展带了许多实际的商业应用,让虚幻的AI逐步落地,进而影响人类社会发展; 深度学习、机器学习以及未来的AI技术,将让无人驾驶汽车、更好的预防性治疗技术、更发达智能的疾病治疗诊断系统、更好的人类生活娱乐辅助推荐系统等,逐步融入人类社会的方方面面。

    什么是人工智能、机器学习、深度学习、数据挖掘以及数据分析?

    AI既是现在,也是未来,不再是一种科幻影像和概念,业界变成了人类社会当下的一种存在,不管人类是否喜欢或者理解,他们都将革命性地改变创造AI的我们人类自身;至于未来,没有人会知道会如何,会不会真得如Matrix中的人类最终被机器所篡养,不得而知;但有一点是确定的,人类孜孜以求的研究和发展,AI时代终将到来。

    (审核编辑: 林静)

    声明:除特别说明之外,新闻内容及图片均来自网络及各大主流媒体。版权归原作者所有。如认为内容侵权,请联系我们删除。