清华大学教授宋士吉：新一代人工智能发展战略下机器学习理论与方法

2019-02-26 15:29:01

来源：智汇工业

点击：2779

A⁺ A^-

关键词：人工智能工业互联网智能制造

　感谢工业互联网协会的邀请，我的题目有点偏理论，但是问题是面向智能制造的。我汇报五个方面的内容第一是人工智能的背景，我给大家看看人工智能的近期目标和远期目标。远期目标，就是揭示人工智能的根本机理，用智能机器去模拟，去仿真人类的智能。这涉及到很多科学领域，包括脑科学、认知科学、计算机、系统科学和控制论。

　　近期的目标就是怎么能够让机器更多地响应它的智能，有没有可能超过人的智能，这是智能制造，下面是一些智能制造的复杂制造过程的图。这是智能制造的十个领域，特别是新一代人工智能，包括相关的领域，航空航天的，也包括生物制造，都在里面，船舶、电力、材料。右边是从1989年到2015年国际上在新一代人工智能领域的发展的初步框架。

　　新一代人工智能的国家战略，美国人工智能已上升为国家战略。从2013年提出来的，推动创人工智能的创新研究计划。到2014年的1月，2015年，一直到CSIS发布国防2045，DARPA支撑美国第三次的抵消战略，最后白宫成立人工智能委员会。特朗普提出了人工智能的发展倡议书，提出了几个方面，现在我们国家在人工智能的领域发展得比较快，也引起了美国的关注。

　　这是中国新一代人工智能发展的路线图，国务院关于积极推进互联网+的行动计划指导意见，一直到国民经济和社会发展第十三个五年规划纲要，到互联网+人工智能的实施方案。人工智能2.0和1.0有一些实质性的区别，这里包括哪些方面？一个是从信息的新环境，还有新目标，包括可升级的新技术，从这几个方面来描述中国的人工智能2.0。

　　新目标包括智慧城市、智能经济、智能医疗、智能家具、智能驾驶等，可升级的技术有大数据智能、跨媒体智能、自主智能、人机混合智能、群体智能。这是人工智能2.0的五个方向，这也是科技部颁布的，去年发布的新一代人工智能的发展规划，基本上就是围绕着五个方面进行布局和部署。

　　可以说人工智能的发展引起了世界各个发扬光大和发展中国家的关注，不惜花重金来发展新一代的人工智能。现在各国都意识到，人工智能是开启未来智能世界的钥匙。未来科技的发展战略制高点，谁可以掌握人工智能，谁就会成为未来核心技术的掌握者。

　　智能制造是智能技术，特别是新一代人工智能技术，在制造全生命周期的应用当中涉及的理论方法、技术和应用。智能制造的另一种说法，从制造的整个过程，从设计、加工、管理、销售，一直到报废处理的全过程。这里面要达到制造业智能增长，包容性增长、可持续性增长的目标。

　　智能制造技术，涉及到的各种理论和方法。从技术角度来看包括几个环节，包括智能设计、加工、操作、控制、工艺规划、调度管理、物流、装配，还有检测、诊断。

　　人工智能的基础是大数据，涉及到人工智能的应用领域包括移动互联网、物联网、车联网、GPS、医学影像、安全监控、金融、电信等各个领域，包括数据的采集、存储、推理、分析，一直到应用各个方面这就是关于机器学习的最简单的框架，我们说，从机器学习的角度来讲，我们就只有数据，从数据里面，我们希望通过训练能辨识出一个模型，这个模型怎么辨识，是动态的还是静态的？

　　从数据到模型的过程，用到的就是算法。有了模型以后，进一步的还得到了更多的数据，所以这个数据和模型之间是一个交互的，这是一个简单的优化过程，就是二次优化。从机器学习的角度来说，机器学习包括三类，一类就是监督式，还有一类是无监督的，最后一个是半监督的。

　　什么是监督式的？从数学的角度来看，系统有输入、有输出，有X，有Y，你来辨识非线性过程。什么是无监督？系统里面只有自带的X，没有Y，还有一类是半监督的，就是既包括输入也包括输出，怎么用这三个学习办法进行模式识别，并且进行系统辨识和应用？这一块讲了机器学习方法在风机发电里面的应用，我们课题组提出来了密集连接的神经深度网络。

　　风力发电里面怎么用深度学习，运行维护费用占得很高，大概有10%到15%。在海上风力很大的时候这个比例高达20%。所以我们如何降低运行和维护成本就成为了关键，研究风力发电诊断的意义在哪？因为它的成本很高，每一次维修都需要花大量的成本，搞智能故障诊断和健康管理有非常大的意义。不仅是在风电领域，当然在高铁、飞机上，都可以用，方法是通用的。

　　我们的目的就是降低维护成本，提高风力发电机组的安全性和可靠性。这是我们做的鲁棒SVM，输入数据带噪声，输出数据也带噪声，这个时候如何建立一个鲁棒SVM模型，它有更好的鲁棒性和抗意外性，SVM的敏感性要更好。检查一个风电机组有没有故障的核心，就是看分工的曲线，输入和输出看有多大的风。如果说分工的曲线是正常的，说明你的风机没有问题，如果出了问题肯定是风机有故障了，再用机器学习的方法进行故障定位，原因的分析也可以找到。

　　理论上是这样的模型，我们建立一个鲁棒SVM，就是右边加了一个robust，过去是没有的，这样的模型怎么解？我们变成机会约束。再把机会约束一转成二阶锥规划，这个结果是2012年的文章。这是一个拟合的效果，用我们的方法拟合的，还用鲁棒SVM拟合的效果。基于半监督学习的故障诊断，刚才说了，监督学习只有X跟Y，有输入有输出，半监督的，有些数据是有X和Y的，还有一些样本只是还有自变量，没有输出。这个问题也非常有用，半监督学习能够通过对数据的分布特征找它分布特征的规律，可以利用有标签的样本和无标签的样本信息获得单一的有监督学习和无监督学习的算法就是说它可以对数据的分布特征进行研究，然后来提高我监督学习算法的效果。

　　我们提出了什么？我们做机器学习的时候都要做这个，就是聚类假设，属于同一个聚类的样本，属于同一类别的概率更大。进一步演化以后，就是低密度分离假设，最后是高分离概率假设。我们建立了一个模型，这个叫做regression，这个概率最大，概率是原理分类面，最后我们把这个模型分析出来，然后给出解。最后转化成一个二阶锥规划，我们还是用交替优化的方法，就是两个变量，我固定一个另外一个。下面是另外一个应用，半监督学习方法的应用。

　　最后我介绍一点强化学习，强化学习可以追溯到19世纪巴甫洛夫的条件反射，到20世纪80年代由Barto等人发展成理论，广泛应用于人工智能、机器学习和自动控制领域，基本思想就是从与环境的不断交互试错中学习来校正系统的行为。我们要给一个行为，并且得到了一个周期里面的收益，这就是马尔科夫决策过程。

　　那么在国外，这样的模型可以说用的是非常广，在美国MIT，最好的研究组也在研究这个案例。包括阿尔法狗，其实都是这样的模型这是我们优化的目标，使得我的期望最大，就跟开车一样，你开车控制的是刹车和油门，你的状态是车的速度和车的位置，你踩了油门以后车到了另外一个位置，然后你再判断你走得对不对。在另一段里重新做决策，这一类问题就是序贯决策问题。如果从这个状态到下一个状态的转移概率也可以求出来的话直接就可以求解了，但是我们的问题是没有转移概率，所以就提出来了强化学习的概念。就是在每一个周期的时候，有一个状态，我就对应一个行为。

　　这个E就是数学期望，一般是大于0小于1，这包括两个部分，一个叫做动作函数，一个叫做价值函数，对应的右边就是两个网络，一个叫做评价网络，还有一个叫做策略网络，我们先求里面的过程，这个叫做评价网络，后面的这个网络就是策略网络。通过这两个网络的交互迭代，最后找出解。

　　下面我讲一下海洋的应用，这是深海机器人，就是我做的一个自然基金的一个仪器项目，控制水下机器人，把它用上去了。现在的控制方法还没有人这么做，他们都是传统的控制。这个机器人刚刚造出来，这个机器人今年要做海试，就是海底喷火山。深海的意义，海洋现象是20世纪海洋科学界的重大发现之一，主要的挑战在这里。这个喷口是干什么就是地球里面有一些地质构造的断裂带里面有破损的，包括金银铜铁，现在还有一个极端的生物环境，我们的目标就是找到这个喷口，找到海底喷火的地方，就得靠水下机器人去找。

　　过去水下机器人不带智能，只是船来控制，通过控制船，自己也能动。我们做的机器人就是加上了智能，有两个意义，第一怎么做路径规划，第二怎么实时控制我的机器人，一步一步逼向我的目标。只有两个科学问题，就是如何找喷口，第二是如何控制机器人。这是AUV，找喷口，这就是MDP建模，我们可以连接为部分可观测的MDP，里数据，有观测数据，严格地讲有些信息是隐藏的。

　　我们通过POMDP的模型，这里的问题是已知机器人当前的位置和状态，当前的位置、速度，包括检测到的喷口信息、浓度，包括化学传感器的信息。怎么根据我现在的状态来更好地找到下一步的路，这就是优化问题。最后我找到了最终的喷口，这就是MDP，你根本不知道转移概率，但是其他的状态我都可以通过传感器感受到，就是在已知状态不知道概率的时候，这个模型是最管用的。

　　这是设计的网络，一个叫做策略网络，一个叫评价网络。这就是牛顿法，在第七个周期里面的收益，这是T+1周期往后的收益，W是权重，原来是分线函数，现在是线性函数，这是迭代的补偿。另外是逼近网络的更新步骤，它的原理就在这里，这里有一个网络，综合在一起又是一个网络，我最终找的就是最终策略。

　　这是仿真的结果，基于强化学习的仿真结果，有的时候我们把历史数据用上，效果会更好，更能快速地找到优点。还有一个例子是控制水下机械，它可以控制机器人，而且这样的控制方法不需要基于机理模型，将来也可以把这个方法和基于机理模型的方法结合在一起，效果比基于强化学习的会更好，这是一个优化问题。这里有三种控制模式，一个是深度控制、曲线控制还有海床控制。深度控制就是固定深度，这个属于避障控制，那就是海底的造型很特别，要始终跟海底保持距离。第二就是海床追踪，海床的变化比较平稳，没有明显的趋势变化，但是跟海底的距离几乎是恒定的。这是我们常用的几种AUV，采取的传统控制办法，PID、模型预测控制，严格依赖于精准的模型，AUV控制当中很难满足，模型涉及到海水，那个东西一个地方走一遍，所以精准的模型是有问题的。那么我们提出了这样的方法，大家看我们怎么来选状态，速度、位置，什么是动作，比如说发动机的转速，对于三种类型的控制问题，关键信息是什么，状态是什么，奖励是什么，我们都做了研究，大家都可以找到论文。剩下的两个网络一个是评价网络，另外一个是策略网络，这个评价网络就是已知X和K，必须假定策略是已知的，实际上你是没有策略的，所谓的策略网络就是一个状态对应着一个行为，我找最好的策略，使得这个东西最好。一个是评价网络的权重更新算法，还有一个是策略网络权重的更新算法，有了这两个算法我们就可以做仿真计算，当然还有一些其他的分析，理论分析就不讲了，特别是关于解的稳定性、敏感性的分析，也有理论上的推导。这是我们的方法，跟其他的方法，比如说在超调量和时间反映因素上，我们好于传统的LKI，线性二次积分，比另外一个是NMPC，比它的时间要好。这是我们算法跟其他算法的对比分析。

　　随着大数据时代的到来，基于大数据挖掘与机器学习的方法成为近年来的研究热点，包括建模问题，优化问题，各种智能方法，挖掘内在的规律，实现各系统的智能的充分发挥。另外就是说人工智能已经上升到了国家战略高度，数据是关系到国家安全的重要资源，大数据和人工智能的结合，将对国家的经济、社会、文化产生深远的影响地也会改变人类生产生活方式，谢谢。

(审核编辑: 智汇小新)

声明：除特别说明之外，新闻内容及图片均来自网络及各大主流媒体。版权归原作者所有。如认为内容侵权，请联系我们删除。

分享

清华大学教授宋士吉：新一代人工智能发展战略下机器学习理论与方法

点击排行

专题