自动机器学习(AutoML)最新综述
demi 在 周四, 11/08/2018 - 09:20 提交
机器学习的应用需要大量的人工干预,这些人工干预表现在:特征提取、模型选择、参数调节等机器学习的各个方面。AutoML 试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。
机器学习的应用需要大量的人工干预,这些人工干预表现在:特征提取、模型选择、参数调节等机器学习的各个方面。AutoML 试图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用。
在学习机器学习中,看过挺多案例,看到很多人在处理数据的时候,经常把连续性特征离散化。为此挺好奇,为什么要这么做,什么情况下才要做呢。
一、离散化原因
数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:
1、算法需要
比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。
2、离散化的特征相对于连续型特征更易理解,更接近知识层面的表达
比如工资收入,月薪2000和月薪20000,从连续型特征来看高低薪的差异还要通过数值层面才能理解,但将其转换为离散型数据(底薪、高薪),则可以更加直观的表达出了我们心中所想的高薪和底薪。
3、可以有效的克服数据中隐藏的缺陷,使模型结果更加稳定
二、离散化的优势
CNN卷积神经网络卷积层和池化层详解
卷积神经网络(Convolutional Neural Network,简称CNN),是一种前馈神经网络,人工神经元可以响应周围单元,可以进行大型图像处理。卷积神经网络包括卷积层和池化层。
卷积神经网络是受到生物思考方式启发的MLPs(多层感知器),它有着不同的类别层次,并且各层的工作方式和作用也不同。这里提供一个较好的CNN教程(http://cs231n.github.io/convolutional-networks/)。文章中详细介绍了CNN的计算方式和数据的流动过程,这里只做简单的介绍。
一直以来,视频监控便是是安全防范系统中的重要组成部分,传统的监控系统包括前端摄像机、传输线缆、视频监控平台。然而查看视频不仅是件工作量巨大而且是人力效率极低的事情,一直以来,安防领域都在寻求着不同的解决方法。人类监视监控视频的能力限制导致其对人工智能的需求。
早期解决方案-运动检测相机
为了弥补人们长期监视监视器易丧失注意力和辨别安全警示等缺点,采用的第一个解决方案是在摄像机上增加运动探测器。当检测到入侵者或行为人的动向,探测器便向远程监控人员发出警报,无需监控人员长久坚守显示屏前。然而问题在于,室外环境中,存在多种多样的运动或像素的变化,例如被风吹动的叶子,,昆虫,鸟类,狗,阴影,阳光等扰乱运动。这就导致了运动探测器每天会产生数百甚至数千个错误警报,使得该解决方案在非工作时间的室内环境中不可操作。
高级视频移动检测
下一次演变在一定程度上减少了错误警报,但代价是复杂且耗时的手动校准。这里,检测诸如人或车辆的目标相对于固定背景的变化。如果背景季节变化或由于其他变化,可靠性会随着时间的推移而恶化。再次回应过多错误警报的经济学证明是一个障碍,这种解决方案是不够的。
物联网技术可促进生产生活,为社会创造价值。实际上,物联网背后的传感器技术及其产生的数据有着更大价值,然而我们却很少关注它们。这种情况必须改变!
物联网分析的重要性
科研人员通常会投入了大量精力来研发、部署传感器,而不是对这些传感器生成的大量数据进行分析。但是,没有经过分析的数据是一文不值的。如果科研人员将更多的精力放在创建流式传输传感器之前生成的数据上,那会更好。
如果有了物联网分析(AoT),将会创造什么价值呢?小编通过几个案例来进行说明:
1、预测性维护
预测性维护是当今最广泛的AoT应用之一。这项应用是分析来自发动机、ATM或计算机等设备的传感器数据,以确定故障发生前的异样。这样便可以在故障发生之前主动出击,解决问题。
譬如,IBM公司就曾帮助美国的普惠发动机公司实现预测性维护。IBM通过PMQ(预测性维护和质量)的预测模型和数据集成模块将发动机的运行工况等数据进行360度的健康和风险主题分析,并将这些分析结果及时反馈给惠普,从而有效规避因发动机故障导致的飞机事故,保障飞行安全。
2、勾勒用户画像
一、DDoS的概念
1. 什么是“DDoS”?
DDoS:Distributed Denial of Service(分布式拒绝服务)攻击指借助于客户/服务器技术,将多个计算机联合起来作为攻击平台,对一个或多个目标发动DDoS攻击,从而成倍地提高拒绝服务攻击的威力。通常,攻击者使用一个偷窃账号将DDoS主控程序安装在一个计算机上,控制大批量的肉鸡发动攻击。
2. 什么是“拒绝服务”攻击?
可以简单理解为:让一个公开网站无法访问。要达到这个目的的方法也很简单:不断地提出服务请求,让合法用户的请求无法及时处理。
3. 什么是“分布式”?
随着网络发展,很多大型企业具备较强的服务提供能力,所以应付单个请求的攻击已经不是问题。于是攻击者就组织很多同伙,同时提出服务请求,直到服务无法访问,这就叫“分布式”。但在现实中,一般的攻击者无法组织各地伙伴协同“作战”,所以会使用“僵尸网络”来控制N多计算机进行攻击。
4. 什么是“僵尸网络”?
为什么要使用卷积呢?
在传统的神经网络中,比如多层感知机(MLP),其输入通常是一个特征向量,需要人工设计特征,然后将这些特征计算的值组成特征向量,在过去几十年的经验来看,人工找到的特征并不是怎么好用,有时多了,有时少了,有时选择的特征根本就不起作用(真正起作用的特征在浩瀚的未知里面)。这就是为什么在过去卷积神经网络一直被SVM等完虐的原因。
如果有人说,任何特征都是从图像中提取的,那如果把整副图像作为特征来训练神经网络不就行了,那肯定不会有任何信息丢失!那先不说一幅图像有多少冗余信息,单说着信息量就超级多。。。
假如有一幅1000*1000的图像,如果把整幅图像作为向量,则向量的长度为1000000(10^6)。在假如隐含层神经元的个数和输入一样,也是1000000;那么,输入层到隐含层的参数数据量有10^12,妈呀,什么样的机器能训练这样的网络呢。所以,我们还得降低维数,同时得以整幅图像为输入(人类实在找不到好的特征了)。于是,牛逼的卷积来了。接下来看看卷积都干了些啥。
CNN卷积神经网络层级结构
高精度地图是自动驾驶/无人驾驶的重要组成,那究竟什么是高精度地图?
网上找了两个关于高精度地图的定义,如下:
定义一:高精细地图是指高精度、精细化定义的地图,其精度需要达到分米级才能够区分各个车道,如今随着定位技术的发展,高精度的定位已经成为可能。而精细化定义,则是需要格式化存储交通场景中的各种交通要素,包括传统地图的道路网数据、车道网络数据、车道线以和交通标志等数据。
定义二:高精度电子地图也称为高分辨率地图(HD Map,High Definition Map),是一种专门为无人驾驶服务的地图。与传统导航地图不同的是,高精度地图除了能提供的道路(Road)级别的导航信息外,还能够提供车道(Lane)级别的导航信息。无论是在信息的丰富度还是信息的精度方面,都是远远高于传统导航地图的。
从上面的定义可以了解到,高精度地图提供了更高精度、更精细化的内容,包括了车道信息和交通标志信息等。那么更高精度+更详细内容=高精度地图?
物联网关键技术——RFID
什么是RFID?首先得搞清楚什么是物联网。
物联网是继计算机、互联网与移动通信网之后的世界信息产业的又一次革命。2005年11月国际电信联盟(ITU)发布了《国际电信联盟互联网报告2005:物联网》,将物联网定义为“把任何物品通过信息传感设备(如RFID)与互联网连接起来,进行信息交换和通信,可实现智能化识别、定位、跟踪、监控和管理。”
物联网将作为物理世界与虚拟世界的桥梁,实现物物相连、物人相连,使人力得以解放,管理更加智能。为了达成这样的效果,物联网须具备3大功能:全面感知、可靠传递、智能处理。目前的物联网技术架构中,分别依靠“感知层”、“网络层”、“应用层”来实现这三个功能。其中,感知层是物联网感知和获取物理世界信息的首要环节。感知层主要利用RFID、传感器等随时随地获取物体的信息。
大数据文摘出品
编译:DonFJ、蒋宝尚
机器学习是现在大家都打了鸡血想用或者在用的技术。
但是,你以为只有好人能用它吗?Too young too simple!
接下来,我将揭秘AI技术黑暗的一面——犯罪份子和人工智能的孽缘。
当计算科学发展的不够完善,还没能解决启发式问题的时候,很多安全问题都是利用规则来解决的,这些规则都是“死”的。
那时候没人觉得计算机能够破解密码、读出来验证码内容或者掌握马路交通的规律。但是现在,人工智能发展极快,老掉牙的基于规则的安全保障系统轻而易举的就被AI秒成渣。
验证码和AI的不解情缘
当我们上网的时候,最烦的就是验证码,它老是来让你填。这是计算机在确定你却是是个“大活人”,而不是一个程序在恶意攻击访问它。