机器学习

机器学习、深度学习、和AI算法可以在网络安全中做什么?

本文作者:Alexander Polyakov,ERPScan的首席技术官和联合创始人、EAS-SEC总裁,SAP网络安全传播者。

现在已经出现了相当多的文章涉及机器学习及其保护我们免遭网络攻击的能力。尽管如此,我们也要清楚的去将理想与现实分开,看看机器学习(ML),深度学习(DL)和人工智能(AI)算法到底可以在网络安全中做什么。

首先,我必须让你失望,因为我们必须承认的是,尽管机器学习在图像识别或自然语言处理这两个领域取得了不错的成绩,但机器学习绝不会成为网络安全的silver bullet(银弹:喻指新技术,指人们寄予厚望的某种新科技)。总会有人试图在我们的系统中发现问题并试图绕过它们。更糟糕的是,这些先进的技术也正在被黑客们使用,例如黑客也可以使用机器学习来实现他们的意图。

机器学习不仅可以帮助我们完成典型的ML任务,包括回归(预测)、分类、聚类,推荐。ML也可以针对各种需求以不同的效率解决问题,这要根据你选择的算法而定。现在,我们将利用机器学习解决典型的网络安全任务。

机器学习之特征选择

特征选择方法初识:

1、为什么要做特征选择
在有限的样本数目下,用大量的特征来设计分类器计算开销太大而且分类性能差。

2、特征选择的确切含义
将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。

3、特征选取的原则
获取尽可能小的特征子集,不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点

主要有三种方法:

1、Filter方法

其主要思想是:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。

主要的方法有:

• Chi-squared test(卡方检验)

无监督学习、GAN和强化学习将构建机器学习的未来

文/Al Gharakhanian □编译/张含阳

随着人工智能的不断发展,许多新的机器学习技术、架构和算法被提出,但这里有三个宏观趋势,将成为机器学习中游戏规则的改变者。

机器学习(ML),特别是深度学习(DL)已经成为许多科技出版物所涵盖的最热门话题之一。当然,这里面有一些炒作的成分,但是我们有足够好的理由相信,机器学习这一领域是值得关注和覆盖的。

机器学习的范围和影响一遍又一遍地在各种学科,数百种应用中被证明其重要性。广告、无人驾驶、聊天机器人、网络安全、无人机、电子商务、金融技术、工业机械、医疗保健、营销策划、机器人,以及搜索引擎等应用,这些只是机器学习的部分应用而已。

机器学习的优势不再受限于只有少数几个能够买得起花哨装备的精英人士。不可否认的是,智能产品推荐以及高性价比的聊天机器人已经在普通百姓中得到了普及。这还不要说很多尚未开发的领域等着我们去发掘。

开发并部署机器学习的成本正快速下降。即使是最热衷于这种技术的怀疑论者,比如马斯克和霍金,也可以很容易地发现它的用途非常多,并从机器学习身上找到商业价值。

根据几位机器学习、深度学习领域的知名专家,深度神经网络“表现得极其好”,即便他们可能也搞不清到底为什么。

简单读懂人工智能:机器学习与深度学习是什么关系

随着AlphaGo战胜李世石,人工智能和深度学习这些概念已经成为一个非常火的话题。人工智能、机器学习与深度学习这几个关键词时常出现在媒体新闻中,并错误地被认为是等同的概念。本文将介绍人工智能、机器学习以及深度学习的概念,并着重解析它们之间的关系。本文将从不同领域需要解决的问题入手,依次介绍这些领域的基本概念以及解决领域内问题的主要思路。

从计算机发明之初,人们就希望它能够帮助甚至代替人类完成重复性劳作。利用巨大的存储空间和超高的运算速度,计算机已经可以非常轻易地完成一些对于人类非常困难,但对计算机相对简单的问题。比如,统计一本书中不同单词出现的次数,存储一个图书馆中所有的藏书,或是计算非常复杂的数学公式,都可以轻松通过计算机解决。然而,一些人类通过直觉可以很快解决的问题,目前却很难通过计算机解决。这些问题包括自然语言理解、图像识别、语音识别,等等。而它们就是人工智能需要解决的问题。

为什么说机器学习是我们预防网络威胁的最佳武器

随着攻击面的不断扩大以及攻击技术的日趋复杂,安全行业目前正面临着严重的“安全技能短缺”。因此,我们过去所使用的安全保护策略可能已经不再像以前那么有效了,而现在唯一能帮我们对抗网络犯罪分子的盟友/武器,可能就是机器学习技术了。

尽管很多大学和在职培训机构已经尽了最大的努力,但到2022年市场上预计将出现180万左右的安全专业职位空缺。这场“危机”之所以会到来,其中一个原因就在于物联网设备数量的直线上升将导致攻击面呈指数增长。与此同时,很多传统的犯罪组织以及流氓国家也正在成为网络犯罪领域中的主要力量,他们所拥有的资源和技术可能比以往安全社区所面临的任何情况都要可怕得多。

但幸运的是,机器学习和其他形式的人工智能技术已经成熟到足以加入网络安全防御战线的最前线了。计算机分析趋势、处理大规模数据以及检测异常的能力都要远远高于人类能力。在机器学习算法的的帮助下,计算机可以根据一系列基本规则来将其应用到大规模数据集上。当它们不停地对这些规则进行迭代测试后,它们对数据的理解将会更加深刻和复杂。

利用机器学习增强安全防御、检测和响应能力

机器学习之数据清洗与特征提取

导语:本文详细的解释了机器学习中,经常会用到数据清洗与特征提取的方法PCA,从理论、数据、代码三个层次予以分析。

作者:汪毅雄

机器学习,这个名词大家都耳熟能详。虽然这个概念很早就被人提出来了,但是鉴于科技水平的落后,一直发展的比较缓慢。但是,近些年随着计算机硬件能力的大幅度提升,这一概念慢慢地回到我们的视野,而且发展速度之快令很多人刮目相看。尤其这两年,阿法狗在围棋届的神勇表现,给人在此领域有了巨大的遐想空间。

所谓机器学习,一般专业一点的描述其是:机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

机器学习中的各种距离

在做分类时常常需要估算不同样本之间的相似性(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。

采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。

本文的目的就是对常用的相似性度量作一个总结。

本文目录:

1. 欧氏距离
2. 曼哈顿距离
3. 切比雪夫距离
4. 闵可夫斯基距离
5. 标准化欧氏距离
6. 马氏距离
7. 夹角余弦
8. 汉明距离
9. 杰卡德距离 & 杰卡德相似系数
10. 相关系数 & 相关距离
11. 信息熵

1. 欧氏距离(Euclidean Distance)

机器学习方法:集成学习原理小结

集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。

1. 集成学习概述

从下图,我们可以对集成学习的思想做一个概括。对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器,以达到博采众长的目的。

机器学习方法:集成学习原理小结

也就是说,集成学习有两个主要的问题需要解决,第一是如何得到若干个个体学习器,第二是如何选择一种结合策略,将这些个体学习器集合成一个强学习器。

2. 集成学习之个体学习器

机器学习中的误差减少策略

测试误差

我们在拿到样本后进行机器学习,通常可以将样本分为两部分,比如前70%用来机器学习得到Θ,后30%用来对数据进行检验。

如何进行检验?

之前我们知道,逻辑回归代价函数JΘ的计算法方法,那么此处同理,我们可以得到对测试数据的JtestΘ的表达式
机器学习中的误差减少策略
然后,我们利用剩下的测试数据统计0 / 1错分率,(或称误分类率)error(hΘ(x),y)
机器学习中的误差减少策略
,得到test error = ∑error(hΘ(x),y)/m_test【 i from 1 to m】。

对假设函数模型的选择

机器学习之一些基本概念及符号系统

1. 一些基本概念

训练集(Training Set):为了研究一个变量(x)与另一个变量(y)的关系,而通过观察、测量等方式获得的一组数据。这组数据中收集了x和与之对应的y——一个数据对(x, y)。例如我们要研究房屋面积(x)和售价(y)之间的关系,每观察一套已出售的房屋,就得到一个数据对(x, y)。观察10套已出售的房屋,就可以得到10个这样的数据对,这时就得到了一个用来研究房屋面积和售价之间的关系的训练集了(虽然样本量比较小)。这些数据集一般采集自现实环境中,属于现象(我们的目的是透过现象看本质)。

样本(Sample):训练集中采集数据的对象就是一个样本,例如一套已出售的房屋。

模型(Model):由于某些历史原因,机器学习中的模型也被叫做假设(hypothesis, h),这个h就是我们透过现象想要寻找的"本质"。建立模型的过程通常就是确定一个函数表达式的过程(是否还记得寒假作业中的这类题目:观察一组数,写出下一个数是什么?)。最常见的模型是回归模型(线性回归或逻辑回归等),例如我们假设房屋面积与售价之间的关系是一个线性回归模型,则可以写成:
h(θ)=θ0+θ1x…(1)h(θ)=θ0+θ1x…(1)

同步内容
--电子创新网--
粤ICP备12070055号