demi的博客

机器学习(二)——支持向量机SVM

1、SVM的原理是什么?

SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。(间隔最大是它有别于感知机)

试图寻找一个超平面来对样本分割,把样本中的正例和反例用超平面分开,并尽可能的使正例和反例之间的间隔最大。

支持向量机的基本思想可以概括为,首先通过非线性变换将输入空间变换到一个高维的空间,然后在这个新的空间求最优分类面即最大间隔分类面,而这种非线性变换是通过定义适当的内积核函数来实现的。SVM实际上是根据统计学习理论依照结构风险最小化的原则提出的,要求实现两个目的:
1)两类问题能够分开(经验风险最小)
2)margin最大化(风险上界最小)既是在保证风险最小的子集中选择经验风险最小的函数。

分为3类支持向量机:
(1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;
(2)当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;
(3)当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。

揭秘汽车无线解锁的七种攻击方式

无线解锁汽车虽然很方便,但同时也要付出极大的代价,比如黑客的窥视。随着智能汽车越来越多,依附于这类型汽车的新形式犯罪也出现了,行业里将这部分犯罪分子称为“钥匙黑客”,顾名思义就是借助廉价电子配件和新的黑客攻击技术,相对轻松的拦截或阻挡车钥匙向车发出的信号。想象一下,如果一个小偷能截获并复制你的车钥匙信号,那他就可以打开你的车,而且不会发出任何警报!

根据联邦调查局的数据,汽车盗窃数量自1991年达到顶峰以来一直呈螺旋式上升趋势。然而,自2015年以来,汽车被盗数量却呈现新的直线上升趋势。事实上,2015年汽车盗窃案件增加了3.8%,2016年增加7.4%,2017年上半年增加4.1%。

由于新型汽车的被盗方式与传统的汽车被盗有着本质的区别,所以很多用户的安全保护思维还没有转过弯来,为了让你的汽车不被盗,培养新的安全意识绝对是关键。因此,对抗这新一轮的汽车犯罪浪潮。我列出了目前汽车无线解锁的七种攻击方式,每个人都需要了解。

1. 对汽车的开关继电器进行黑客攻击

5G+VR将带来什么改变

“随着全社会对虚拟现实的关注度和理解力不断提高,虚拟现实的影响力也在逐渐扩大,向各行业各领域的渗透在不断深入,市场需求、行业应用正在激活,虚拟现实产业发展的战略窗口期已然形成……”在近日由工业和信息化部和江西省人民政府联合主办的2018世界VR产业大会上,工业和信息化部部长苗圩这样说。

未来,5G网络新技术将成为VR(虚拟现实)、AR(增强现实)产业赖以发展的通信技术。业界认为,5G可以根据业务需求匹配网络和计算资源,将更好地满足VR业务需求,推动VR创新应用发展。当VR产业遇上5G网络新技术,将产生哪些“化学反应”?

VR产业在垂直领域的融入度不断提升

市场研究公司IDC预测,虚拟现实和增强现实的“头显”(头戴式显示设备的简称)普及程度将快速增长,2018年销量将由2017年的800万台增长至1240万台,未来5年虚拟现实和增强现实“头显”销量平均增速为52.5%。

“VR产业已经进入成熟阶段的‘爬坡期’,VR内容的生产以及分发机制基本成型,用户的习惯已逐渐养成,垂直领域的融入度不断提升。”在大会期间由咪咕文化科技有限公司、中国移动通信研究院承办的“5G+VR”分论坛上,中国移动研究院副院长魏晨光说。

基于深度学习的遥感图像配准

本文基于2018年发表于期刊 ISPRS Journal of Photogrammetry and Remote Sensing (IF 5.994)上的论文“A deep learning framework for remote sensing image registration [1]”,王爽,权豆,梁雪峰,宁梦丹,郭岩河,焦李成。

1. 背景

随着对地观测技术的不断发展与更新,获取遥感图像的传感器也越来越多。为了分析某一场景,我们有时需要把不同时期的、不同传感器的、甚至于不同视角的遥感图像融合在一起处理,因此需要对遥感图像进行配准,将多幅遥感图像进行匹配和叠加。

2. 问题描述

基于图的图像分割(Graph-Based Image Segmentation)

一、介绍

基于图的图像分割(Graph-Based Image Segmentation),论文《Efficient Graph-Based Image Segmentation》,P. Felzenszwalb, D. Huttenlocher,International Journal of Computer Vision, Vol. 59, No. 2, September 2004

论文下载和论文提供的C++代码在这里

Graph-Based Segmentation是经典的图像分割算法,其作者Felzenszwalb也是提出DPM(Deformable Parts Model)算法的大牛。

人工智能会取代人工翻译吗?

虽然 AI 语音翻译已经应用到了不少生活、工作场景,但不得不说,AI 也许在国际象棋、自动驾驶、诊断癌症、射击罚球和预测农作物产量等方面优于人类,但是当涉及到翻译和口译时,它还是没法完全取代人类大脑。

其一,语言是主观的。

人工智能通常擅长做客观现实的任务。无论是识别数据集中难以捉摸的信号模式,还是导航复杂的路况,机器在面对决策制定的、明确的数学或物理规则时,都能发挥最佳作用。

相比之下,自然语言是由人类群体发明的,用于彼此交流的主观结构。它们有类似规则的行为(例如语法),但这些规则仅基于惯例,而不是客观现实,并且它们存在随机性、且在不断发展。

人类在识别肿瘤,或判断信用风险上也许没什么优势,但我们在自然语言上拥有“天然”的“最终权威”。此权限反映在评估机器翻译算法的选择度量标准中,机器翻译越接近专业的人工翻译,就越好。

人工翻译不只是设定标准,它必然也是标准。

其二,大数据没什么幽默感。

任何翻译都会告诉你笑话、双关语和狡猾的暗示(以及细致入微的文化参考),这也是克服语言障碍的最困难的部分。而且没有它们,我们的表达质量就会变得更平庸。

15年来,自然语言处理发展史上的8大里程碑

自然语言是人类独有的智慧结晶。自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,旨在研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。用自然语言与计算机进行通信,有着十分重要的实际应用意义,也有着革命性的理论意义。

由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以自然语言处理,也被视为解决人工智能完备(AI-complete)的核心问题之一。对自然语言处理的研究也是充满魅力和挑战的。

本文是来自自然语言处理领域从业人员、知名博主 Sebatian Ruder的一篇文章,主要从神经网络技术方法的角度,讨论自然语言处理领域近 15 年来的重大进展,并总结出与当下息息相关的 8 大里程碑事件。文章内容难免会省略了一些其它重要的相关工作,同时,这份总结偏向于神经网络相关技术,这并不意味着在这段时间内其它技术领域就没有重要的进展。值得注意的是,文中提及的很多神经网络模型都是建立在同一时期非神经网络技术的里程碑之上的,在文章的最后,我们强调了这些打下坚实基础的重要成果。

20个机器学习工具,哪个语言最适合程序员入门AI?(上)

训练有素的士兵无法空手执行任务。 数据科学家拥有自己的武器 - 机器学习(ML)软件。 已经有大量文章列出了可靠的机器学习工具,并对其功能进行了深入的描述。 然而,我们的目标是获得行业专家的反馈。

这就是为什么我们采访数据科学从业者 - 大师,真正考虑他们为项目选择的有用工具。 我们联系的专家拥有各种专业领域,并且在Facebook和三星等公司工作。 其中一些代表AI创业公司(Objection Co,NEAR.AI和Respeecher); 一些人在大学任教(哈尔科夫国立无线电大学)。

最流行的机器学习语言

你在一个外国餐馆,你不熟悉这种文化。 你可能会问服务员关于菜单上的文字,他们的意思,甚至在你发现你将使用什么用具之前的一些问题。 因此,在谈论数据科学家最喜欢的工具之前,让我们弄清楚他们使用的编程语言。

人工智能与区块链结合要面临哪些挑战?

区块链与人工智能这两大前沿技术,前者拥有数据透明公开、效率低下、去中心化、隐私性等特性,而后者传统上则被巨头所垄断,因此具有中心化的特性,同时其也容易发生出错的情况,那么这两种技术结合又会擦出什么样的火花呢,其中遇到的挑战又在于哪?来自1Kosmos BlockID的创始人兼CTO Rohan Pinto在本文中给出了他的看法。

我在密码学领域已工作了二十多年,并且自其诞生以来,我一直是密码学发展的积极参与者。尤其是,我认为人工智能(AI)和区块链的结合,会是一个令人兴奋,但具有挑战性的新发展。

Matt Turck最近讨论了为什么这个话题很重要,并强调了行业当中一些有趣的项目,他将人工智能(大数据、数据科学、机器学习)和区块链(去中心化基础设施)定义为下一个十年的核心技术。显然,这些新概念的时机已经成熟了,尽管它们仍然是新生的、仍不发达的。

有趣的是,人工智能和区块链在哲学上是不同的:

AI是由更中心化的基础设施驱动的,这与区块链去中心化、分布式的性质是相对的;

很多人工智能技术由中心化提供商所拥有和运营的,而市场上的大多数区块链企业都将其代码库开源公开,任何人都可以在任何时间点自由地查看这些代码。

就现在而言,AI更像是一个黑盒解决方案,而区块链在处理其交易时往往是很透明的。

强人工智能基本问题:神经网络分层还是不分层

现代的大部分机器学习的算法将神经元分出了清晰的层次。所谓分层,即将神经元分为几层(也可认为是几组)。每层内的神经元没有联系,相邻的层与层之间的神经元会有两两的联系,从而形成一个关系矩阵。非相邻层的神经元之间没有联系。这里的相邻指的是神经元层次之间的关系,每层神经元有一层或者前后两层相邻。

一般神经网络的算法的神经元层数是有限的,一般是两三层。在理论上,三层神经元(包括输入、输出和隐含层,除去输入输出,也可算做只有一层)就足以解决所有问题了,因为中间的隐含层能够表达所有函数。但这只是数学上的可能性,实际中如果只用一个隐含层来实现人类智能,需要的节点数量估计近似于无穷。