demi的博客 | 电子创新网 Imgtec 社区

自然语言处理中的语言模型预训练方法

demi 在周二, 10/23/2018 - 16:34 提交

最近，在自然语言处理（NLP）领域中，使用语言模型预训练方法在多项NLP任务上都获得了不错的提升，广泛受到了各界的关注。我将最近看的一些相关论文进行总结，选取了几个代表性模型和大家一起学习分享。

神经网络：卷积神经网络

demi 在周二, 10/23/2018 - 15:31 提交

一、前言

这篇卷积神经网络是前面介绍的多层神经网络的进一步深入，它将深度学习的思想引入到了神经网络当中，通过卷积运算来由浅入深的提取图像的不同层次的特征，而利用神经网络的训练过程让整个网络自动调节卷积核的参数，从而无监督的产生了最适合的分类特征。这个概括可能有点抽象，我尽量在下面描述细致一些，但如果要更深入了解整个过程的原理，需要去了解DeepLearning。

这篇文章会涉及到卷积的原理与图像特征提取的一般概念，并详细描述卷积神经网络的实现。但是由于精力有限，没有对人类视觉的分层以及机器学习等原理有进一步介绍，后面会在深度学习相关文章中展开描述。

二、卷积

卷积是分析数学中一种很重要的运算，其实是一个很简单的概念，但是很多做图像处理的人对这个概念都解释不清，为了简单起见，这里面我们只介绍离散形式的卷积，那么在图像上，对图像用一个卷积核进行卷积运算，实际上是一个滤波的过程。

我们先看一下卷积的基本数学表示：

机器学习（二）——支持向量机SVM

demi 在周二, 10/23/2018 - 10:44 提交

1、SVM的原理是什么？

SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。（间隔最大是它有别于感知机）

试图寻找一个超平面来对样本分割，把样本中的正例和反例用超平面分开，并尽可能的使正例和反例之间的间隔最大。

支持向量机的基本思想可以概括为，首先通过非线性变换将输入空间变换到一个高维的空间，然后在这个新的空间求最优分类面即最大间隔分类面，而这种非线性变换是通过定义适当的内积核函数来实现的。SVM实际上是根据统计学习理论依照结构风险最小化的原则提出的，要求实现两个目的：
1）两类问题能够分开（经验风险最小）
2）margin最大化（风险上界最小）既是在保证风险最小的子集中选择经验风险最小的函数。

分为3类支持向量机：
（1）当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机；
（2）当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机；
（3）当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

揭秘汽车无线解锁的七种攻击方式

demi 在周二, 10/23/2018 - 10:03 提交

无线解锁汽车虽然很方便，但同时也要付出极大的代价，比如黑客的窥视。随着智能汽车越来越多，依附于这类型汽车的新形式犯罪也出现了，行业里将这部分犯罪分子称为“钥匙黑客”，顾名思义就是借助廉价电子配件和新的黑客攻击技术，相对轻松的拦截或阻挡车钥匙向车发出的信号。想象一下，如果一个小偷能截获并复制你的车钥匙信号，那他就可以打开你的车，而且不会发出任何警报！

根据联邦调查局的数据，汽车盗窃数量自1991年达到顶峰以来一直呈螺旋式上升趋势。然而，自2015年以来，汽车被盗数量却呈现新的直线上升趋势。事实上，2015年汽车盗窃案件增加了3.8％，2016年增加7.4％，2017年上半年增加4.1％。

由于新型汽车的被盗方式与传统的汽车被盗有着本质的区别，所以很多用户的安全保护思维还没有转过弯来，为了让你的汽车不被盗，培养新的安全意识绝对是关键。因此，对抗这新一轮的汽车犯罪浪潮。我列出了目前汽车无线解锁的七种攻击方式，每个人都需要了解。

1. 对汽车的开关继电器进行黑客攻击

5G+VR将带来什么改变

demi 在周二, 10/23/2018 - 09:18 提交

“随着全社会对虚拟现实的关注度和理解力不断提高，虚拟现实的影响力也在逐渐扩大，向各行业各领域的渗透在不断深入，市场需求、行业应用正在激活，虚拟现实产业发展的战略窗口期已然形成……”在近日由工业和信息化部和江西省人民政府联合主办的2018世界VR产业大会上，工业和信息化部部长苗圩这样说。

未来，5G网络新技术将成为VR（虚拟现实）、AR（增强现实）产业赖以发展的通信技术。业界认为，5G可以根据业务需求匹配网络和计算资源，将更好地满足VR业务需求，推动VR创新应用发展。当VR产业遇上5G网络新技术，将产生哪些“化学反应”？

VR产业在垂直领域的融入度不断提升

市场研究公司IDC预测，虚拟现实和增强现实的“头显”（头戴式显示设备的简称）普及程度将快速增长，2018年销量将由2017年的800万台增长至1240万台，未来5年虚拟现实和增强现实“头显”销量平均增速为52.5%。

“VR产业已经进入成熟阶段的‘爬坡期’，VR内容的生产以及分发机制基本成型，用户的习惯已逐渐养成，垂直领域的融入度不断提升。”在大会期间由咪咕文化科技有限公司、中国移动通信研究院承办的“5G+VR”分论坛上，中国移动研究院副院长魏晨光说。

基于深度学习的遥感图像配准

demi 在周一, 10/22/2018 - 16:44 提交

本文基于2018年发表于期刊 ISPRS Journal of Photogrammetry and Remote Sensing （IF 5.994）上的论文“A deep learning framework for remote sensing image registration [1]”，王爽，权豆，梁雪峰，宁梦丹，郭岩河，焦李成。

1. 背景

随着对地观测技术的不断发展与更新，获取遥感图像的传感器也越来越多。为了分析某一场景，我们有时需要把不同时期的、不同传感器的、甚至于不同视角的遥感图像融合在一起处理，因此需要对遥感图像进行配准，将多幅遥感图像进行匹配和叠加。

2. 问题描述

基于图的图像分割（Graph-Based Image Segmentation）

demi 在周一, 10/22/2018 - 11:17 提交

一、介绍

基于图的图像分割（Graph-Based Image Segmentation），论文《Efficient Graph-Based Image Segmentation》，P. Felzenszwalb, D. Huttenlocher，International Journal of Computer Vision, Vol. 59, No. 2, September 2004

论文下载和论文提供的C++代码在这里。

Graph-Based Segmentation是经典的图像分割算法，其作者Felzenszwalb也是提出DPM（Deformable Parts Model）算法的大牛。

人工智能会取代人工翻译吗？

demi 在周一, 10/22/2018 - 10:06 提交

虽然 AI 语音翻译已经应用到了不少生活、工作场景，但不得不说，AI 也许在国际象棋、自动驾驶、诊断癌症、射击罚球和预测农作物产量等方面优于人类，但是当涉及到翻译和口译时，它还是没法完全取代人类大脑。

其一，语言是主观的。

人工智能通常擅长做客观现实的任务。无论是识别数据集中难以捉摸的信号模式，还是导航复杂的路况，机器在面对决策制定的、明确的数学或物理规则时，都能发挥最佳作用。

相比之下，自然语言是由人类群体发明的，用于彼此交流的主观结构。它们有类似规则的行为（例如语法），但这些规则仅基于惯例，而不是客观现实，并且它们存在随机性、且在不断发展。

人类在识别肿瘤，或判断信用风险上也许没什么优势，但我们在自然语言上拥有“天然”的“最终权威”。此权限反映在评估机器翻译算法的选择度量标准中，机器翻译越接近专业的人工翻译，就越好。

人工翻译不只是设定标准，它必然也是标准。

其二，大数据没什么幽默感。

任何翻译都会告诉你笑话、双关语和狡猾的暗示（以及细致入微的文化参考），这也是克服语言障碍的最困难的部分。而且没有它们，我们的表达质量就会变得更平庸。

15年来，自然语言处理发展史上的8大里程碑

demi 在周一, 10/22/2018 - 09:30 提交

自然语言是人类独有的智慧结晶。自然语言处理（Natural Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向，旨在研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。用自然语言与计算机进行通信，有着十分重要的实际应用意义，也有着革命性的理论意义。

由于理解自然语言，需要关于外在世界的广泛知识以及运用操作这些知识的能力，所以自然语言处理，也被视为解决人工智能完备（AI-complete）的核心问题之一。对自然语言处理的研究也是充满魅力和挑战的。

本文是来自自然语言处理领域从业人员、知名博主 Sebatian Ruder的一篇文章，主要从神经网络技术方法的角度，讨论自然语言处理领域近 15 年来的重大进展，并总结出与当下息息相关的 8 大里程碑事件。文章内容难免会省略了一些其它重要的相关工作，同时，这份总结偏向于神经网络相关技术，这并不意味着在这段时间内其它技术领域就没有重要的进展。值得注意的是，文中提及的很多神经网络模型都是建立在同一时期非神经网络技术的里程碑之上的，在文章的最后，我们强调了这些打下坚实基础的重要成果。

20个机器学习工具，哪个语言最适合程序员入门AI？（上）

demi 在周五, 10/19/2018 - 15:19 提交

训练有素的士兵无法空手执行任务。数据科学家拥有自己的武器 - 机器学习（ML）软件。已经有大量文章列出了可靠的机器学习工具，并对其功能进行了深入的描述。然而，我们的目标是获得行业专家的反馈。

这就是为什么我们采访数据科学从业者 - 大师，真正考虑他们为项目选择的有用工具。我们联系的专家拥有各种专业领域，并且在Facebook和三星等公司工作。其中一些代表AI创业公司（Objection Co，NEAR.AI和Respeecher）; 一些人在大学任教（哈尔科夫国立无线电大学）。

最流行的机器学习语言

你在一个外国餐馆，你不熟悉这种文化。你可能会问服务员关于菜单上的文字，他们的意思，甚至在你发现你将使用什么用具之前的一些问题。因此，在谈论数据科学家最喜欢的工具之前，让我们弄清楚他们使用的编程语言。