demi的博客

图像识别的未来:机遇与挑战并存

本文转载自公众号微软研究院AI头条(ID:MSRAsia)
本文作者:代季峰、林思德、郭百宁

编者按:自1998年成立以来,微软亚洲研究院一直致力于推动计算机科学领域的前沿技术发展。在建院20周年之际,我们特别邀请微软亚洲研究院不同领域的专家共同撰写“预见未来”系列文章,以各自领域的前瞻视角,从机器学习、计算机视觉、系统架构、图形学、自然语言处理等多个方向出发,试图描绘一幅未来科技蓝图。

在计算机视觉领域,图像识别这几年的发展突飞猛进,但在进一步广泛应用之前,仍然有很多挑战需要我们去解决。本文中,微软亚洲研究院视觉计算组的研究员们为我们梳理目前深度学习在图像识别方面所面临的挑战以及具有未来价值的研究方向。

识别图像对人类来说是件极容易的事情,但是对机器而言,这也经历了漫长岁月。

在计算机视觉领域,图像识别这几年的发展突飞猛进。例如,在PASCAL VOC物体检测基准测试中,检测器的性能从平均准确率30%飙升到了今天的超过90%。对于图像分类,在极具挑战性的ImageNet数据集上,目前先进算法的表现甚至超过了人类。

迁移学习在自然语言处理领域的应用

迁移学习

迁移学习近年来在图形领域中得到了快速的发展,主要在于某些特定的领域不具备足够的数据,不能让深度模型学习的很好,需要从其它领域训练好的模型迁移过来,再使用该模型进行微调,使得该模型能很好地拟合少量数据的同时又具备较好的泛化能力(不过拟合)。

在迁移学习任务中,需要事先定义一组源数据集合,使用该集合训练得到预训练好的模型,该模型具备了源数据集合中的一些知识,在目标数据集合上微调该预训练的模型,使得模型能够很好地完成目标数据集合定义的任务,即完成了迁移学习。

由于深度学习模型结构复杂,在NLP领域中迁移学习不够成熟,不知道如何进行迁移、迁移模型的哪个结构部分、源数据集合与目标数据集合之间需要满足怎样的关系。本文以CNN文本分类任务为例进行描述,总结一下迁移学习在NLP领域文本分类任务中的一些经验。

CNN文本分类模型框架

机器视觉中工业相机常用参数

工业相机是机器视觉系统中的一个关键组件,其最基础功能就是将光信号转变成为有序的电信号。选择合适的工业相机也是机器视觉系统设计中的重要环节,工业相机不仅是直接决定所采集到的图像分辨率、图像质量等,同时也与整个系统的运行模式直接相关。

工业相机主要参数

1. 分辨率(Resolution):相机每次采集图像的像素点数(Pixels),对于工业数字相机一般是直接与光电传感器的像元数对应的,对于工业数字模拟相机则是取决于视频制式,PAL制为768*576,NTSC制为640*480。

2. 像素深度(Pixel Depth):即每像素数据的位数,一般常用的是8Bit,对于工业数字数字相机一般还会有10Bit、12Bit等。

3. 最大帧率(Frame Rate)/行频(Line Rate):相机采集传输图像的速率,对于面阵相机一般为每秒采集的帧数(Frames/Sec.),对于线阵相机机为每秒采集的行数(Hz)。

详解 RNN 文本分类模型的架构

典型 RNN 模型

下图是典型的 RNN 模型,X 是输入,对文本经过嵌入层嵌入处理,再进入 RNN,RNN 的后面是全连接层,输出各个类别的概率。

详解 RNN 文本分类模型的架构

下面来描述一次数据从输入到输出的完整过程:

在自然语言处理中,不管是中文还是英文,首先第一步的任务是如何将文本数据数值化。对于中文,可以先建立词汇表,给词汇表中的没歌词建立唯一的 id 标识(数字),这样每段文本都可以用一串数字 id 来表示,然后就能进行词嵌入操作,英文的处理方法也类似。

对文本预处理时,由于每条文本的长度不一,需要给输入统一规定长度(seq_length),超过的截断,不足的填充。假设有 N​ 段文本(text),统一长度后就变成了 [N, 1, seq_length]​大小的矩阵,矩阵的每一行代表一段文本,大小为​[1, seq_length]​。

什么是离屏渲染?什么情况下会触发?该如何应对?

离屏渲染就是在当前屏幕缓冲区以外,新开辟一个缓冲区进行操作。

离屏渲染出发的场景有以下:
  •   圆角 (maskToBounds并用才会触发)
  •   图层蒙版
  •   阴影
  •   光栅化

为什么要有离屏渲染?

大家高中物理应该学过显示器是如何显示图像的:需要显示的图像经过CRT电子枪以极快的速度一行一行的扫描,扫描出来就呈现了一帧画面,随后电子枪又会回到初始位置循环扫描,形成了我们看到的图片或视频。

为了让显示器的显示跟视频控制器同步,当电子枪新扫描一行的时候,准备扫描的时发送一个水平同步信号(HSync信号),显示器的刷新频率就是HSync信号产生的频率。然后CPU计算好frame等属性,将计算好的内容交给GPU去渲染,GPU渲染好之后就会放入帧缓冲区。然后视频控制器会按照HSync信号逐行读取帧缓冲区的数据,经过可能的数模转换传递给显示器,就显示出来了。具体的大家自行查找资料或询问相关专业人士,这里只参考网上资料做一个简单的描述。

Unity 2019.1 Alpha新功能:增量式垃圾回收

我们为Unity 2019.1a10中加入了实验性新功能:Incremental Garbage Collection增量式垃圾回收。本文将介绍增量式垃圾回收功能,如何启用以及未来开发计划。

Unity 2019.1 Alpha新功能:增量式垃圾回收

为什么使用增量式垃圾回收

C#语言使用托管内存和自动垃圾回收,这意味着它使用自动化方法跟踪内存中的对象,然后释放不再使用对象的内存。

这种做法的优点是,开发者不必手动跟踪释放不需要的内存,因为垃圾回收器会自动执行此操作,这样会使开发者的工作更轻松,同时避免出现潜在Bug。缺点是垃圾回收器需要一些时间完成工作,而开发者或许不希望将特定时间用于此处。

人工神经网络真的像神经元一样工作吗?

来源:Medium/编译:weakish

编者按:Google产品经理Yariv Adan讨论了困惑很多人的问题:人工神经网络和人类大脑中的神经网络到底有多像?

人工神经网络和机器学习已经成为大众媒体的热门主题。智能机器这一想法勾起了很多人的想象,而且人们特别喜欢把它和人类放一起比较。特别是有一个关于人工智能的底层机制的基础问题经常出现——这些人工神经网络的工作方式真的和我们大脑中的神经元相似吗?

Tl;Dr

不。尽管从高层概念上说,ANN(人工神经网络)受到了大脑中的神经元和神经网络的启发,但这些概念的ML实现和大脑的工作方式大有径庭。不仅如此,随着这些年来ML领域的进展,新的复杂想法和技术的提出(RNN、GAN等)——这一联系进一步削弱了。

关键相似点

前馈全连接网络的高层架构和一般原则体现了人工神经网络和大脑中的神经网络的相似性。

从高层看,大脑的神经元由三部分组成:

最可怕的八种黑客手段,网络攻击真是无孔不入!

信息技术的应用以及互联网的普及,给我们的生活带来智能和便利的同时,也带来了风险与挑战。网络安全成为社会普遍关心的问题,无论企业还是个人,其实我们每时每刻都将信息和隐私暴露于危险之中。

日常生活中,手机、电脑、平板电脑或者其他电子产品在连接网络的时候,都非常容易受到网络攻击。黑客防不胜防,攻击的来源很可能是我们平时最容接触到的事物,让人难以防备。

下面就给大家盘点几个黑客常见的攻击手段。真是看得小编毛骨悚然啊!

1. 通过声音监控手机

2017年3月,美国密歇根大学和南卡罗来纳大学的研究人员发现可以利用声波入侵智能手机。研究人员发现,用特定频率的声波,可以让手机上的加速度计(一种传感器)产生共振,让它收到错误的信息,从而操控手机系统。韩国研究人员就曾经用相似的方法入侵无人机。

2. 发送传真即可入侵网络

尽管传真机已经没有那样流行了,并且传真机都已经设计成打印传真一体机,与办公网络相连接。但目前全球还有3亿个传真号码及4500万在用的传真机,在某些商业领域,传真仍然很流行。

想知道哪些技术有潜力颠覆未来?看这篇文章就够了

编者按:未来会怎样?没人知道,但是人人都可以设想。从AI、区块链、无人机,到AR/VR、无人车,乃至于物联网、微芯片、纳米机器人、CRISPR,以及智能微尘、数字孪生等,AI专家Adrien Book汇编了各种有可能成为下一个大事物的颠覆性技术,把它们分成无聊的意料之中、还算过得去、非常令人兴奋以及很晦涩但非常令人兴奋这四类,不妨看看谁最有可能率先取得突破吧。

作为一个稍纵即逝的概念,技术被记者、创业者和投资者无休止地关注着,希望靠留意和投资下一个大事物而赚大钱。以至于在这个过程中有时候他们会失去理智,弄出一些非常愚蠢的东西。这群快乐的预言者往往看不到以史为鉴的讽刺性。在一个创新和改变是取得进步的命脉的领域过于依赖过去的数据作为未来情况的信号。

但是读者对此依然买账,因为我们作为人喜欢那种可预测以及清晰的叙述的感觉。因此为了让大家达成一些共识,以下是我对未来科技的一些预测,其中既有以及被讨论得烂大街的无聊东西,也有那些似乎很怪异或者不大可能的东西,对于后者我反而愿意投钱。

无聊的意料之中的东西

AI/机器学习/深度学习