demi的博客

干货丨一文看懂什么是“自然语言处理”

作者:武汉飔拓科技

一、什么是自然语言处理

简单地说,自然语言处理(NaturalLanguage Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。

从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

物联网中机器学习的挑战和机遇

据研究报告到2020年,将有超过200亿台互联网连接设备投入使用,这些设备每年将产生超过500个zettabytes的数据,随着更多的技术进步,这个数字预计将继续大幅增加。对于已经投资物联网的70%以上的组织而言,所有这些数据自然代表了独特的竞争优势,并且获得了用于开发创新AI应用程序的宝贵信息和见解的巨大机会。

事实证明,对于数据科学家和机器学习工程师而言,物联网数据与商业领袖一样令人兴奋。从医疗保健和农业到教育和运输,物联网蓬勃发展的领域与其应用程序一样多样化,从发现新信息到决策控制。物联网数据科学为创建令人兴奋的新数据产品打开了大门。但是,我们将在本文中研究物联网数据科学的一些特殊性。

数据注意事项

机器学习项目的完整工作流程是怎样的?

作者:七月在线寒小阳、龙心尘

1 抽象成数学问题

明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。

这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。

2 获取数据

数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。

数据要有代表性,否则必然会过拟合。

而且对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。
而且还要对数据的量级有一个评估,多少个样本,多少个特征,可以估算出其对内存的消耗程度,判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大,那就要考虑分布式了。

3 特征预处理与特征选择

良好的数据要能够提取出良好的特征才能真正发挥效力。

wifi基本原理

这里对wifi的802.11协议中比较常见的知识做一个基本的总结和整理,便于后续的学习。因为无线网络中涉及术语很多,并且许多协议都是用英文描述,所以有些地方翻译出来会有歧义,这种情况就直接英文来描述了。

一、基本概述

1、有线和无线网络

目前有线网络中最著名的是以太网(Ethenet),但是无线网络WLAN是一个很有前景的发展领域,虽然可能不会完全取代以太网,但是它正拥有越来越多的用户,无线网络中最有前景的是Wifi。本文介绍无线网络相关内容。

无线网络相比有线网络,还是有许多的缺点的:

通信双方因为是通过无线进行通信,所以通信之前需要建立连接;而有线网络就直接用线缆连接,不用这个过程了。

通信双方通信方式是半双工的通信方式;而有线网络可以是全双工。

通信时在网络层以下出错的概率非常高,所以帧的重传概率很大,需要在网络层之下的协议添加重传的机制(不能只依赖上面TCP/IP的延时等待重传等开销来保证);而有线网络出错概率非常小,无需在网络层有如此复杂的机制。

详述人工智能在自动驾驶技术中的应用

随着技术的快速发展云计算、大数据、人工智能一些新名词进入大众的视野,人工智能是人类进入信息时代后的又一技术革命正受到越来越广泛的重视。作为人工智能技术在汽车行业、交通领域的延伸与应用,无人驾驶近几年在世界范围内受到了产学界甚至国家层面的密切关注。

自动驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆。自动驾驶技术将成为未来汽车一个全新的发展方向。本文将主要介绍人工智能技术在自动驾驶中的应用领域,并对自动技术的发展前景进行一个简单的分析。

人工智能是一门起步晚却发展快速的科学。20 世纪以来科学工作者们不断寻求着赋予机器人类智慧的方法。现代人工智能这一概念是从英国科学家图灵的寻求智能机发展而来,直到1937年图灵发表的论文《理想自动机》给人工智能下了严格的数学定义,现实世界中实际要处理的很多问题不能单纯地是数值计算,如言语理解与表达、图形图像及声音理解、医疗诊断等等。

简单易懂的讲解深度学习(入门系列之五)

5.1 网之初,感知机

我们知道,《三字经》里开篇第一句就是:“人之初,性本善”。那么对于神经网络来说,这句话就要改为:“网之初,感知机”。感知机( Perceptrons ),基本上来说,是一切神经网络学习的起点。

很多有关神经网络学习(包括深度学习)的教程,在提及感知机时,都知道绕不过,但也仅仅一带而过。学过编程的同学都知道,不论是哪门什么语言,那个神一般存在的第一个程序——“Hello World”,对初学者有多么重要,可以说,它就是很多人“光荣与梦想”开始的地方。

而感知机学习,就是神经网络学习的“Hello World”,所以对于初学者来说,也值得我们细细玩味。因此,下面我们就给予详细讲解。

5.2 感性认识“感知机”

在第3小节中,我们已经提到,所谓的感知机,其实就是一个由两层神经元构成的网络结构,它在输入层接收外界的输入,通过激活函数(含阈值)的变换,把信号传送至输出层,因此它也称之为“阈值逻辑单元(threshold logic unit)”。

学习shader之前必须知道的东西——OpenGL的固定功能管线

学习着色器,并理解着色器的工作机制,就要对OpenGL的固定功能管线有深入的了解。

首先要知道几个OpenGL的术语

渲染(rendering):计算机根据模型(model)创建图像的过程。
模型(model):根据几何图元创建的物体(object)。
几何图元:包括点、直线和多边形等,它是通过顶点(vertex)指定的。

最终完成了渲染的图像是由在屏幕上绘制的像素组成的。在内存中,和像素有关的信息(如像素的颜色)组织成位平面的形式,位平面是一块内存区域,保存了屏幕上每个像素的一个位的信息。例如,它指定了一个特定像素的颜色中红色成分的强度。位平面又可以组织成帧缓冲区(framebuffer)的形式,后者保存了图形硬件为了控制屏幕上所有像素的颜色和强度所需要的全部信息。

OpenGL的固定功能管线

去伪存真!别让这8个安全流行词把你忽悠了

俗话说得好:如果某事看起来好到令人难以置信,那可能真的不能相信。仔细想想,绝佳交易和骗局看上去都是超级好。二者都表现出能为你面临的棘手难题提供必备解决方案的样子。然而,其中一个是真的很好,而另一个就很玄乎了。

同时,信息安全行业中的供应商都太急于抛出流行词,试图说服客户他们的解决方案非常合适。这种大环境下,企业或机构该如何理解什么是真的很好什么是太过虚幻呢?

以下就列出8个安全领域经常会遇到的流行词,帮读者看清它们的真相。

1. 人工智能

热炒人工智能(AI)概念的供应商多如牛毛,而且越来越多。千万别让这种被炒出来的概念迷惑了双眼。无论你要解决的问题是什么,让你的供应商解释清楚他们到底是怎样应用AI的,他们的解决方案如何帮助你的公司解决问题。比如说,如果供应商大赞其终端解决方案中的AI,那就问一些尖锐的问题。操作的是什么数据?扩展性如何?怎么在企业范围内加以应用?AI方法怎么识别感兴趣事件,怎么产生警报?大型企业生产环境中的误报率是多少?怎样最小化误报?

2. 机器学习

图片分享:机器学习算法一览图

在场中浏览主要算法以获得可用的方法的感觉是有用的。有这么多的算法,它可以感觉压倒性的算法名称被抛在周围,你希望只是知道他们是什么,他们适合的地方。

我想给你两种方法来思考和分类你可能在现场遇到的算法。第一种是通过学习风格的算法分组;第二种是通过形式或功能上的相似性(例如将类似的动物组合在一起)的算法分组。这两种方法都是有用的,但将集中在通过相似性的算法分组,并进行各种不同的算法类型的游览。

尽可能的给出了算法的英文名称以及英文缩写,少数算法只有中文名字......

点击图片可放大

在深度学习中处理不均衡数据集

作者:George Seif
编译:ronghuaiyang

不是所有的数据都是完美的。实际上,如果你拿到一个真实的完全均衡的数据集的话,那你真的是走了狗屎运了。大部分的时候,你的数据都会有某种程度上的不均衡,也就是说你的数据集中每个类别的数量会不一样。

我们为什么想要数据是均衡的?

在我们开始花时间做深度学习项目之前,非常重要的一点是需要理解为什么我们要做这个事情,确保我们的投入是值得的。当我们真正关心的是少数的类别的时候,类别均衡技术就是真正的必须的了。

比如说,我们想预测基于当前的市场情况,房子的属性,自己的预算,是否应该买房子。在这种情况下,如果我们买了,那么这是个正确的决定是非常重要的,因为这个是很大的一笔投资。同时,如果你的模型说不要买,而事实上需要买的话,这也没什么大不了的。你错过了这个,总是有其他的房子可以买的。但是如果买错了的话,那就是个大事了。