demi的博客

人工智能的利与弊

技术是人类发展和成长的重要组成部分。人工智能( AI )就是这样一种技术,它正在大肆炒作。 随着技术成为我们日常生活的一部分,人工智能已成为辩论和讨论的主题,科技专家认为这是一种福音,对某些人来说,这是一场灾难。尽管如此,我们仍然不确定人工智能的未来——人工智能是威胁还是福音?

花几分钟时间分析一下,看看你对人工智能(AI)应用的依赖程度如何?

我们肯定你听说过苹果的虚拟助理Siri,你还经常使用谷歌的语音搜索功能吗,好用吗?这两个应用程序都使用了人工智能技术,可以让我们的生活更轻松。无论是拨打电话还是设置提醒,AI都在为更高效的生活铺平道路。

让我们深入研究一下,看看人工智能的好处和风险。

人工智能的优点如下:

减少出错机会

由于机器所做的决策是基于先前的数据记录和算法组合,因此出现错误的机会减少了。这是一项成就,因为解决了需要进行计算困难的复杂问题,可以在没有任何误差范围的情况下完成。

7 种回归方法!请务必掌握!

作者:红色石头

线性回归和逻辑回归通常是人们学习预测模型的第一个算法。由于这二者的知名度很大,许多分析人员以为它们就是回归的唯一形式了。而了解更多的学者会知道它们是所有回归模型的主要两种形式。

事实是有很多种回归形式,每种回归都有其特定的适用场合。在这篇文章中,我将以简单的形式介绍 7 中最常见的回归模型。通过这篇文章,我希望能够帮助大家对回归有更广泛和全面的认识,而不是仅仅知道使用线性回归和逻辑回归来解决实际问题。

一文读懂什么是P问题、NP问题和NPC问题

你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC问题。他们没有搞清楚NP问题和NPC问题的概念。NP问题并不是那种“只有搜才行”的问题,NPC问题才是。好,行了,基本上这个误解已经被澄清了。下面的内容都是在讲什么是P问题,什么是NP问题,什么是NPC问题,你如果不是很感兴趣就可以不看了。接下来你可以看到,把NP问题当成是 NPC问题是一个多大的错误。

从普通程序员到AI大神,跨界的正确方式!

人工智能的飞速崛起,使得该领域出现了巨大的人才缺口,据说在北上广地区,一个机器学习算法的岗位拿到100K的薪水也并不是一件很困难的事情,这刺激了普通程序员学习人工智能,迫切希望在人工智能大热时实现转行。可是许多程序员不知道该如何快速有效地学习人工智能。

其实,既然已经具备了普通程序员的功底,再转人工智能方向并非难事,接下来我们就具体分析一下,普通程序员该如何正确学习人工智能方向的知识。

1. 熟练掌握基础理论知识

要成为人工智能领域,尤其是机器学习方向的程序员必须有一定的数学和算法基础,尽管各类框架使得现在的机器学习编程变得越来越简单,表面上可以不用在意太多的数学和算法细节,但实际上,即使是针对工程应用,一定程度的数学和算法理解以及对应的思维方式,能够在解决问题以及选择模型套用时提供许多的帮助。相关的知识理论基础包括:高等数学基础、统计学基础、线性代数、数值计算方法、运筹学。

当然,如果不打算进行特别深入的研究和扩展,以上内容并不需要都精通,但至少需要保持在知晓且能够形象化理解的范围内,只有在掌握这些基础的前提下,理解人工智能和机器学习相关的知识才能更加轻松顺利。

2. 相关基础工具的学习和应用

虚拟现实感知的技术应用和虚拟化具身

虚拟现实技术的兴起,这两年已经成为了一种高科技、时尚的代名词。虚拟现实技术什么时候才能走进我们的生活,成为我们平常生活中随时可以应用的一种工具?现在我带你走进虚拟现实的世界,让我们一起感受虚拟现实在生活中的体验。

一、虚拟电子媒体

每天早上醒来,我们只需要声控“打开新闻”,就会在我们所处的卧室、客厅、厨房、卫生间出现一道看不见的电子墙,实现全4维空间播放我们感兴趣的实事、经济、科技、娱乐、天气等新闻,就像我们在现场一般。当你乘坐公共交通时,只需在入口处扫描二维码,在手机上打开应用,就可以不需要拿着手机,而是在你面前出现一个屏幕,你可以随意观看你感兴趣的文字、图像、音频、视频等,而且只有你自己能看见、听得见,周围的人不受任何影响。

二、驾驶的应用

[深度学习]不平衡样本的处理

机器学习中经典假设中往往假定训练样本各类别是同等数量即各类样本数目是均衡的,但是真实场景中遇到的实际问题却常常不符合这个假设。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就会受到影响。一个例子,训练集中有99个正例样本,1个负例样本。在不考虑样本不平衡的很多情况下,学习算法会使分类器放弃负例预测,因为把所有样本都分为正便可获得高达99%的训练分类准确率。

下面将从“数据层面“和”算法层面“两个方面介绍不平衡样本问题。

数据层面处理办法

数据层面处理方法多借助数据采样法使整体训练集样本趋于平衡,即各类样本数基本一致。

数据重采样

卷积神经网络CNN—— FCN(Fully Convolutional Networks)要点解释

前言

参考FCN论文:Fully Convolutional Networks for Semantic Segmentation

FCN作为图像语义分割的先河,实现像素级别的分类(即end to end,pixel-wise),为后续使用CNN作为基础的图像语义分割模型提供重要基础。作者在阅读FCN论文时,遇到不少困难,同时FCN没有多少中文资料(更多是英语翻译),所以作者尽量用浅白的方式讲述FCN的原理与过程。

FCN中的CNN

首先回顾CNN测试图片类别的过程,如下图

机器学习实践中应避免的七种常见错误

统计建模和工程开发很相似。在工程开发中,人们有多种方法搭建一套键-值存储系统,每种设计针对使用模式有一套不同的假设。在统计建模中,也有很多算法来构造一个分类器,每种算法对数据也有各自的假设集合。

当处理少量数据时,因为实验成本很低,我们尽可能多的尝试各种算法,从而选出效果最优的算法。但提到“大数据”,提前分析数据,然后设计相应“管道”模型(预处理,建模,优化算法,评价,产品化)是事半功倍的。

正如在我以前的文章里提到,每个给定的建模问题都存在几十种解法。每个模型会提出不同的假设条件,我们也很难直观辨别哪些假设是合理的。在业界,大多数从业人员倾向于挑选他们熟悉的建模算法,而不是最适合数据集的那个。在这篇文章中,我将分享一些常见的认识误区(要避免的)。在今后的文章中再介绍一些最佳实践方法(应该做的)。

1. 想当然地使用默认损失函数

滤波试验:不同噪声选用什么滤波器

在图像处理中,首先要对原始图像进行预处理,即将效果较差的图像处理为尽量符合后续工作的有效图像。这一步主要用到了图像增强技术(Image Enhancement)和图像复原技术(Image Restoration)。图像增强是主观的(subjective),没有特定标准需要增强到什么程度,只要满足用户的需求即可;而图像复原是客观的(objective),需要尽可能恢复为原始图像。今天我主要针对图像复原方法做了实验。

图像复原,主要是去噪。噪声来源灰常多,但主要可以分为三类:
1. 来自捕捉源的(acquisition/digitization),比如一个摄像机的镜头、A/D或者sensor;
2. 来自图像传输过程(image transmission),传输图像的信道包括无线电、微波、光缆等等,如果通过无线电传输,遇到个风吹雨雪的,自然会有各种噪声了;
3. 来自计算过程(computation),比如咱们将浮点型数据转化为整形处理,就会丢失部分信息,但这不属于错误,是把问题简化,所以这也是一种噪声。所以,图像复原主要是用各种滤波方法去除噪声。

机器好奇心有助于人工智能的发展

会学习的软件正在改变世界,但需要监督。人类以两种方式监督它们。一是向机器学习算法展示描述当下任务的大量数据。例如有标记的猫和狗的图片,让算法学习区分两者。另一种监督是在高度结构化的环境中设定一个特定目标,例如在某款电子游戏中获得高分,再让算法尝试众多可能性,直到找到能实现目标的那一个。

这两种「监督学习」的方法已经在人工智能(AI)领域带来了突破。2012 年,多伦多大学的一组研究人员用第一种方法构建了 AlexNet,这个软件在一项竞赛中识别出的图像比其最接近的竞争对手多了十分之一。2015 年,Alphabet 旗下的英国人工智能公司 DeepMind 的研究人员用第二种方法教一个算法玩电子游戏雅达利( Atari),水平超过人类。后来在围棋上取得的胜利正源自这一成果。