demi的博客

七招教你处理非平衡数据——避免得到一个“假”模型

这篇博客主要介绍处理不平衡数据的技巧,那么什么是不平衡数据呢?比如说一位医生做了一个病例对照研究,数据集由病例10人和对照990人组成,建立好一个逻辑回归模型后,并对建立的模型进行内部验证,居然发现其正确率高达99%,然后把他兴奋坏了,觉得可以将该成果发表到顶级期刊上,从此走上人生巅峰。然而,我们可以发现,该模型不管怎么预测,都能得到正常的结果,所谓的99%的正确率,原来是建立在1000个人中10个病例都发现不了的基础上。从这个例子可以看出,当遇到不平衡数据时,以总体分类准确率为学习目标的传统分类算法会过多地关注多数类,从而使得少数类样本的分类性能下降。

介绍

不平衡数据广泛存在于各个领域,但在二分类问题中尤其常见,表现为其中的一个类别所占的比例远远高于另外的一个类。比如:银行欺诈检测、市场营销、网络入侵检测等领域。

这些领域中的数据集有哪些共同点呢?可以发现在这些领域中使用的数据通常不到1%,但一旦发生就是一件“有趣”的事件(例如使用信用卡的欺诈者的违规交易,用户点击广告或原本已损坏的服务器在扫描其网络)。然而,大多数机器学习算法对于不平衡数据集都不能很好地工作。

以下七种技术可以帮助我们训练分类器来检测异常类。

无人驾驶技术之传感器部分简介

随着无人车技术发展越发成熟,越来越多人开始关注这个号称拥有万亿量级市场的新型行业。那么今天,我就先简单介绍下通常无人车所拥有的传感器。

首先,在汽车前玻璃上装有两个摄像头,就像人眼一样,构立体图像,可以捕捉图像数据和距离数据。

无人驾驶技术之传感器部分简介

其次,在两个立体相机中间是一个交通信号识别摄像头.通常交通信号灯在十字路口的另一边,因此需要特殊镜头,让摄像头捕捉足够的成像距离,可以检测远处的信号。

卷积网络背后的直觉

转载自公众号:论智(ID:jqr_AI)
作者:Adel Nehme
编译:weakish

编者按:和数据科学研究生Adel Nehme一起,探索卷积神经网络(机器视觉和图像识别领域最重要的深度学习技术之一)背后的直觉。

背景

随着AI的突破持续吸引公众注意,人们开始不加区别地使用“人工智能”、“机器学习”、“深度学习”等术语。然而,了解这些术语的区别,有助于把握AI技术的发展趋势。

卷积网络背后的直觉
人工智能同心圆

我们可以把这三个术语想象成三个同心圆,其中人工智能包含了机器学习,机器学习又包含了深度学习。

简单来说,有一些任务,传统上认为需要通过人类认知活动才能完成,开发执行这些任务的计算机系统,即为人工智能。

一文详解国内外智慧城市发展之路

从概念提出到落地实践,从风险评估到监理全程跟踪监管,关于智慧城市规划与建设的探讨从未停止。全球来说,智慧城市的建设呈点状分布。美国迪比克市、韩国仁川市、爱尔兰戈尔韦湾、丹麦哥本哈根…它们探索着城市发展的智慧路径。

自2009年,美国IBM公司在中国连续召开了22场智慧城市讨论会,引爆“智慧城市”理念之后,我国不少城市也积极加入了这个“智慧愿景”的探索。然而国内外城市由于建设背景不同、探索路径不同,因而在摸索过程中得出的经验与教训也不尽相同。

智慧城市建设的背景

伴随着信息技术的飞速发展,美国、英国、日本、韩国等发达国家开始研究如何运用新一代信息技术来重新审视城市的本质、城市发展目标的定位、城市功能的培育、城市结构的调整、城市形象与特色等一系列现代城市发展中的关键问题,针对如何加大信息技术在城市管理、服务和运行中的创新性应用,相继提出了发展“智慧城市”的战略举措,把智慧城市建设作为提升城市竞争力的重要手段,城市智能发展的新模式开始孕育成型。

中文NLP用什么?中文自然语言处理的完整机器处理流程

作者:宿永杰
宿永杰现就职于某知名互联网公司担任数据挖掘工程师,PC 端全栈开发工程师,擅长 Java 大数据开发、Python、SQL 数据分析挖掘等,参与过客户画像、客户识别以及自然语言处理等项目的开发,目前致力于中文自然语言处理的研究。

为什么会有分词

我们知道自然语言处理中词为最小的处理单元,当你的语料为句子、短文本、篇章时,我们要做的第一步就是分词。

由于英语的基本组成单位就是词,分词是比较容易的。其句子基本上就是由标点符号、空格和词构成,那么只要根据空格和标点符号将词语分割即可。

中文和英文就有很大不同了。虽然基本组成单位也是词,但是中文文本是由连续的字序列构成,词与词之间是没有天然的分隔符,所以中文分词相对来说困难很多。

浅谈Attention-based Model【原理篇】

0. 前言

看了台大的李宏毅老师关于Attention部分的内容,这一部分讲得挺好的(其实李宏毅老师其它部分的内容也不错,比较幽默,安利一下),记录一下,本博客的大部分内容据来自李宏毅老师的授课资料:Attention-based Model。如发现有误,望不吝赐教。

1. 为什么需要Attention

最基本的seq2seq模型包含一个encoder和一个decoder,通常的做法是将一个输入的句子编码成一个固定大小的state,然后作为decoder的初始状态(当然也可以作为每一时刻的输入),但这样的一个状态对于decoder中的所有时刻都是一样的。

GPU加速是什么?

众所周知,网页不仅应该被快速加载,同时还应该流畅运行,比如快速响应的交互,如丝般顺滑的动画……

一、GPU 加速能做什么?

首先我们要了解什么是 16ms 优化

  •   大多数设备的刷新频率是 60 次/秒,(1000/60 = 16.6ms)也就说是浏览器对每一帧画面的渲染工作要在 16ms 内完成,超出这个时间,页面的渲染就会出现卡顿现象,影响用户体验。

  •   浏览器在一帧里面,会依次执行以下这些动作。减少或者避免 layout,paint 可以让页面不卡顿,动画效果更加流畅。

深度学习cnn卷积神经网络原理(图文详解)

受Hubel和Wiesel对猫视觉皮层电生理研究启发,有人提出卷积神经网络(CNN),Yann Lecun 最早将CNN用于手写数字识别并一直保持了其在该问题的霸主地位。近年来卷积神经网络在多个方向持续发力,在语音识别、人脸识别、通用物体识别、运动分析、自然语言处理甚至脑电波分析方面均有突破。本文将会深度详解cnn卷积神经网络原理,对人工智能领域感兴趣的朋友请继续往下看。

深度学习cnn卷积神经网络原理(图文详解)

卷积神经网络

深度学习再现发展拐点,四大问题预示其已近终点?

深度学习的历史可以追溯到几十年前,但直到大约5年前才得到了较多的关注。其中2012年是关键的一年,几乎很多东西都发生了改变,包括大神大神Krizhevsky、Sutskever以及Hinton三人基于ImageNet做的识别图像的深度卷积神经网AlexNet的发布。而随着深度学习的发展,它曾一度占据了各大媒体的头版头条,还迅速成为了人工智能领域有名的技术术语。

如今,不管是在语音识别、图像识别,还是语言翻译等领域,深度学习的研究已经取得了很多最先进的结果,并在当前大量的人工智能应用程序中发挥作用。为了抓住这一发展机会,许多企业也开始投入大量资金,进行深度学习人才的培养。然而,遗憾的是,再好的发展也会进入瓶颈期,深度学习也是一样。在未来的发展中,深度学习不太可能会消失,也不应该消失,但在该技术复苏后的5年里,现在似乎到了对其进行批判性反思的好时机。

深度学习和相关的机器学习的进步,在人工智能最近所取得的成就中发挥了关键作用,二者使得计算机不再需要明确的编程,而是通过“吸收和分析”大量数据就能完成自我训练。在过去的两年里,谷歌以深度学习为基础的AlphaGo击败了世界顶级的围棋玩家,震惊了大多数人工智能专家,因为在他们的认知力,这一里程碑的实现至少还需要5到10年的时间。

看懂物联网(1)从LPWAN的各个流派说起

在"云计算、物联网、移动互联网、大数据和人工智能"潮流中,物联网可谓是一个很有前途的产业。如果说互联网实现了人与人、人与物的连接,那么物联网将解决物与物连接的问题,最终让我们进入一个万物互联的时代。

据2018世界物联网博览会发布的《2017-2018中国物联网发展年度报告》显示,2017年全球物联网设备数量增长强劲,高达84亿台,首次超过人口数量。全球物联网市场有望在十年内实现大规模普及,到2025年市场规模或将成长至3.9-11.1万亿美元。

在物联网需求爆发式增长的同时,物联网技术标准混战不断升级,尤其是LPWAN低功耗广域网络的竞争可谓异常激烈,包括LoRa、NB-IoT、SigFox、RPMA、Weightless等各个技术流派。

LPWAN全称为Low Power Wide Area Network,即低功耗广域网络,专为低带宽、低功耗、远距离、大量连接的物联网应用而设计。

1. LoRa

作为当前应用最为广泛的LPWAN网络技术之一,LoRa协议源自SemTech公司。该无线技术的特点是长距离(1-20km),万级甚至百万级的节点数,电池寿命可达3-10年,数据速率可达0.3-50kbps。