demi的博客

中文NLP用什么?中文自然语言处理的完整机器处理流程

作者:宿永杰
宿永杰现就职于某知名互联网公司担任数据挖掘工程师,PC 端全栈开发工程师,擅长 Java 大数据开发、Python、SQL 数据分析挖掘等,参与过客户画像、客户识别以及自然语言处理等项目的开发,目前致力于中文自然语言处理的研究。

为什么会有分词

我们知道自然语言处理中词为最小的处理单元,当你的语料为句子、短文本、篇章时,我们要做的第一步就是分词。

由于英语的基本组成单位就是词,分词是比较容易的。其句子基本上就是由标点符号、空格和词构成,那么只要根据空格和标点符号将词语分割即可。

中文和英文就有很大不同了。虽然基本组成单位也是词,但是中文文本是由连续的字序列构成,词与词之间是没有天然的分隔符,所以中文分词相对来说困难很多。

浅谈Attention-based Model【原理篇】

0. 前言

看了台大的李宏毅老师关于Attention部分的内容,这一部分讲得挺好的(其实李宏毅老师其它部分的内容也不错,比较幽默,安利一下),记录一下,本博客的大部分内容据来自李宏毅老师的授课资料:Attention-based Model。如发现有误,望不吝赐教。

1. 为什么需要Attention

最基本的seq2seq模型包含一个encoder和一个decoder,通常的做法是将一个输入的句子编码成一个固定大小的state,然后作为decoder的初始状态(当然也可以作为每一时刻的输入),但这样的一个状态对于decoder中的所有时刻都是一样的。

GPU加速是什么?

众所周知,网页不仅应该被快速加载,同时还应该流畅运行,比如快速响应的交互,如丝般顺滑的动画……

一、GPU 加速能做什么?

首先我们要了解什么是 16ms 优化

  •   大多数设备的刷新频率是 60 次/秒,(1000/60 = 16.6ms)也就说是浏览器对每一帧画面的渲染工作要在 16ms 内完成,超出这个时间,页面的渲染就会出现卡顿现象,影响用户体验。

  •   浏览器在一帧里面,会依次执行以下这些动作。减少或者避免 layout,paint 可以让页面不卡顿,动画效果更加流畅。

深度学习cnn卷积神经网络原理(图文详解)

受Hubel和Wiesel对猫视觉皮层电生理研究启发,有人提出卷积神经网络(CNN),Yann Lecun 最早将CNN用于手写数字识别并一直保持了其在该问题的霸主地位。近年来卷积神经网络在多个方向持续发力,在语音识别、人脸识别、通用物体识别、运动分析、自然语言处理甚至脑电波分析方面均有突破。本文将会深度详解cnn卷积神经网络原理,对人工智能领域感兴趣的朋友请继续往下看。

深度学习cnn卷积神经网络原理(图文详解)

卷积神经网络

深度学习再现发展拐点,四大问题预示其已近终点?

深度学习的历史可以追溯到几十年前,但直到大约5年前才得到了较多的关注。其中2012年是关键的一年,几乎很多东西都发生了改变,包括大神大神Krizhevsky、Sutskever以及Hinton三人基于ImageNet做的识别图像的深度卷积神经网AlexNet的发布。而随着深度学习的发展,它曾一度占据了各大媒体的头版头条,还迅速成为了人工智能领域有名的技术术语。

如今,不管是在语音识别、图像识别,还是语言翻译等领域,深度学习的研究已经取得了很多最先进的结果,并在当前大量的人工智能应用程序中发挥作用。为了抓住这一发展机会,许多企业也开始投入大量资金,进行深度学习人才的培养。然而,遗憾的是,再好的发展也会进入瓶颈期,深度学习也是一样。在未来的发展中,深度学习不太可能会消失,也不应该消失,但在该技术复苏后的5年里,现在似乎到了对其进行批判性反思的好时机。

深度学习和相关的机器学习的进步,在人工智能最近所取得的成就中发挥了关键作用,二者使得计算机不再需要明确的编程,而是通过“吸收和分析”大量数据就能完成自我训练。在过去的两年里,谷歌以深度学习为基础的AlphaGo击败了世界顶级的围棋玩家,震惊了大多数人工智能专家,因为在他们的认知力,这一里程碑的实现至少还需要5到10年的时间。

看懂物联网(1)从LPWAN的各个流派说起

在"云计算、物联网、移动互联网、大数据和人工智能"潮流中,物联网可谓是一个很有前途的产业。如果说互联网实现了人与人、人与物的连接,那么物联网将解决物与物连接的问题,最终让我们进入一个万物互联的时代。

据2018世界物联网博览会发布的《2017-2018中国物联网发展年度报告》显示,2017年全球物联网设备数量增长强劲,高达84亿台,首次超过人口数量。全球物联网市场有望在十年内实现大规模普及,到2025年市场规模或将成长至3.9-11.1万亿美元。

在物联网需求爆发式增长的同时,物联网技术标准混战不断升级,尤其是LPWAN低功耗广域网络的竞争可谓异常激烈,包括LoRa、NB-IoT、SigFox、RPMA、Weightless等各个技术流派。

LPWAN全称为Low Power Wide Area Network,即低功耗广域网络,专为低带宽、低功耗、远距离、大量连接的物联网应用而设计。

1. LoRa

作为当前应用最为广泛的LPWAN网络技术之一,LoRa协议源自SemTech公司。该无线技术的特点是长距离(1-20km),万级甚至百万级的节点数,电池寿命可达3-10年,数据速率可达0.3-50kbps。

机器学习相关——协同过滤

在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题

1 什么是协同过滤

协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。

换句话说,就是借鉴和你相关人群的观点来进行推荐,很好理解。

2 协同过滤的实现

要实现协同过滤的推荐算法,要进行以下三个步骤:

收集数据——找到相似用户和物品——进行推荐

收集数据

这里的数据指的都是用户的历史行为数据,比如用户的购买历史,关注,收藏行为,或者发表了某些评论,给某个物品打了多少分等等,这些都可以用来作为数据供推荐算法使用,服务于推荐算法。需要特别指出的在于,不同的数据准确性不同,粒度也不同,在使用时需要考虑到噪音所带来的影响。

图像处理中的不适定问题(ill posed problem)

图像处理中不适定问题(ill posed problem)或称为反问题(inverse Problem)的研究从20世纪末成为国际上的热点问题,成为现代数学家、计算机视觉和图像处理学者广为关注的研究领域。数学和物理上的反问题的研究由来已久,法国数学家阿达马早在19世纪就提出了不适定问题的概念:称一个数学物理定解问题的解存在、唯一并且稳定的则称该问题是适定的(Well Posed).如果不满足适定性概念中的上述判据中的一条或几条,称该问题是不适定的。

典型的图像处理不适定问题包括:图像去噪(Image De-nosing),图像恢复(Image Restorsion),图像放大(Image Zooming),图像修补(Image Inpainting),图像去马赛克(image Demosaicing),图像超分辨(Image super-resolution )等。

迄今为止,人们已经提出许多方法来解决图像处理中的不适定性。但是如何进一步刻画图像的边缘、纹理和角形等图像中重要视觉几何结构,提高该类方法在噪声抑制基础上有效保持结构和纹理能力是有待深入研究的问题。

1 不适定图像处理问题的国内外研究现状评述

九大汽车主动安全系统

安全”一直是车主对车辆考核的重要指标,具有主动安全的汽车,当然就有着比较高的避免事故能力,尤其在突发情况的条件下保证汽车安全。车辆安全分可以从主动安全和被动安全两个方面进行分类。今天就和大家聊聊汽车的主动安全,大致整理了九种系统:ABS、ASR、AWS、EBD、ESC、LCA、SAS、TCS、VSA。

什么是主动安全系统?

所谓主动安全,其实是和被动安全的概念相对应的。被动安全侧重于在遇到事故时尽可能地减少车内乘客受到的伤害,例如安全气囊、笼式车身就是典型的被动安全的范畴。

而主动安全就侧重于监测到事故发生或者车辆失控的可能性,从而通过一系列介入车辆操控的手段去避免它。尽量自如的操纵控制汽车的安全系统措施。无论是直线上的制动与加速还是左右打方向都应该尽量平稳,不至于偏离既定的行进路线,而且不影响司机的视野与舒适性。

九大汽车主动安全系统

具有主动安全的汽车,当然就有着比较高的避免事故能力,尤其在突发情况的条件下保证汽车安全。

主动安全体系和分类以及各个厂家的叫法略有不同。小编大致整理了以下九种系统:ABS、ASR、AWS、EBD、ESC、LCA、SAS、TCS、VSA。

一文了解LSTM和GRU背后的秘密

你好,欢迎阅读长短期记忆网络(LSTM)和门控循环单元(GRU)的图解文章。我是Michael,是AI语音助理领域的机器学习工程师。

在这篇文章中,我们将从LSTM和GRU背后的原理出发。然后我将解释允许LSTM和GRU表现良好的内部机制。如果你想了解这两个网络的背后到底是什么,那么这篇文章就是为你准备的。

一文了解LSTM和GRU背后的秘密

问题根源短期记忆

递归神经网络(RNN)具有短期记忆。如果序列足够长,他们将很难将信息从较早的时间步骤传送到后面的步骤。因此,如果你正在尝试对一段文本进行预测,RNN可能会从一开始就遗漏掉重要信息。

在反向传播期间,递归神经网络(RNN)会遇到梯度消失问题。梯度是用于更新神经网络权重的值。梯度消失问题是当梯度随着时间的推移传播时梯度下降。如果梯度值变得非常小,则不会继续学习。