图像处理

人工智能之OCR识别技术简析

文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分。计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。

OCR技术的兴起便是从印刷体识别开始的,印刷体识别的成功为后来手写体的发展奠定了坚实的基础。印刷体识别的主要流程大致分为以下几个部分:图像预处理、版面处理、图像切分、特征提取和模型训练、识别后处理。

图像预处理

输入文本经过扫描仪进入计算机后,由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。

版面处理

版面处理分为三个主要部分,版面分析、版面理解、版面重构。

【视频】GoogLeNet和AlexNet模型处理图像演示

视频展示了GoogLeNet和AlexNet模型处理相同图像的情况。二者皆运行良好,但AlexNet在某些情况下的确表现不佳。
文章链接: http://imgtec.eetrend.com/article/9674

基于曲率的图像处理

首先,这篇文章基于早前写的英文短文《Curvature Based Image Processing》,但是也包含了一些最新的想法。谨以此文与图像处理同行共勉。

代码:曲率滤波代码(所有实验均可重复)

给定一个图像,我们可以把它当作一个三维曲面。这样,我们就可以利用经典的微分几何工具来处理该三维曲面。假设我们处理后的曲面是,那么我们可以从中提取出处理后的图像,也就是我们处理后的图像。整个过程如下方图片所示。

【干货】图像卷积与滤波的一些知识点

作者:zouxy09

之前在学习CNN的时候,有对卷积进行一些学习和整理,后来就烂尾了,现在稍微整理下,先放上来,以提醒和交流。

一、线性滤波与卷积的基本概念

线 性滤波可以说是图像处理最基本的方法,它可以允许我们对图像进行处理,产生很多不同的效果。做法很简单。首先,我们有一个二维的滤波器矩阵(有个高大上的 名字叫卷积核)和一个要处理的二维图像。然后,对于图像的每一个像素点,计算它的邻域像素和滤波器矩阵的对应元素的乘积,然后加起来,作为该像素位置的 值。这样就完成了滤波过程。

1

对图像和滤波矩阵进行逐个元素相乘再求和的操作就相当于将一个二维的函数移动到另一个二维函数的所有位置,这个操作就叫卷积或者协相关。卷积和协相关的差别是,卷积需要先对滤波矩阵进行180的翻转,但如果矩阵是对称的,那么两者就没有什么差别了。

Android 图像处理(一) : Shader

之前一段时间,我都在研究Android自定义View的相关知识,随着逐渐的深入,渐渐了解到了一些Android图像处理的知识,主要是Bitmap,Canvas,Shader,Matric,ColorFilter和Xfermode的使用。所以准备写一系列文章介绍一下这些方面的知识。

图像处理相关概念介绍

要想了解Shader的概念,首先要了解Android图像处理中几个比较重要的概念:bitmap,canvas,drawing primitive,paint。需要注意的是,上述四个词并不指android中的类,而是四个概念。

bitmap指画布。画家画图时都需要一块画布,然后才会在画布上绘制各种形状和颜色,Android中的Bitmap就有画布的功能。比如下面这段代码。

1

Bitmap这里就充当一个画布的作用,之后Canvas的操作都是在这个Bitmap画布进行绘制。

视频: PowerVR 5XT系列GPU运行OpenGL ES 2.0(ShaderViews demo)

The ShaderViews demonstration illustrates the image processing capabilities of the programmable shaders available through OpenGL ES 2.0 on PowerVR SGX enabled platforms.

异构计算案例研究:图像卷积滤波

在先前发表的一篇文章中,我为PowerVR Rogue GPU上如何编写OpenCL内核作了简单的介绍;这篇文章也为下一步奠定了基础:实用案例研究,解析如何使用OpenCL来编写图像卷积内核。

许多图像处理任务,比如模糊、锐化和边界检测可以通过图像与数字矩阵(或内核)的卷积来实现。下图显示了一个3X3的内核,实现了一个平滑滤波器,将图片中每个像素的值替换为包括其自身在内的周边像素的平均值。

内核卷积

内核卷积通常需要图像边界之外的像素值。有很多方法可以用来处理图像边界,比如为卷积扩充最近边界的像素值,或者是排除掉输出图像中需要输入图像边界之外像素值的部分像素,这种方法将降低输出图像的大小。

下表上半部分显示了该滤波器算法的伪代码,下半部分是C代码实现。在C程序中,假设每个像素表示为四个分别代表R、G、B、A的8位数组成的32位整数,宏MUL4执行四个独立乘法,每个乘法对应这四个8位值中的一个。

图像处理的GPU加速技术研究与评价

摘 要: 针对大多数图像处理问题的计算密集性,提出了图像处理的GPU加速技术。首先,描述了相对于CPU,采用GPU能够带来计算效率提升的体系结构基础。其次,将直方图生成和快速傅里叶变换计算二维卷积两个具有代表性的图像处理算法移植至GPU。最后,利用同样市场价格组合的CPU和GPU进行实验,利用多分辨率图像作为测试数据,比对CPU和GPU方案的计算效率。结果显示,与相同算法的CPU实现相比,其GPU实现分别将计算效率最高提高到了17倍和40倍。

计算机视觉随谈

作者: zouxy09
来源: http://blog.csdn.net/zouxy09

之前看了这么一本说自然图像统计学的书,本来是想着要好好看,然后每天翻译几页的。但实习的时候太忙了,没有什么时间,所以只把目录给翻译了,哈哈。这本书叫:Natural Image Statistics: A Probabilistic Approach to Early Computational Vision大家可以瞧瞧。不过,看到里面视觉概述的时候,自己也想扯扯点东西,按捺不住,就吐了不少文字。如果有什么不对的地方,也还希望大家不吝指正,谢谢。

一、什么叫视觉Vision?

本人从事开发医学影像软件多年,目前由于网络传输图像的局限性,稍微复杂点的影像应用很少与互联网结合来提高效率(也许有,但是我不知道)。怎样方式结合才能充分利用当前最火的互联网呢?

同步内容
--电子创新网--
粤ICP备12070055号