demi的博客 | 电子创新网 Imgtec 社区

机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点

demi 在周二, 12/04/2018 - 10:24 提交

一、C4.5 算法：

ID3 算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。ID3 算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定的测试属性。

C4.5 算法核心思想是ID3 算法，是ID3 算法的改进，改进方面有：
1）用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
2）在树构造过程中进行剪枝
3）能处理非离散的数据
4）能处理不完整的数据

优点：产生的分类规则易于理解，准确率较高。

缺点：
1)在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。
2)C4.5 只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

二、K means 算法：

是一个简单的聚类算法，把 n 的对象根据他们的属性分为k 个分割，k < n。算法的核心就是要优化失真函数J,使其收敛到局部最小值但不是全局最小值。

通俗易懂，理解移动网络的“弱”和“慢”

demi 在周二, 12/04/2018 - 09:16 提交

本文章引用了腾讯技术专家樊华恒《海量之道系列文章之弱联网优化》的部分章节，感谢原作者。

1、前言

随着移动互联网的高速发展，移动端IM以移动网络作为物理通信载体早已深入人心，这其中的成功者就包括微信、手机QQ、支付宝（从即时通讯产品的角度来看，支付宝已经算的上是半个IM了）等等，也为移动端即时通讯开发者带来了各种可以参考的标杆功能和理念：语音对讲、具有移动端体验特性的图片消息、全时在线的概念、真正突破物理体验的实时通知等。

上述IM产品、功能和概念，在开发者间讨论时，无一例外都会被打上“移动端”这个特性，从网络通信的角度来说，这个特性的本质可以认为就是移动网络的特性。

以文件发送为例，传统的PC端IM（可以简单地理解为传统有线网络上的IM）可以直接实时点对点发送（理论上无需经过服务器中转）。

常见的三个光照模型：Lambert,Phong,BlinnPhong

demi 在周一, 12/03/2018 - 17:35 提交

常见的三个光照模型

（1）漫反射与Lambert光照模型

粗糙的物体表面向各个方向等强度地反射光，这种等同度地散射现象称为光的漫反射（Diffuse Reflection）。产生光的漫反射现象的物体表面称为理想漫反射体，也称为Lambert反射体。

对于暴露在环境光下的Lambert反射体，可以用以下公式表示某点处的漫发射光强：
Iad= K*Ia

其中Ia表示环境光强度，k（0<k<1）为材质对环境光的反射系数，Iad是漫发射体与环境光交互时反射的光强。

理想的环境光是无序的，但是表面光强还依赖于光线的入射方向，这种现象可以用Lambert定律进行数学上的量化。

Lambert定律：当方向光照射到理想反射体上时，漫反射光的光强与入射光方向和入射点便面法向量夹角的余弦成正比。Ild = K*Il*Cosa，其中Ild是漫反射体与方向光交互反射的光强，Il是方向光的光源强度，a是入射光线与定点法向量的夹角，k是材质的反射系数。

机器学习难吗？这12大经验总结，让你瞬间理解机器学习

demi 在周一, 12/03/2018 - 16:41 提交

机器学习难吗？有些小伙伴们会说，难！真的难！不知道怎么去应用实践？弯路陷阱太多不知如何避免？不知道如何更好的学习机器学习？这些问题相信大部分人都有过疑虑。

今天，小编整理了下，关于机器学习研究者和从业者的 12 个宝贵经验，包括需要避免的陷阱、需要关注的重点问题、常见问题的答案。

希望这些经验对机器学习爱好者有一些帮助。

01“表征+评估+优化”构成机器的主要内容

构成机器学习算法的 3 部分：

• 表征（Representation）：分类器必须用计算机可以处理的形式化语言来表示。相反地，为训练模型选择一个表征就等同于选择可训练分类器的集合。这个集合称为训练模型的「假设空间」。如果分类器不在「假设空间」中，那么它就不能由训练所得到。一个相关的问题是如何表征输入，即使用哪些特征。

• 评估（Evaluation）：需要一个评估函数来区分分类器的好坏。算法内部使用的评估函数可能与分类器优化的外部评估函数不同，这是为了便于优化，并且是由我们下一节所要讨论的问题导致的。

图像质量评估算法 SSIM(结构相似性)

demi 在周一, 12/03/2018 - 13:57 提交

SSIM的全称为structural similarity index，即为结构相似性，是一种衡量两幅图像相似度的指标。该指标首先由德州大学奥斯丁分校的图像和视频工程实验室(Laboratory for Image and Video Engineering)提出。而如果两幅图像是压缩前和压缩后的图像，那么SSIM算法就可以用来评估压缩后的图像质量。

SSIM如何表征相似性：

先给出一组公式：
图像质量评估算法 SSIM(结构相似性)
uX、uY分别表示图像X和Y的均值，σX、σY分别表示图像X和Y的标准差，σX*σX、σY*σY（实在打不出上标啊，理解万岁）分别表示图像X和Y的方差。σXY代表图像X和Y协方差。C1，C2和C3为常数，是为了避免分母为0而维持稳定。通常取C1=(K1*L)^2, C2=(K2*L)^2, C3=C2/2, 一般地K1=0.01, K2=0.03, L=255（是像素值的动态范围，一般都取为255）

5G时代即将到来，你每天都在使用的WiFi会消失不见吗？

demi 在周一, 12/03/2018 - 11:41 提交

说到WiFi大家都不陌生了，特别是智能手机出现后，WiFi发展的速度更是可以用“神速”来形容，几乎到处都有WiFi覆盖。以致于现在大家无论去到哪里，往往第一句话就是问“这里有没有WiFi?”或者“WiFi密码是多少?”

确实，过去移动互联网发展还不成熟的时候，上网资费特别昂贵，所以很多人为了省钱，都会选择WiFi上网，甚至还会有人借助蹭网神器偷偷蹭隔壁邻居的网络。

不过，如果说不久的未来，WiFi可能要消失了，你会相信吗?

最近，就有这么一则新闻，称WiFi将被移动网络“杀死”。根据英国媒体报道，有一家移动数据研究机构——OpenSignal最近的报告就指出，目前全球33个国家的移动网络平均速度已经超过了WiFi连接的速度。而随着2020年5G网络的正式商用，这种趋势将会更加明显，因为5G网络带来的是高带宽和低延迟，相比WiFi具有更大的优势，未来WiFi或许将被彻底取代。

卷积神经网络的最佳解释！

demi 在周五, 11/30/2018 - 15:40 提交

CNN由由可学习权重和偏置的神经元组成。每个神经元接收多个输入，对它们进行加权求和，将其传递给一个激活函数并用一个输出作为响应。整个网络有一个损失函数，在神经网络开发过程中的技巧和窍门仍然适用于CNN。很简单，对吧？

那么，卷积神经网络与神经网络有什么不同呢？

和神经网络输入不同，这里的输入是一个多通道图像（在这种情况下是3通道，如RGB）。

在我们深入之前，让我们先了解一下卷积的含义。

卷积

无人驾驶汽车想要“普渡众生”，还要经历15个磨难

demi 在周五, 11/30/2018 - 13:48 提交

无人驾驶汽车的未来与电动平衡车的历史有什么关系吗？电动平衡车也曾被预言将彻底改变交通。史蒂夫·乔布斯曾经说，城市将围绕这一设备重新设计；约翰·杜尔说，它将比互联网更大。电动平衡车在技术上很成功，但从未达到其支持者所期望的对市场的巨大影响，相反其现在仅仅占有一个很狭窄的市场。

人们可以想象出自动驾驶汽车（autonomous vehicles, AVs）的类似命运：这项技术可以很好地发挥作用，但却只能局限在狭窄的市场环境中，就像预先设定好的航天飞机路线和缓慢移动的无人机。一些狭窄的应用，比如长途运输的州际高速公路，可能非常有价值，但远不及许多人想象的那样。

为了使自动驾驶汽车革命化，必须实现高水平的产业化。而第一步，他们必须在城市和郊区建立起强大的、相对便宜的类似Uber的服务。该行业正在联合起来，称这些服务为“交通服务”或“TaaS（Transportation as a Service，运输即服务）”。从长远来看，自动驾驶汽车必须足够强大，足以达到私有化并得以普及。

预见未来丨机器学习：未来十年研究热点

demi 在周五, 11/30/2018 - 11:47 提交

本文中，微软亚洲研究院机器学习组的研究员们为我们盘点最热门的机器学习技术，梳理机器学习面临的挑战以及未来十年的发展趋势。

人工智能正热。

技术创新是经济增长的根本动力。这些技术中，最重要的就是经济学家提到的“通用技术”，比如蒸汽机、内燃机、电力等。如今这个时代，人工智能就是最重要的“通用技术”。特别是行业与人工智能的结合，释放了行业的潜力，重塑了我们的生活。

人工智能备受关注、取得革命性进步背后的推手，其实是“机器学习”。

机器学习其实是一门多领域交叉学科，它涉及到计算机科学、概率统计、函数逼近论、最优化理论、控制论、决策论、算法复杂度理论、实验科学等多个学科。机器学习的具体定义也因此有许多不同的说法，分别以某个相关学科的视角切入。但总体上讲，其关注的核心问题是如何用计算的方法模拟类人的学习行为：从历史经验中获取规律（或模型），并将其应用到新的类似场景中。

那么，当我们谈机器学习时，到底在谈些什么？从业者需要掌握哪些前沿技术？未来，又有什么技术趋势值得期待？

看前沿：你需要掌握的机器学习技术

译：渲染管线概述

demi 在周五, 11/30/2018 - 10:23 提交

什么是渲染管线？

渲染管线也称为渲染流水线，是显示芯片内部处理图形信号相互独立的的并行处理单元。

一个流水线是一序列可以并行和按照固定顺序进行的阶段。每个阶段都从它的前一阶段接收输入，然后把输出发给随后的阶段。

然后u3d的文档看上去像是只说了渲染路径，而渲染管线（渲染流水线）并没有怎么说明。

Unity 3D 用户文档 —— 渲染管线概述

渲染管线概述

着色器定义了对象本身的外观（其材质属性）以及它如何对光线做出反应。由于照明计算必须内置到着色器中，并且有许多可能的光影类型，因此编写“正常工作”的高质量着色器将是一项相关任务。为了使它更容易，Unity具有表面着色器，其中所有的照明，阴影，光照贴图，前进与延期渲染事情都会自动处理。

本文档描述了Unity照明和渲染管线的特性以及Surface Shaders幕后的情况。