谷歌机器学习的43 条【黄金】法则!

No replies
Demi
Demi 的头像
Offline
Joined: 2017-03-07

1.对发布一个不含 ML 技术的产品,不要有顾虑
2.首先要设计和贯彻指标
3.在机器学习和复杂启发算法之间,选择前者
4.第一个模型要简单,把基础设施弄好
5.测试基础设施要与 ML 测试分开

6.复制流水线时当心数据遗落
7.把启发式(heuristics)变为特征,不然就对它们做外部处理
8.了解系统的时效性
9.在输出模型之前发现问题
10.于无声处听惊雷:注意没表现出来的故障

11.注意特征栏的维护者和文件
12.选择直接优化哪个目标时,不需要想太多
13.选择一个简单、可观察并且可归属(attributable)的指标来作为第一个目标
14.用可解释的模型开头,修补漏洞会更简单
15.用 policy layer(规则层)把垃圾信息过滤和质量排序分来

16.做好模型被推倒和重建的准备
17.直接以观察到的或报告的特征开始训练,而不是经过学习的特征
18.从不同的上下文环境中提取特征
19.尽量选择更具体的特征
20.以合理的方式组合、修改现有特征

21.通过线性模型学到的特征权重的数目,大致与数据量成正比
22.清理不需要的特征
23.你并不是一个典型的用户
24.版本之间存在对等差分(symmetric difference)
25.选择模型时,性能胜过预测能力

26.从误差中查找新模式、创建新特征
27.尝试量化观察到的异常行为
28.注意短期行为和长期行为的差别
29.确保训练和服务一样好的最直接办法是:保存服务时使用的特征,然后将这些特征导入日志,以便在训练中使用。
30.重视采样数据

31.注意表格中的数据可能改变
32.尽量在训练和服务流水线中复用代码
33.训练和测试的数据不能相同
34.在二进制分类过滤的应用场景中(例如垃圾邮件检测),不要为了纯净的数据做太大的性能牺牲
35.注意排序问题的固有偏差

36.避免具有位置特征的反馈回路
37.测量训练/服务偏差
38.如果目标之间不搭,并成为问题,就不要在新特征上浪费时间
39.模型发布决策是长期产品目标的代理
40.保证集成模型(ensemble)的简洁

41.当性能达到瓶颈,相比精炼现存信号,不如寻找新性质的信息源
42.不要期望多样性、个性化、相关性和受欢迎程度之间有紧密联系
43.不同产品中,你的朋友总是那一个,你的兴趣不会如此

来源:36大数据

--电子创新网--
粤ICP备12070055号