吴恩达《Machine Learning Yearning》总结（31-40章）-低调大师

吴恩达《Machine Learning Yearning》总结（31-40章）

2018-06-14 581

31.解读学习曲线：其他情况

下图反映了高方差，通过增加数据集可以改善。

下图反映了高偏差和高方差，需要找到一种方法来同时减少方差和偏差。

32.绘制学习曲线

情况：当数据集非常小时，比如只有100个样本，这时绘制出来的学习曲线可能噪声非常大。

解决方法：

（1）与其只使用10个样本训练单个模型，不如从你原来的100个样本中进行随机有放回抽样，选择几批（比如3-10）不同的10个样本进行组合。在这些数据上训练不同的模型，并计算每个模型的训练和开发错误，最终计算和绘制平均训练集误差和平均开发集误差。

（2）如果你的训练集偏向于一个类，或许它有许多类，那么选择一个“平衡”子集，而不是从100个样本中随机抽取10个训练样本。例如，你可以确保这些样本中的2/10是正样本，8/10是负样本。更常见的做法是，确保每个类的样本比例尽可能的接近原始训练集的总体比例。

33.为何与人类表现水平进行对比

对于人类擅长的事情，例如图像识别，语音识别等。

（1）易于从认为标签中获取数据。

（2）基于人类直接进行误差分析。

（3）使用人类表现水平来估计最优错误率，并设置可达到的“期望错误率”。

对于人类也不擅长的事情，例如推进书籍电影，股票市场预测。

（1）获取标签数据很难。

（2）人类的直觉难以依靠。

（3）最优错误率和合理的期望错误率难以估计。

34.如何定义人类表现水平

应该用人类的最高水平去衡量人类的水平（即期望误差率）。举例：医学图像疾病诊断，普通人错误率20%，医生10%，专家5%，专家讨论小左2%，此时人类水平应该为2%。

35.超越人类表现水平

举例：语音识别人类错误率是10%，而你的算法错误率是8%，此时已经超越人类，但这时某个子集（即某些方面，如转录语音很快时）人类仍然优于算法，在这些方面仍然可以用前面提到的一些技术进行提升。在语音转录上，仍然可以（1）从输出质量比你的算法高的人那儿获取转录数据。（2）你可以利用人类的直觉来理解，为什么你的系统没能欧识别这些数据，而人类做到了。（3）你可以使用该子集上的人类表现作为期望表现目标。

微信关注我们

原文链接：https://yq.aliyun.com/articles/607143

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

微软新一代输入法框架 TSF - Text Service Framework 小小的研究

原文: 微软新一代输入法框架 TSF - Text Service Framework 小小的研究虽说是转载的，但是其中，有很多我自己的评论，我会用红色的字标出来，参考的博文有： TSF架构：http://blog.csdn.net/mspinyin/article/details/6137709 TSF代码实例：http://www.dotblogs.com.tw/code6421/archive/2010/09/27/17909.aspx TSF的一个C# Wrapper库：http://social.technet.microsoft.com/Forums/office/zh-CN/002efcfc-8d21-4674-b93b-53c8424d448e/vista-api-immgetdescription?forum=2087 下面内容来自第一篇被引用的文章，TSF架构：几个关于TSF的术语 TIP(Text Input Processor), a Text service in TSF Cicero，TSF的开发代号，所以微软内部通常称呼TSF框架为Cicero CUA...

2018-06-14

729

1. 前言对于一张网页，我们往往希望它是结构良好，内容清晰的，这样搜索引擎才能准确地认知它。而反过来，又有一些情景，我们不希望内容能被轻易获取，比方说电商网站的交易额，教育网站的题目等。因为这些内容，往往是一个产品的生命线，必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。 2. 常见反爬虫策略但是世界上没有一个网站，能做到完美地反爬虫。如果页面希望能在用户面前正常展示，同时又不给爬虫机会，就必须要做到识别真人与机器人。因此工程师们做了各种尝试，这些策略大多采用于后端，也是目前比较常规单有效的手段，比如： User-Agent + Referer检测账号及Cookie验证验证码 IP限制频次而爬虫是可以无限逼近于真人的，比如： chrome headless或phantomjs来模拟浏览器环境 tesseract识别验证码代理IP淘宝就能买到所以我们说，100%的反爬虫策略？不存在的。更多的是体力活，是个难易程度的问题。不过作为前端工程师，我们可以增加一下游戏难度，设计出一些很(sang)有(xin)意(bing)思(kuang)的反爬虫策略。 3. 前端与反...

2018-06-15

597

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。