【四旋翼飞行器】76小时吃透四轴算法!史上最强软硬结合实战项目,👉戳此立抢👈

Google产品分析Zlatan Kremonic分享了参加Kaggle竞赛的经验

论智 2018-08-10 09:02 次阅读

编者按:Google产品分析Zlatan Kremonic分享了参加Kaggle竞赛的经验。

问题

Kaggle房价竞赛要求参赛者预测2006年至2010年美国爱荷华州埃姆斯市的房价。数据集中包含79个变量,包括许多房屋属性。你可以在Kaggle网站上了解更多细节:https://www.kaggle.com/c/house-prices-advanced-regression-techniques

方法

由于我们的目标变量是连续值(售价),因此这是一个典型的回归问题,让人联想起波斯顿房价数据集。评估标准为预测和实际售价的接近程度(预测值的对数与观测到的售价的对数的均方根误差)。

数据集中包括大量变量,其中许多是类别变量,因此特征选取是这一问题的关键部分。特征选取的两种常用方法:

直接使用scikit-learn中的SelectKBest方法。

LASSO回归。

我在分析中尝试了这两种方法,发现LASSO回归的结果要好一些。

另外,我们将使用XGBoost,并在结果中融合LASSO的输出,以提升模型的精确度。我们的最终结果不错,位于排行榜的前10%(撰写本文时)。

探索性数据分析

因为变量很多,为了节约篇幅,我不会详细演示所有探索性数据分析(我在文末列出了GitHub仓库的链接,如果你对探索性数据分析的细节感兴趣,可以查看其中的EDA.ipynb)。相反,我将直接给出我的主要观察,这些观察给特征工程提供了信息。

我们有大量的类别属性,需要进行独热编码。

一些数值列有null值,需要填充。

许多数值列的分布比较扭曲,需要处理。

如前所述,为了节约篇幅,这里仅仅给出导入库、加载数据的代码,不包括探索性数据分析部分的代码。

import os

import pandas as pd

import numpy as np

from scipy.stats import skew

from sklearn.model_selection importGridSearchCV

from sklearn.linear_model importLasso

from sklearn.metrics import mean_squared_error

from xgboost.sklearn importXGBClassifier

import xgboost as xgb

import matplotlib.pyplot as plt

%matplotlib inline

train = pd.read_csv(os.path.join('data', 'train.csv'))

test = pd.read_csv(os.path.join('data', 'test.csv'))

y = train.iloc[:, -1]

train = train.iloc[:, 1:-1]

test = test.iloc[:, 1:]

submission = test.iloc[:, 0]

特征工程

首先,我们将MSSubClass变量(表示建筑分类编码)从数值转为字符串,因为这些编码只是无序的类别。

def mssubclass(train, test, cols=['MSSubClass']):

for i in (train, test):

for z in cols:

i[z] = i[z].apply(lambda x: str(x))

return train, test

接着,我们将对所有数值特征取对数,包括因变量。由于数值特征包含很多零值,我们使用log1p,在取对数前先加一。

def log(train, test, y):

numeric_feats = train.dtypes[train.dtypes != "object"].index

for i in (train, test):

i[numeric_feats] = np.log1p(i[numeric_feats])

y = np.log1p(y)

return train, test, y

我们将用每列的均值填充null值:

def impute_mean(train, test):

for i in (train, test):

for s in [k for k in i.dtypes[i.dtypes != "object"].index if sum(pd.isnull(i[k])>0)]:

i[s] = i[s].fillna(i[s].mean())

return train, test

独热编码时,同样需要填充null值:

def dummies(train, test):

columns = [i for i in train.columns if type(train[i].iloc[1]) == str or type(train[i].iloc[1]) == float]

for column in columns:

train[column].fillna('NULL', inplace = True)

good_cols = [column+'_'+i for i in train[column].unique()[1:] if i in test[column].unique()]

train = pd.concat((train, pd.get_dummies(train[column], prefix = column)[good_cols]), axis = 1)

test = pd.concat((test, pd.get_dummies(test[column], prefix = column)[good_cols]), axis = 1)

del train[column]

del test[column]

return train, test

整个特征工程流程:

train, test = mssubclass(train, test)

train, test, y = log(train, test, y)

train, test = lotfrontage(train, test)

train, test = garageyrblt(train, test)

train, test = impute_mean(train, test)

train, test = dummies(train, test)

LASSO回归

LASSO回归同时起到了正则化和特征选取的作用,可以改善模型的预测效果。就我们的情况而言,LASSO回归是完美的算法,因为它有助于降低特征数并缓解过拟合。

LASSO回归中需要调节的超参数主要是正则化因子alpha。我们使用GridSearchCV(网格搜索交叉验证)寻找alpha的最优值。

alpha_ridge = [1e-5, 1e-4, 1e-3, 1e-2, 1, 5, 10, 20]

coeffs = {}

for alpha in alpha_ridge:

r = Lasso(alpha=alpha, normalize=True, max_iter=1000000)

r = r.fit(train, y)

grid_search = GridSearchCV(Lasso(alpha=alpha, normalize=True), scoring='neg_mean_squared_error',

param_grid={'alpha': alpha_ridge}, cv=10, n_jobs=-1)

grid_search.fit(train, y)

最终我们得到alpha的最佳值0.0001。为了更直观地理解alpha的影响,我们可以画出所有alpha值的均方根误差:

alpha = alpha_ridge

rmse = list(np.sqrt(-grid_search.cv_results_['mean_test_score']))

plt.figure(figsize=(6,5))

lasso_cv = pd.Series(rmse, index = alpha)

lasso_cv.plot(title = "Validation - LASSO", logx=True)

plt.xlabel("alpha")

plt.ylabel("rmse")

现在用模型拟合训练数据:

lasso = Lasso(alpha=.0001, normalize=True, max_iter=1e6)

lasso = lasso.fit(train, y)

我们的模型有多少列?

coef = pd.Series(lasso.coef_, index = train.columns)

print("Lasso选中了" + str(sum(coef != 0)) + "个变量,并移除了其他" +  str(sum(coef == 0)) + "个变量")

Lasso选中了103个变量,并移除了其他142个变量

此外,我们可以看到,根据我们的模型,房龄、面积、房屋状况是最重要的变量。这很符合直觉——在创建模型时检查模型是否符合常理总是不错的。

imp_coef = pd.concat([coef.sort_values().head(10),

coef.sort_values().tail(10)])

plt.rcParams['figure.figsize'] = (5.0, 5.0)

imp_coef.plot(kind = "barh")

plt.title("Coefficients in the Lasso Model")

用LASSO模型预测测试数据,我们得到的均方根误差为0.1209,这已经足以在排行榜上取得前25%的名次了。

XGBoost模型

由于XGBoost在数据科学竞赛中的强力表现,从2016年起,这一算法变得家喻户晓了。这一算法的挑战之一是处理大数据集时,调整超参数耗时很久。然而,因为我们的数据集包含不到1500项观测,所以我觉得这是一个尝试XGBoost的好机会。为了节约篇幅,我这里不会披露超参数调整的细节。我主要使用的方法是每次交叉验证一到两个参数,以免给我的机器太大的负担,同时在调整会话的间隔重新计算n_estimators的最优值。

下面是我实现的最终模型。它的得分是0.12278,事实上这比LASSO模型要差。

regr = xgb.XGBRegressor(

colsample_bytree=0.3,

gamma=0.0,

learning_rate=0.01,

max_depth=4,

min_child_weight=1.5,

n_estimators=1668,                                                                  

reg_alpha=1,

reg_lambda=0.6,

subsample=0.2,

seed=42,

silent=1)

regr.fit(train, y)

y_pred_xgb = regr.predict(test)

融合模型结果

最后我们需要组合两个模型的结果。我对两个模型的预测取了加权平均。最终的得分是0.11765,明显比两个模型单独预测的结果要好。这确认了集成学习的首要原则,假定误差率互不相关,集成的误差率低于单个模型。

predictions = np.expm1(.6*lasso_pred + .4*y_pred_xgb)

之前在特征工程时使用了log1p,所以现在用expm1还原原数值。注意这里给LASSO更大的权重(0.6),并不是因为在测试数据上LASSO的表现优于XGBoost,而是因为在训练数据上LASSO的表现优于XGBoost(因为建模的时候不能“偷看”测试数据)。

结语

这项竞赛是一个练习标准回归技术的好机会。我只进行了最少的特征工程就取得了前10%的排名。

除了上面的模型,我也尝试了SelectKBest(搭配Pipeline和网格搜索),将列数缩减至138,并得到了0.13215的分数。然而,将其与其他模型融合时,效果不佳。后来我又试了随机森林回归,得分是0.14377,这不算差,但要在我们的集成中加入这个模型,这个分数显然还不够高。

原文标题:LASSO回归与XGBoost:融合模型预测房价

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

一份有关中国科研人员数据管理和数据分享习惯的报告

DMP中的关键内容是关于数据的存储,收集和分享。只有21%的科研人员将数据分享纳入其中。但多数科研人....
的头像 IEEE电气电子工程师学会 发表于 02-20 09:57 230次 阅读
一份有关中国科研人员数据管理和数据分享习惯的报告

特斯拉自动驾驶让撞车几率大降40%?水分不小

数据集中的其他车辆还存在一个更微妙的问题。特斯拉为汽车提供了两个不同的数据点:分别是在Autoste....
的头像 新智元 发表于 02-19 09:14 381次 阅读
特斯拉自动驾驶让撞车几率大降40%?水分不小

一个在GitHub上一个开源的鉴黄图像数据集

值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22....
的头像 电子发烧友网工程师 发表于 02-18 09:53 411次 阅读
一个在GitHub上一个开源的鉴黄图像数据集

警告:机器学习导致了一场“科学危机”!

科学上的“可复制性危机”指的是当另一组科学家尝试同样的实验时,研究结果没有被重复。这意味着最初的结果....
的头像 新智元 发表于 02-18 09:07 340次 阅读
警告:机器学习导致了一场“科学危机”!

关于NLP基准数据集的快速概览,以及最新技术的进展

读者可以在Markdown中编辑文件。只需以相同的格式将一行添加到相应的表中即可。确保表格中数据排序....
的头像 新智元 发表于 02-16 11:01 391次 阅读
关于NLP基准数据集的快速概览,以及最新技术的进展

OpenAI新NLP模型,刷新了7大数据集的SOTA

至于具体的计算力,论文中没有提及,根据上文Twitter上的数据,他们的模型使用了256个谷歌云TP....
的头像 新智元 发表于 02-16 10:54 910次 阅读
OpenAI新NLP模型,刷新了7大数据集的SOTA

Byte Cup 2018国际机器学习竞赛夺冠记

因为baseline在数字,人名,地名,词形上预测错误率较高,所以我们考虑能不能将ner-tagge....
的头像 IEEE电气电子工程师学会 发表于 02-14 09:44 495次 阅读
Byte Cup 2018国际机器学习竞赛夺冠记

最严峻的挑战是如何开发能够应对组合爆炸的算法

深度学习的兴衰反映了学习算法在学术时髦和流行程度上的变化。第二次浪潮看到了古典人工智能 (class....
的头像 新智元 发表于 02-14 09:00 1283次 阅读
最严峻的挑战是如何开发能够应对组合爆炸的算法

为什么说物联网正在成为一种监控工具

每当我不在家时,早上我都想通过门铃摄像头来查看我的家人,在那里我可以看到他们去上班和上学;晚上,我可....
的头像 物联之家网 发表于 02-12 16:15 482次 阅读
为什么说物联网正在成为一种监控工具

中国人民大学孟小峰教授团队发布2018中国隐私风险指数

截至2018年6月,数据集中全部用户通过使用App共产生约131.98亿份权限数据。信息完备的约16....
的头像 电子发烧友网工程师 发表于 02-11 14:50 577次 阅读
中国人民大学孟小峰教授团队发布2018中国隐私风险指数

期待有一款好用的转换工具拯救程序员

目前还没有成熟的转译器供程序员们使用,很多都还在初级开发阶段,比如这款叫 voc 的转译工具(htt....
的头像 电子发烧友网工程师 发表于 02-11 10:59 416次 阅读
期待有一款好用的转换工具拯救程序员

万用NLP模型Transformer的升级版

Transformer-XL在5个数据集上都获得了强大的结果:在enwiki8上将bpc/perpl....
的头像 新智元 发表于 02-11 09:37 204次 阅读
万用NLP模型Transformer的升级版

Google AI骗过了Google,工程师竟无计可施?

其背后的验证机制就是 CAPTCHA(验证码),保护互联网服务免受诸如 Sybil 的攻击,这是互联....
的头像 电子发烧友网工程师 发表于 02-04 09:35 282次 阅读
Google AI骗过了Google,工程师竟无计可施?

8种适用于不同机器学习问题的常用数据集

Amazon 数据库包含不同领域的多种数据集,如公共交通,生态资源,卫星图像等。在数据集官网还有一个....
的头像 电子发烧友网工程师 发表于 01-29 10:21 728次 阅读
8种适用于不同机器学习问题的常用数据集

斯坦福携手MIT发布巨大量级X光胸片数据集

阻碍胸部X光片解释模型发展之一是,缺乏具有强放射学家注释的地面真实性和专家评分的数据集。研究人员可以....
的头像 电子发烧友网工程师 发表于 01-28 17:47 674次 阅读
斯坦福携手MIT发布巨大量级X光胸片数据集

PixelWatch或将与GooglePixel一起推出

据9To5 Google报道,谷歌日前正式宣布,2019年I/O开发者大会将于5月7日至5月9日期间....
发表于 01-28 16:04 211次 阅读
PixelWatch或将与GooglePixel一起推出

某恶意Google Chrome扩展程序会窃取您的银行卡信息

一个Google Chrome扩展程序会窃取银行卡信息,但这个扩展程序目前还未在Chrome Web....
的头像 E安全 发表于 01-26 11:38 221次 阅读
某恶意Google Chrome扩展程序会窃取您的银行卡信息

如何深入浅出地学习LOD表达式

“LOD 表达式”本身不是一种详细级别,而是一种关于 LOD 的语法表达式,它不会脱离当前的视图详细....
的头像 Tableau社区 发表于 01-25 14:32 273次 阅读
如何深入浅出地学习LOD表达式

Google神秘新机曝光 搭载高通骁龙855运行AndroidQ系统

从本月开始,搭载骁龙855旗舰平台的设备将陆续登场。1月25日消息,代号为“Google coral....
的头像 39度创意研究所 发表于 01-25 10:15 1034次 阅读
Google神秘新机曝光 搭载高通骁龙855运行AndroidQ系统

谷歌重磅发布自然问题数据集,包含30万个自然发生的问题和人工注释的答案

目前,NQ挑战赛排行榜上只有谷歌的BERT模型和DecAtt-DocReader模型的成绩。在论文中....
的头像 新智元 发表于 01-25 09:07 817次 阅读
谷歌重磅发布自然问题数据集,包含30万个自然发生的问题和人工注释的答案

Facebook开源了增强版的NLP工具包LASER

LASER的句子向量表示对于输入语言和NLP任务都是通用的。该工具将任何语言中的一个句子映射到高维空....
的头像 新智元 发表于 01-25 08:53 1668次 阅读
Facebook开源了增强版的NLP工具包LASER

Google正式开始实施了对加密货币及ICO广告的禁令

管理着7,000万英镑资产的英国投资公司Blackmore Group,其执行长Phillip Nu....
发表于 01-24 13:49 372次 阅读
Google正式开始实施了对加密货币及ICO广告的禁令

智慧家庭百花齐放,仍有瓶颈亟待克服

除国内业者外,欧美业者也不乏有新作推出,其中来自欧洲保加利亚的物联网公司Allterco Robot....
的头像 DIGITIMES 发表于 01-24 10:41 1242次 阅读
智慧家庭百花齐放,仍有瓶颈亟待克服

Google AI Residency怎么申请?来自往届top 2入选者的经验分享

在确定申请人在研究和技术方面适合Google AI Residency后,接下来是考虑文化方面的时候....
的头像 新智元 发表于 01-24 09:27 651次 阅读
Google AI Residency怎么申请?来自往届top 2入选者的经验分享

美思迪赛半导体:在电源管理IC市场“攻城略地”

正如刘万乐所说:“你可以没有晶圆厂没有封装厂,但关键的测部分一定要掌握在自己手上。因为晶圆厂本身都有....
的头像 TechSugar 发表于 01-23 17:04 1180次 阅读
美思迪赛半导体:在电源管理IC市场“攻城略地”

基于专用短程通信技术的紧急制动预警

如图2主车(HV)和远车(RV)位置关系,需分析接收到的远车(RV)刹车制动消息,通过行驶方向、速度....
的头像 智车科技 发表于 01-23 16:44 495次 阅读
基于专用短程通信技术的紧急制动预警

一个简单实用的清洗代码集

当我们面对更大的数据集时,我们需要对「dtypes」进行转换,从而节省内存。如果你有兴趣学习如何使用....
的头像 电子发烧友网工程师 发表于 01-23 11:42 425次 阅读
一个简单实用的清洗代码集

有没有违反双盲评审,这篇论文有没有录取资格?

该论文的主要关注点是文中提出方法的原创性。使用高维球对层次结构进行编码,并将包含和排除编码作为对这些....
的头像 新智元 发表于 01-23 09:13 454次 阅读
有没有违反双盲评审,这篇论文有没有录取资格?

华硕锁定Chromebook战场 全年挑战100万台大关

全球PC市况低迷,消费性机种需求不断下滑,惟商用、电竞及Chromebook机种尚能保持出货小幅增长....
的头像 电子发烧友网工程师 发表于 01-22 16:23 826次 阅读
华硕锁定Chromebook战场 全年挑战100万台大关

一套能够进行心理健康以及信用分析的系统

本文通过从医院收集真实患者数据以及从微博等社交媒体收集患者数据,首次创建了公开的自闭症和抑郁症人脸数....
的头像 人工智能 发表于 01-21 13:43 640次 阅读
一套能够进行心理健康以及信用分析的系统

让我们一起回顾 2018 年 Google 的研究工作!

2018 年对 Google 的研究团队来说是令人兴奋的一年,我们在很多方面推动了技术的发展,包括基....
的头像 TensorFlow 发表于 01-21 10:51 442次 阅读
让我们一起回顾 2018 年 Google 的研究工作!

Face++ Detection Team在2018年做COCO skeleton的工作

目前多阶段网络里的单元网络离最优比较远,使用已经验证的网络(如 Resnet)要比主流的多阶段方法(....
的头像 电子发烧友网工程师 发表于 01-20 09:15 492次 阅读
Face++ Detection Team在2018年做COCO skeleton的工作

向来提倡open的谷歌,现在也玩儿“自闭”?

一篇数据集论文对于复现结果非常重要,如果存在阻碍数据集共享的法律问题,那么发表私人数据集论文就好了(....
的头像 新智元 发表于 01-20 08:56 547次 阅读
向来提倡open的谷歌,现在也玩儿“自闭”?

Google AI发数据集论文、办挑战赛却拒绝开放数据集?

DeepMind 发表的好几篇论文也是仅依靠论文本身完全无法复现。这让我意识到发表在 arXiv 或....
的头像 电子发烧友网工程师 发表于 01-18 14:05 480次 阅读
Google AI发数据集论文、办挑战赛却拒绝开放数据集?

谷歌的研究团队在2018年的主要研究成果汇总

我们还发布了面向量子计算机的开源编程框架Cirq,并探索了如何将量子计算机用于神经网络。最后,我们分....
的头像 新智元 发表于 01-18 10:05 527次 阅读
谷歌的研究团队在2018年的主要研究成果汇总

八大机器学习数据集

网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且....
的头像 新智元 发表于 01-18 09:52 534次 阅读
八大机器学习数据集

Google背后的广告营销模式,揭露了大数据时代用户的隐私早已被共享的现状

在 2019 年,我们将接近实现搜索引擎营销的新纪元,即多设备跨越。假如这项技术得以实现,广告将无缝....
的头像 嵌入式资讯精选 发表于 01-17 17:37 649次 阅读
Google背后的广告营销模式,揭露了大数据时代用户的隐私早已被共享的现状

科学研究和论文写作常用到的“七种武器”

在计算机科学领域,最新最好的论文一般出现在最新的会议上面,对于这些论文,自己一般会做到全部阅读。从网....
的头像 锂电联盟会长 发表于 01-16 16:00 476次 阅读
科学研究和论文写作常用到的“七种武器”

TensorFlow回归:建立了一个模型来预测汽车的燃油效率。

该图显示数百个 epoch 后的验证错误几乎没有改善,甚至降低了。让我们更新 model.fit 方....
的头像 TensorFlow 发表于 01-16 14:09 414次 阅读
TensorFlow回归:建立了一个模型来预测汽车的燃油效率。

如何在Hadoop上运行这些深度学习工作

典型的深度学习工作流程:数据从各个终端(或其他来源)汇聚到数据湖中。数据科学家可以使用笔记本进行数据....
的头像 电子发烧友网工程师 发表于 01-15 16:29 434次 阅读
如何在Hadoop上运行这些深度学习工作

如何在原理图中不显示s2p文件名

嗨,有人知道如何在原理图中不显示s2p文件名吗? 谢谢你:FLJ于2014年3月14日上午7点14分 以上来自于谷歌翻译 &nbs...
发表于 01-15 14:38 44次 阅读
如何在原理图中不显示s2p文件名

中文自然语言处理的语料集合及其构建现状

本项目以采集公开的人民日报与参考消息为例进行历时的新闻采集为例, 公开网站中公开了1946-2003....
的头像 电子发烧友网工程师 发表于 01-15 10:38 1659次 阅读
中文自然语言处理的语料集合及其构建现状

研究人员开发一种神经网络,能够读取食谱并生成烹饪完成后的熟食产品的图像

值得一提的是,与CUB和Oxford102数据集中的图像相比,recipe1M数据集中的图像质量较低....
的头像 人工智能 发表于 01-14 14:35 564次 阅读
研究人员开发一种神经网络,能够读取食谱并生成烹饪完成后的熟食产品的图像

Google推动移动通信的互联网化趋势

Google的这项服务是基于T-Mobile、Sprint、U.S. Cellular的移动虚拟基础....
发表于 01-14 09:54 76次 阅读
Google推动移动通信的互联网化趋势

谷歌街景怎么拍到那么多图的

为了采集到世界各个角落的照片,Google 街景团队的成员们可谓上天入地又下海。我们只知道 Goog....
的头像 发烧友学院 发表于 01-12 11:15 646次 阅读
谷歌街景怎么拍到那么多图的

腾讯在arxiv上发布论文详细介绍了数据集的构成以及评价标准等内容

在现有的视觉表示学习任务中,深度卷积神经网络(CNN)通常是针对带有单个标签的图像进行训练的,例如 ....
的头像 新智元 发表于 01-12 09:13 1168次 阅读
腾讯在arxiv上发布论文详细介绍了数据集的构成以及评价标准等内容

北大语言计算与机器学习研究组推出一套全新中文分词工具包pkuseg

多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。....
的头像 中国人工智能学会 发表于 01-11 15:55 718次 阅读
北大语言计算与机器学习研究组推出一套全新中文分词工具包pkuseg

Android教程之Android开发从入门到精通PDF中文版电子教材免费下载

本书通过具体实例,详细地讲解了Android技术的具体应用和实现过程。本书内容新颖、知识全面、讲解详....
发表于 01-08 16:57 80次 阅读
Android教程之Android开发从入门到精通PDF中文版电子教材免费下载

Google AI骗过工程师 Google团队却束手无策

如果你通过 Google 搜索购买演唱会门票或者注册论坛账号,系统会提示你必须点击几个图框、音频或者....
的头像 人工智能头条 发表于 01-08 16:17 629次 阅读
Google AI骗过工程师 Google团队却束手无策

在重症监护室,可以利用人工智能进行医疗监护

对于患有败血症的患者来说,控制输液量至关重要。败血症是一种全身感染、危及生命的综合征,败血症患者的血....
的头像 IEEE电气电子工程师学会 发表于 01-08 10:13 1149次 阅读
在重症监护室,可以利用人工智能进行医疗监护

从Google Cloud实例提供浮动许可无法运行

嗨, 我也对此有服务请求,但我认为查询社区会很好,因为这是一个特殊的设置,许多不幸的选择已经强制要求。 我们正在尝试在G...
发表于 01-04 11:16 72次 阅读
从Google Cloud实例提供浮动许可无法运行

智能音箱“智商”大比拼:Google Home领先所有竞争对手

  导读:据美国科技媒体VentureBeat报道,风险投资公司Loup Ventures通过智能音箱对主流数字语音助手进行的测试显示,虽然...
发表于 12-31 09:23 276次 阅读
智能音箱“智商”大比拼:Google Home领先所有竞争对手

清洗误标注的开发集和测试集样本

在进行误差分析时,你可能会注意到一些开发集的样本被误标注(mislabeled )了。此处的“误标注”指的是图像在使用算法处理前,已...
发表于 12-19 09:48 193次 阅读
清洗误标注的开发集和测试集样本

建立开发集和测试集(总结)

• 被选择作为开发集和测试集的数据,应当与你未来计划获取并对其进行良好处理的数据有着相同的分布,而不一定和训练集的数据分布...
发表于 12-14 10:56 199次 阅读
建立开发集和测试集(总结)

何时修改开发集、测试集和指标

每当开展一个新项目时,我会尽快选好开发集和测试集,因为这可以帮团队制定一个明确的目标。 我通常会要求我的团队在不到一周...
发表于 12-14 10:54 212次 阅读
何时修改开发集、测试集和指标

通过开发集和度量指标加速迭代

对于当前面临的新问题,我们很难提前知道使用哪种方法会是最合适的,即使是一个经验丰富的机器学习研究员,通常也需要在尝试多种...
发表于 12-13 14:06 312次 阅读
通过开发集和度量指标加速迭代

开发集和测试集应该有多大?

开发集的规模应该尽可能的大,至少要能够区分出你所尝试的不同算法之间的性能差异。例如,如果分类器 A 的准确率为 90.0% ,而分...
发表于 12-10 10:23 260次 阅读
开发集和测试集应该有多大?

开发集和测试集应该服从同一分布

根据公司的核心市场分布情况,你将猫咪app的图像数据划分为“美国”、“中国”、“印度”和“其它地区”四个区域。在设立开发集和...
发表于 12-10 10:15 269次 阅读
开发集和测试集应该服从同一分布

深度学习中开发集和测试集的定义

继续分析我们之前提到的猫咪图片的案例:现在你负责运营一个移动端 app,用户会向这个app 上传许多不同内容的图片。而你希望这个...
发表于 11-30 16:58 437次 阅读
深度学习中开发集和测试集的定义