问利用纬度/经度和场地ID对日空气污染水平进行分类
EN

Data Science用户

提问于 2022-06-13 17:23:38

回答 1查看 74关注 0票数 2

假设有一个包含数百个站点的非常大的数据集，其中只包含PM2.5级别、站点ID以及作为特征的纬度和经度。预测的独立特征是PM2.5。相关的特征是站点ID和纬度/经度。

相反，第二个数据集只涉及上述三个站点(A、B、C)。它具有与第一个相同的特性。但是，除了地理位置和PM2.5特征外，每个站点每天还可能收集到50个环境特征，如每日高温、日最大风速等。

目标是确定哪个数据集可以在未来某一天对站点A、B、C产生更好的预测。

问题1:假设使用第一数据集构建的分类器比使用第二数据集构建的分类器性能要好得多。在第一个数据集上构建的分类器是否有效，因为它们的一些预测值仅仅基于站点ID？站点ID (以及类似的Lat/Lon)是否是要包含的有效功能？

问题2:假设现在的任务是在第四个看不见的位置预测PM2.5。没有第四个位置的培训数据，只有一个测试事件。两个数据集都不包括此位置。第四个位置的Lat/Lon包括在测试中。在测试期间，第四个位置的站点ID是N/A。第二个数据集包括测试期间第四个位置的许多环境特性。假设仅基于位置，来自第一个数据集的分类器(许多Lat/Lon、站点ID、前一天PM2.5级别)在预测PM2.5方面比使用少数位置构建的模型要好得多。这是有效的结果吗？

classifier

predictive-modeling

回答 1

Data Science用户

发布于 2022-06-13 17:56:48

在第一个数据集上构建的分类器是否有效，因为它们的一些预测值仅仅基于站点ID？站点ID (以及类似的Lat/Lon)是否是要包含的有效功能？

只要站点ID在推断时也可用，就可以包含站点ID。如果您想要昵称，那么同时包含站点ID和lat/long可能有点多余。Lat/long包含相同数量的信息(来自模型的PoV)，但以一种更难建模的格式。如果只使用站点ID，您可能会获得相当好的结果。

假设仅基于位置，来自第一个数据集的分类器(许多Lat/Lon、站点ID、前一天PM2.5级别)在预测PM2.5方面比使用少数位置构建的模型要好得多。这是有效的结果吗？

假设没有数据泄漏，这是一个非常奇怪的结果。考虑到第二个数据集包含更多信息，您可能期望在第二个数据集上训练的模型至少会执行第一个数据集。如果第一个-数据集模型表现得更好，那么(1)第二个数据集中的附加相关特征与独立特征不相关，或者(2)在对第二个数据集进行培训时，您的模型过于适合。

我认为这些附加功能不太可能与目标完全无关。我建议在第二个数据集上尝试某种类型的正则化方法并进行再培训。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/111788

复制

相似问题

问利用纬度/经度和场地ID对日空气污染水平进行分类
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用纬度/经度和场地ID对日空气污染水平进行分类EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问利用纬度/经度和场地ID对日空气污染水平进行分类
EN