首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏小小挖掘机

    特征工程|连续特征的常见处理方式(含实例)

    连续特征离散化可以使模型更加稳健,比如当我们预测用户是否点击某个商品时,一个点击该商品所属类别下次数为100次和一个点击次数为105次的用户可能具有相似的点击行为,有时候特征精度过高也可能是噪声,这也是为什么在 连续特征经常是用户或者事物对应一些行为的统计值,常见的处理方法包括: 归一化 标准化 离散化 缺失值处理 这里要特别注意一下归一化和标准化的区别,在平常的使用中,很多同学都容易把这两者的概念混淆,因为两者的英文翻译是一样的 特征经过归一化或者标准化处理之后对于模型训练的好处有: 提升模型精度。 因为使不同量纲的特征处于同一数值量级,减少方差大的特征的影响。在KNN中,我们需要计算待分类点与所有实例点的距离。 这样的好处就是在进行特征提取时,忽略掉不同特征之间的一个度量,而保留样本在各个维度上的信息(分布)。 ? 离散化 数据离散化(也叫数据分组)是指将连续的数据进行分组,使其变为一段段离散化的区间,离散化后的特征根据其所在的组进行One-Hot编码。

    1.7K40发布于 2020-08-21
  • 来自专栏NewBeeNLP

    KDD2021 | 华为AutoDis:连续特征的Embedding学习框架

    但是,Embedding模块却很少有工作进行深入研究,特别是对于连续特征的embedding方面。 1、连续特征处理 CTR预估模型的输入通常包含连续特征和离散特征两部分。 ,通常难以有效捕获连续特征中信息。 这类方法通常是两阶段的,即首先将连续特征转换为对应的「离散值」,再通过「look-up」的方式转换为对应的embedding。 首先探讨一个问题,为什么需要对连续特征进行离散化呢? 显然,这种方法参数量巨大(因为你可以有无穷个连续特征取值!),无法在实践中进行使用。

    2.2K10发布于 2021-12-02
  • 来自专栏用户11994342的专栏(2)

    什么是连续特征离散化?分桶(Bucketing)有什么技巧?

    什么是连续特征离散化?分桶(Bucketing)有什么技巧?本文收录于Github:AI-From-Zero项目——一个从零开始系统学习AI的知识库。如果觉得有帮助,欢迎⭐Star支持! 这就是连续特征离散化的本质:把无限或庞大的连续数值空间,映射到有限的几个离散类别上。在机器学习的世界里,我们经常会遇到这样的问题:用户的年龄、收入、消费金额,这些都是连续的数字。 增强鲁棒性:异常值和噪声的影响被削弱引入非线性:让线性模型也能学习复杂的分段规律便于特征交叉:离散化后的特征更容易组合出有价值的新特征二、什么是连续特征离散化简单来说,连续特征离散化就是把连续的数值转换成有限的几个类别 :风控评分卡在信用评分系统中,用户的收入、负债比等连续特征会被离散化成5-10个桶,然后用WOE编码转换成风险分数。 发展趋势自动化分桶:AutoML工具能自动尝试不同的离散化方案,但业务知识仍需人工注入自适应分桶:根据数据分布动态调整分桶边界深度学习中的离散化:在Embedding层中自动学习离散化表示六、总结与思考核心要点回顾:连续特征离散化是把连续值映射到有限类别的技术常用方法包括等宽分桶

    9610编辑于 2026-04-10
  • 来自专栏深度学习和计算机视觉

    【扩散模型的应用】用于红外小目标检测的基于Diffusion的连续特征表示

    为了克服这些限制,我们提出了一种基于扩散的连续特征表示网络(DCFR-Net),包括两个关键分支:基于扩散的连续高分辨率特征表示(DCHFR)和ISDTD。 其次,为了解决微弱目标并准确聚合不同层的特征,MIFA使学习的特征作为连续表示场,从而实现无分辨率限制的精细特征对齐。 显然,我们的训练策略包括两个连续的阶段。在第一阶段,我们通过自监督学习方案训练DCHFR以获得红外目标的精细连续HR特征表示。 因此,调制结果mi携带了详细的控制信息,使得在连续域中提取细粒度和HR特征的性能更优越。此外,为了实现连续特征而不是离散特征,我们在U-Net的解码路径中插入了N − 1个基于坐标的INR。 如图3所示,我们首先将连续特征图M沿特征通道维度分割成全局部分Mg和局部部分Ml。

    95910编辑于 2024-12-06
  • 来自专栏计算机视觉理论及其实现

    Lipschitz连续

    Lipschitz(利普希茨)连续定义: 有函数f(x),如果存在一个常量K,使得对f(x)定义域上(可为实数也可以为复数)的任意两个值满足如下条件:?? 那么称函数f(x)满足Lipschitz连续条件,并称K为f(x)的Lipschitz常数。 Lipschitz连续比一致连续要强。它限制了函数的局部变动幅度不能超过某常量。

    2.3K10编辑于 2022-09-03
  • 来自专栏AI 算法笔记

    特征工程之特征缩放&特征编码

    (上) 特征工程之数据预处理(下) 本篇文章会继续介绍特征工程的内容,这次会介绍特征缩放和特征编码,前者主要是归一化和正则化,用于消除量纲关系的影响,后者包括了序号编码、独热编码等,主要是处理类别型、文本型以及连续特征 3.3.5 离散化 定义:顾名思义,离散化就是将连续的数值属性转换为离散的数值属性。 那么什么时候需要采用特征离散化呢? 这背后就是需要采用“海量离散特征+简单模型”,还是“少量连续特征+复杂模型”的做法了。 对于线性模型,通常使用“海量离散特征+简单模型”。 特性 1.在工业界很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列 0/1 的离散特征。 其优势有: 离散化之后得到的稀疏向量,内积乘法运算速度更快,计算结果方便存储。 假设有连续特征j ,离散化为 N个 0/1 特征连续特征 k,离散化为 M 个 0/1 特征,则分别进行离散化之后引入了 N+M 个特征

    1.7K20发布于 2019-08-16
  • 来自专栏脑电信号科研科普

    PNAS:基于频率标记EEG分离视觉皮层数值和连续幅度提取的数值神经特征

    然而,一组对象不仅具有数量特征,而且还具有多个连续的视觉特征,包括单个对象的尺寸和集合的范围。 此外,一些作者认为,数值只是一种抽象的认知结构,是对视觉刺激中存在的所有连续尺度特征进行加权的结果,并且数值是通过根据特定情境的需要对低层感官信息进行自适应重组来提取的。 本研究中采用的频率标记法使研究人员能够克服数值和连续尺度之间的相关性问题,这意味着研究人员可以选择自然维度作为视觉特征的低水平变化的一个强有力的比较点。 因此,人类视觉似乎被提供了对数值的早期辨别机制,其操作方式与解码低级视觉特征所涉及的机制相同,这表明数值也可以被认为是主要的视觉特征。数值的拓扑不变性已被提出为区分数字与连续尺度的关键视觉属性。 开创性的ANS理论提出,与连续尺度相关的低级视觉特征必须在所谓的归一化阶段被消除,该归一化阶段是在以抽象的、非模态的方式提取数字之前。

    67300发布于 2020-11-20
  • 来自专栏机器学习算法原理与实践

    特征工程之特征表达

    主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征连续化和离散化处理,连续特征的离散化处理几个方面。 1. 首先我们会看是该特征连续值还是离散值。如果是连续值,那么一般有两种选择,一是选择所有有该特征值的样本,然后取平均值,来填充缺失值,另一种是取中位数来填充缺失值。 离散特征连续化处理     有很多机器学习算法只能处理连续特征,不能处理离散值特征,比如线性回归,逻辑回归等。那么想使用逻辑回归,线性回归时这些值只能丢弃吗?当然不是。 我们可以将离散特征连续化处理。    最常见的离散特征连续化的处理方法是独热编码one-hot encoding。 连续特征的离散化处理    对于连续特征,有时候我们也可以将其做离散化处理。这样特征变得高维稀疏,方便一些算法的处理。   

    1.1K30发布于 2018-08-07
  • 来自专栏FunTester

    连续测试策略

    何为连续测试 「连续测试」是一种常见软件测试类型,其中涉及经常在连续交付过程的多个阶段进行不同类型的测试以评估软件质量,以及早发现BUG,最终提供高质量的软件和增强业务连续性。 连续测试在DevOps中使用自动化工具起着关键作用,自动化工具可帮助开发人员快速获取有关缺陷的反馈并做出相应的更改,相关内容请参考如何在DevOps中实施连续测试。 高质量连续测试的挑战 大多数敏捷团队都希望进行频繁的部署,但是由于缺乏有效的连续测试交付策略,大多数组织甚至无法缩短其软件开发周期。 选择测试自动化工具 建立全面的连续测试策略是一项长期任务,但是选择正确的测试自动化工具对于实现完全稳定性至关重要。 一个好的自动化工具将通过激活连续的发布和部署、减少时间和维护成本,增加代码的可重用性以及提供更高的投资回报来始终为组织增加价值。

    1.1K30发布于 2020-11-09
  • 来自专栏机器学习算法原理与实践

    特征工程之特征选择

    后面还有两篇会关注于特征表达和特征预处理。 1. 特征的来源     在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。 选择合适的特征     我们首先看当业务已经整理好各种特征数据时,我们如何去找出适合我们问题需要的特征,此时特征数可能成百上千,哪些才是我们需要的呢?      这个主要用于输出连续值的监督学习算法中。我们分别计算所有训练集中各个特征与输出值之间的相关系数,设定一个阈值,选择相关系数较大的部分特征。     第三个可以使用的是假设检验,比如卡方检验。 寻找高级特征     在我们拿到已有的特征后,我们还可以根据需要寻找到更多的高级特征。比如有车的路程特征和时间间隔特征,我们就可以得到车的平均速度这个二级特征

    1.4K20发布于 2018-08-07
  • 来自专栏算法研习社

    特征工程(中)- 特征表达

    特征属性 特征按其取值类型不同,可以简单分为连续型和离散型。而离散型特征,又可以分为类别型和序列型。下面依次简要说明。 连续特征:取值为连续实数的特征。 比如,身高,175.4cm。 探讨完特征表达需要考虑的因素,下面我们就可以有的放矢,讨论一下特征表达的技术问题。 02 连续特征 上面说过,根据模型的需要,特征需要做连续化或者离散化的处理。 连续特征已无需再做连续化处理,可以把特征的值直接拿来用,最多再做个归一化什么的就够了。 连续特征的离散化 方法主要有两种,阈值分组和模型离散。 树模型是靠对特征空间进行分割,并在每个子空间中用常量建模,得到预测结果的。 特征划分的结果,最终反映为树的叶子结点,因此用某个连续特征被划分到哪个叶子结点,自然就实现了连续特征的离散化。 03 离散型特征 对离散特征,我们考虑其连续化和离散化的过程。 离散特征连续化 一篇文章,由很多不同的单词组成;一个视频,则可以有很多的标签,如演员、导演、地区、语言、豆瓣评分等。

    99730发布于 2020-07-21
  • 来自专栏机器学习与统计学

    特征选择与特征抽取

    .也就是说,特征抽取后的新特征是原来特征的一个映射。 也就是说,特征选择后的特征是原来特征的一个子集。 2. 相同点和不同点 特征选择和特征抽取有着些许的相似点,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:特征抽取的方法主要是通过属性间的关系 ,如组合不同的属性得新的属性,这样就改变了原来的特征空间;而特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。 总结 特征选择不同于特征提取,特征和模型是分不开,选择不同的特征训练出的模型是不同的。在机器学习=模型+策略+算法的框架下,特征选择就是模型选择的一部分,是分不开的。

    2K31发布于 2019-04-10
  • 来自专栏AI深度学习求索

    传统特征:HOG特征原理

    这样,一个block内所有cell的特征向量串联起来便得到该block的HOG特征。这些区间是互有重叠的,这就意味着:每一个单元格的特征会以不同的结果多次出现在最后的特征向量中。 则一块的特征数为:3*3*9; (5)收集HOG特征 最后一步就是将检测窗口中所有重叠的块进行HOG特征的收集,并将它们结合成最终的特征向量供分类使用。 (6)那么一个图像的HOG特征维数是多少呢? Dalal提出的Hog特征提取的过程:把样本图像分割为若干个像素的单元(cell),把梯度方向平均划分为9个区间(bin),在每个单元里面对所有像素的梯度方向在各个方向区间进行直方图统计,得到一个9维的特征向量 ,每相邻的4个单元构成一个块(block),把一个块内的特征向量联起来得到36维的特征向量,用块对样本图像进行扫描,扫描步长为一个单元。 最后将所有块的特征串联起来,就得到了人体的特征

    1.6K30发布于 2018-12-11
  • 来自专栏Don的成长史

    连续最大和

    题目描述: 一个数组有 N 个元素,求连续子数组的最大和。 例如:[-1,2,1],和最大的连续子数组为[2,1],其和为 3 输入描述: 输入为两行。 输出描述: 所有连续子数组中和最大的值。 输入示例: 3 -1 2 1 输出示例: 3 看完题目之后,我以为这题非常简单,嗒嗒哒哒地写了下面这段代码,但是只通过了80%的测试用例。 比较max和sum的大小,用max来记录sum的最大值,题目要求输出的是连续最大和,当出现sum为负数的情况时,说明又要从头再来求了。这段代码终于没有超时了。

    60720编辑于 2022-05-07
  • 来自专栏chimchim要努力变强啊

    sql判断是否连续并生成连续分组id

    目录 一、需求 二、测试案例 1.测试数据 2.实现 3.结果  ---- 一、需求 想实现根据时间升序排序取出同班级下一个进入班级的时间,然后判断同一班级上一个人和下一个人是否连续,并生成符合分组条件的连续分组 start_timestamp asc) -rank() over (partition by num,name order by start_timestamp) as group_id --连续内容的分组 num order by start_timestamp asc ) then 1 else 0 end as is_continue --判断同一班级进入班级的人是否连续 ,1为连续,0为不连续 from test_detail ; 3.结果  我的博客即将同步至腾讯云开发者社区,邀请大家一同入驻:https://cloud.tencent.com/developer/

    1.4K20编辑于 2022-11-13
  • 来自专栏ISP图像处理相关

    特征提取——颜色特征

    特征提取——颜色特征 颜色直方图 OpenCV之颜色空间: 颜色空间RGB(Red 红色,Green 绿色,Blue 蓝色) R的取值范围:0-255 G的取值范围:0-255 B的取值范围:0-255 与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化。 图像的颜色矩一共只需要9个分量(3个颜色分量,每个分量上3个低阶矩) 颜色矩常和其它特征结合使用,而且一般在使用其它特征前起到过滤缩小范围(narrow down)的作用。

    74720编辑于 2022-01-14
  • 来自专栏深度学习和计算机视觉

    图像特征点|SUSAN特征

    今天我们将介绍一个特征检测算子---SUSAN特征。 由此,我们可以得出SUSAN提取边缘和角点算法的基本原理:在边缘或角点处的USAN值最小,可以根据USAN区域的大小来检测边缘、角点等特征的位置和方向信息。

    1.4K10发布于 2019-10-24
  • 来自专栏机器学习AI算法工程

    特征工程(四): 类别特征

    所以股票价格应该用一个连续的数字变量表示。 另一方面,公司的产业(石油,旅游,技术等)应该无法被比较的,也就是类别特征。 大的分类变量在交易记录中特别常见。 线性相关特征,就像我们一样在tfidf中发现,有点烦人,因为它意味着训练线性模型不会是唯一的。 特征的不同线性组合可以做出同样的预测,所以我们需要跳过额外条件的来理解特征对预测的影响。 虚拟编码通过仅使用表示中的k-1个特征来消除额外的自由度。 公共汽车下面有一个特征,由全零矢量表示。 这被称为参考类别。 哈希编码 当有很多特征时,存储特征向量可能占用很多空间。 特征散列将原始特征向量压缩为m维通过对特征ID应用散列函数来创建矢量。 散列特征的一个缺点是散列特征是聚合的原始特征,不再可解释。 在这个例子中,我们将使用Yelp评论数据集来演示存储和,解释性使用的为sklearn的库FeatureHasher。

    4.1K20发布于 2019-10-28
  • 来自专栏小小挖掘机

    特征工程|空间特征构造以及文本特征构造

    由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。 那特征工程是什么? 特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。 (特征构造)等子问题,本章内容主要讨论特征构造的方法。 创造新的特征是一件十分困难的事情,需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。 ——Andrew Ng 0x01 特征构造介绍 空间特征构造以及文本特征构造具体方法: ? 适用范围:只有一个词语或者包含多个词语的特征。例子: 只有一个词语的特征:职业。 有多个词语的特征:用户兴趣特征为“健身 电影 音乐”。

    1.6K10发布于 2019-12-11
  • 来自专栏杀马特

    连续数组问题

    这样可以把原题中的求子数组内零,1个数相同的最长子数组长度 转为 把0改为-1,即和为零的最长子数组长度:->这样就是前缀和为sum的最最短子数组,也就是让hash表

    39000编辑于 2025-01-23
领券