首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏小小挖掘机

    特征工程|连续特征的常见处理方式(含实例)

    连续特征离散化可以使模型更加稳健,比如当我们预测用户是否点击某个商品时,一个点击该商品所属类别下次数为100次和一个点击次数为105次的用户可能具有相似的点击行为,有时候特征精度过高也可能是噪声,这也是为什么在 连续特征经常是用户或者事物对应一些行为的统计值,常见的处理方法包括: 归一化 标准化 离散化 缺失值处理 这里要特别注意一下归一化和标准化的区别,在平常的使用中,很多同学都容易把这两者的概念混淆,因为两者的英文翻译是一样的 离散化 数据离散化(也叫数据分组)是指将连续的数据进行分组,使其变为一段段离散化的区间,离散化后的特征根据其所在的组进行One-Hot编码。 宽度为 15,即用变量中的最大值(46)减去变量中的最小值(1),然后用差除以组数(3)。 3、等频分组 等频分组也叫分位数分组,即分组后每组的变量个数相同。 例如,将一组变量(1,7,12,12,22,30,34,38,46)分成三组。 变量的总个数为 9,所以每组的变量为 3 个。

    1.7K40发布于 2020-08-21
  • 来自专栏NewBeeNLP

    KDD2021 | 华为AutoDis:连续特征的Embedding学习框架

    1、连续特征处理 CTR预估模型的输入通常包含连续特征和离散特征两部分。 ,通常难以有效捕获连续特征中信息。 这类方法通常是两阶段的,即首先将连续特征转换为对应的「离散值」,再通过「look-up」的方式转换为对应的embedding。 首先探讨一个问题,为什么需要对连续特征进行离散化呢? 2)LD (Logarithm Discretization):对数离散化,其计算公式如下: 3)TD (Tree-based Discretization):基于树模型的离散化,如使用GBDT+LR 来将连续特征分到不同的节点。

    2.2K10发布于 2021-12-02
  • 来自专栏python3

    python3-特征值,特征分解,SVD

    1.设A为n阶矩阵,若存在常数λ及n维非零向量x,使得Ax=λx,则称λ是矩阵A的特征值,x是A属于特征值λ的特征向量。 A的所有特征值的全体,叫做A的谱,记为λ(A) 2.特征分解(Eigendecomposition),又称谱分解(Spectral decomposition)是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法 其中Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每个对角线上的元素就是一个特征值。这里需要注意只有可对角化矩阵才可以作特征分解。 特征值分解是一个提取矩阵特征很不错的方法,但是它只是对方阵而言的 ? ? ? ? ? ]])) print(x) print(np.linalg.det(x)) s,v,d=np.linalg.svd(x) print (f"{s}\n\n{v}\n\n{d}\n") [[1. 2. 3.

    1.8K21发布于 2020-01-06
  • 来自专栏用户11994342的专栏(2)

    什么是连续特征离散化?分桶(Bucketing)有什么技巧?

    什么是连续特征离散化?分桶(Bucketing)有什么技巧?本文收录于Github:AI-From-Zero项目——一个从零开始系统学习AI的知识库。如果觉得有帮助,欢迎⭐Star支持! 这就是连续特征离散化的本质:把无限或庞大的连续数值空间,映射到有限的几个离散类别上。在机器学习的世界里,我们经常会遇到这样的问题:用户的年龄、收入、消费金额,这些都是连续的数字。 增强鲁棒性:异常值和噪声的影响被削弱引入非线性:让线性模型也能学习复杂的分段规律便于特征交叉:离散化后的特征更容易组合出有价值的新特征二、什么是连续特征离散化简单来说,连续特征离散化就是把连续的数值转换成有限的几个类别 :风控评分卡在信用评分系统中,用户的收入、负债比等连续特征会被离散化成5-10个桶,然后用WOE编码转换成风险分数。 场景二:推荐系统用户的"活跃度"可以离散化成"流失、低活、中活、高活"四档,然后与"品类偏好"交叉,生成"高活_3C数码"这样的组合特征,在召回阶段特别有效。

    9610编辑于 2026-04-10
  • 来自专栏机器学习/数据可视化

    3特征分箱方法

    特征工程-特征分箱 一般在建立分类模型时,当我们进行特征工程的工作经常需要对连续型变量进行离散化的处理,也就是将连续型字段转成离散型字段。 特征离散化后,模型会更稳定,降低了模型过拟合的风险。 离散化的过程中连续型变量重新进行了编码,本文主要介绍是3种常见的特征分箱方法: 分箱特点 连续型变量执行离散化的分箱操作,能够更加简洁地呈现数据信息 消除特征变量的量纲影响,因为分箱之后都是类别数,例如 (quantiles)值以便具有相同填充的bins 聚类:kmeans 策略基于在每个特征上独立执行的k-means聚类过程定义bins。 个类,10/3=3...1,前面两个3个元素,最后一个是4个元素,即最后一个箱体会包含余数部分的元素: In [13]: dis = KBinsDiscretizer(n_bins=3, =object) In [15]: sort_df # 排序后的数据 Out[15]: [0, 10, 14, 20, 35, 49, 50, 78, 88, 150] 聚类分箱 聚类分箱指的是先对连续型变量进行聚类

    1.1K30编辑于 2023-08-25
  • 来自专栏灰灰的数学与机械世界

    考研(大学)数学 极限与连续3

    极限与连续3) 基础 求 \underset{n\rightarrow \infty}{\lim}\sqrt[n]{\left( 1+\frac{1}{n} \right) ^2\left( 1+ ax-a\sin x}{x\cdot \frac{1}{2}a^2x^2}=2\frac{1}{a^2}\underset{x\rightarrow 0}{\lim}\frac{\tan ax-ax}{x^3} +2\frac{1}{a^2}\underset{x\rightarrow 0}{\lim}\frac{ax-a\sin x}{x^3}\\&=2\frac{1}{a}\underset{x\rightarrow 0}{\lim}\frac{\sec ^2ax-1}{3x^2}+2\frac{1}{a^2}\underset{x\rightarrow 0}{\lim}\frac{1-\cos x}{3x^2}= \frac{2a^2+1}{3a}\end{align*} 解题思路:知 \tan x-x~kx^3 ,有 x-\sin x~x3 ,故想到加一项,然后再减一项,这样就可以凑三阶,剩下的用洛必达法则(

    37220编辑于 2022-11-23
  • 来自专栏python3

    特征变换(3)小波变换

    完整的列表参看小波相关的变换列表,常见的如下: 连续小波变换(CWT) 离散小波变换(DWT) 快速小波转换(FWT) 小波包分解(Wavelet packet decomposition) (WPD) Cohen-Daubechies-Feauveau小波,有时称为“多贝西”9/7 (Daubechies 9/7)或CDF9/7 哈尔小波转换 Vaidyanathan滤波器(24) Symmlet 复小波变换 连续小波

    1.8K20发布于 2020-01-14
  • 来自专栏点云PCL

    3D 特征点概述(1)

    本文主要总结PCL中3D特征点的相关内容,该部分内容在PCL库中都是已经集成的在pcl_feature模块中,该模块包含用于点云数据进行3D特征估计的数据结构以及原理机制,3D特征点是3D点的三维空间中的位置的表示 相应的bin增加1.生成点特征直方图(PFH)。 (3)将得到的直方图组与其他点云的组进行比较,以便找到对应关系。 (3)计算三个特征(PFH中的四个,Ps和Pt之间的距离被遗漏),它们一起表示目标点pt处的平均曲率。将它们组合并放入等效的直方图箱中。 相应的bin增加1.生成简单的点特征直方图(SPFH)。 (3)为了达到更多的点和连接(最多2次r),邻居的SPFH根据它们的空间距离加以加权作为最后一步。 (3)将形状分布组件(SDC)添加到每个直方图。

    1.4K20发布于 2019-07-30
  • 来自专栏点云PCL

    3D特征点概述(2)

    紧接上文思路继续介绍3D特征的基本概念问题。 ? RIFT (Rotation-Invariant Feature Transform) RIFT是一种局部特征描述法,且该方法扩展于SIFT。 NARF (Normal Aligned Radial Feature) 这是一个局部特征点,NARF功能扩展了SIFT(Lowe)的一些概念。 有关特征计算的更多详细信息,请参阅原始文件:https://www.willowgarage.com/sites/default/files/icra2011_3dfeatures.pdf ? (3)迭代所有光束并找到图像块的主要方向。 RSD (Radius-based Surface Descriptor) 是一种局部特征点 输入格式: (1)由一组带有方向信息点P组成的点云。 (4)得到的直方图和半径组可以与其他点云的组合进行比较,以便找到对应关系 ESF (Ensemble of Shape Functions)(拓展一个特征点) 是一种局部特征点,参考文章 ▪ A3

    1.8K50发布于 2019-07-30
  • 来自专栏学习

    【LeetCode100】--- 3.最长连续序列【复习回顾】

    19300编辑于 2025-07-18
  • 来自专栏Michael阿明学习之路

    Feature Engineering 特征工程 3. Feature Generation

    从原始数据创建新特征是改进模型的最佳方法之一 例如,数据有很长连续时间的,我们可以把最近一周的提取出来作为一个新的特征 1. 组合特征 最简单方法之一是组合特征 例如,如果一条记录的国家/地区为"CA",类别为"Music",则可以创建一个新值" CA_Music" 可以从所有分类特征中构建组合特征,也可以使用三个或更多特征进行交互 python一样直接相加 interactions.head(10) 0 Poetry_GB 1 Narrative Film_US 2 Narrative Film_US 3 ) count_7_days.head(10) 0 1487.0 1 2020.0 2 279.0 3 984.0 4 752.0 5 522.0 6 3.

    80140发布于 2020-07-13
  • 来自专栏自然语言处理

    贷款违约预测-Task3 特征工程

    Task3 特征工程 此部分为零基础入门金融风控的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流。 时间格式处理 对象类型特征转换到数值 异常值处理 基于3segama原则 基于箱型图 数据分箱 固定宽度分箱 分位数分箱 离散数值型数据分箱 连续数值型数据分箱 卡方分箱(选做作业) 特征交互 特征特征之间组合 特征特征之间衍生 其他特征衍生的尝试(选做作业) 特征编码 one-hot编码 label-encode编码 特征选择 1 Filter 2 Wrapper (RFE) 3 Embedded 数据分桶的对象: 将连续变量离散化 将多状态的离散变量合并成少状态 分箱的原因: 数据的特征内的值跨度可能比较大,对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度 特别要注意一下分箱的基本原则: (1)最小分箱占比不低于5% (2)箱内不能全部是好客户 (3连续箱单调 固定宽度分箱 当数值横跨多个数量级时,最好按照 10 的幂(或任何常数的幂)来进行分组:09

    1.6K20发布于 2020-09-22
  • 来自专栏深度学习和计算机视觉

    【扩散模型的应用】用于红外小目标检测的基于Diffusion的连续特征表示

    2)为了减轻微弱目标的影响并获取细粒度细节,引入了MIFA模块以在连续域中对齐多层特征图。3)为了增强红外目标与复杂背景之间的对比度,设计了SFFI模块以通过空间频率双域交互整合全局-局部混合接受域。 卷积编码后,得到多个分辨率特征{g1, g2, ..., gN},以指导网络在建模潜在表示时: 其中,i ∈ {2, 3, ..., N}表示IDN的深度,f_d i和f_u i分别表示U-Net的解码器和编码器的特征图 如图3所示,我们首先将连续特征图M沿特征通道维度分割成全局部分Mg和局部部分Ml。 此外,Bg→l和Bl→l都通过操作O(·)捕获局部特征,该操作由3×3卷积和leaky ReLU激活组成。上述程序也可以表示如下: 其中,ST表示频谱变换,NL是非局部注意力机制。 如图3所示,非局部注意力机制采用残差变换学习和上下文机制,通过从不同位置的特征聚合,在各个查询位置生成空间图。这些注意力系数在与输入特征相乘后,传递到一个变换模块以获得每个空间位置的残差特征

    95910编辑于 2024-12-06
  • 来自专栏SAMshare

    3连续变量分箱方法的代码分享

    1)基于CART算法的连续变量最优分箱 2)基于卡方检验的连续变量最优分箱 3)基于最优KS的连续变量最优分箱 今天这篇文章就来分享一下这3种方法的Python实现。 : 其中,target就是我们的Y列,另外两个分别是X列,也就是我们的特征。 ,实现步骤如下: 1,给定连续变量 V,对V中的值进行排序; 2,依次计算相邻元素间中位数作为二值划分点的基尼指数; 3,选择最优(划分后基尼指数下降最大)的划分点作为本次迭代的划分点; 4,递归迭代步骤 ,实现步骤如下: 1,给定连续变量 V,对V中的值进行排序,然后每个元素值单独一组,完成初始化阶段; 2,对相邻的组,两两计算卡方值; 3,合并卡方值最小的两组; 4,递归迭代步骤2-3,直到满足停止条件 ,实现步骤如下: 1,给定连续变量 V,对V中的值进行排序; 2,每一个元素值就是一个计算点,对应上图中的bin0~9; 3,计算出KS最大的那个元素,作为最优划分点,将变量划分成两部分D1和D2; 4

    1.8K30编辑于 2022-02-25
  • 来自专栏计算机视觉理论及其实现

    Lipschitz连续

    Lipschitz(利普希茨)连续定义: 有函数f(x),如果存在一个常量K,使得对f(x)定义域上(可为实数也可以为复数)的任意两个值满足如下条件:?? 那么称函数f(x)满足Lipschitz连续条件,并称K为f(x)的Lipschitz常数。 Lipschitz连续比一致连续要强。它限制了函数的局部变动幅度不能超过某常量。

    2.3K10编辑于 2022-09-03
  • 来自专栏点云PCL

    PCL点云特征描述与提取(3

    快速点特征直方图(FPFH)描述子 已知点云P中有n个点,那么它的点特征直方图(PFH)的理论计算复杂度是,其中k是点云P中每个点p计算特征向量时考虑的邻域数量。 2.PFH特征模型是对查询点周围的一个精确的邻域半径内,而FPFH还包括半径r范围以外的额外点对(不过在2r内); 3.因为重新权重计算的方式,所以FPFH结合SPFH值,重新捕获邻近重要点对的几何信息 也就是简单生成d分离特征直方图,对每个特征维度来单独绘制,并把它们连接在一起 估计FPFH特征 快速点特征直方图FPFH在点云库中的实现可作为pcl_features库的一部分。 计算每一对:math:`p, p_k`的三个角度参数值(其中:math:`p_k`是:math:`p`的邻元素) 3.把所有结果统计输出到一个SPFH直方图 第二步: 1.得到:math:`p`的最近邻元素 第二组特征分量就是前面PFH中讲述的三个角度,如PFH小节所述,只是现在测量的是在中心点的视点方向和每条表面法线之间的角度 因此新组合的特征被称为视点特征直方图(VFH)。

    2.2K30发布于 2019-07-31
  • 来自专栏AI 算法笔记

    特征工程之特征缩放&特征编码

    (上) 特征工程之数据预处理(下) 本篇文章会继续介绍特征工程的内容,这次会介绍特征缩放和特征编码,前者主要是归一化和正则化,用于消除量纲关系的影响,后者包括了序号编码、独热编码等,主要是处理类别型、文本型以及连续特征 3.3.5 离散化 定义:顾名思义,离散化就是将连续的数值属性转换为离散的数值属性。 那么什么时候需要采用特征离散化呢? 这背后就是需要采用“海量离散特征+简单模型”,还是“少量连续特征+复杂模型”的做法了。 对于线性模型,通常使用“海量离散特征+简单模型”。 特性 1.在工业界很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列 0/1 的离散特征。 其优势有: 离散化之后得到的稀疏向量,内积乘法运算速度更快,计算结果方便存储。 假设有连续特征j ,离散化为 N个 0/1 特征连续特征 k,离散化为 M 个 0/1 特征,则分别进行离散化之后引入了 N+M 个特征

    1.7K20发布于 2019-08-16
  • 来自专栏python3

    SOA概览3-SOA的基本特征

    SOA的基本特征 SOA的实施具有几个鲜明的基本特征。实施SOA的关键目标是实现企业IT资产的最大化重用。 3.粗粒度服务接口 粗粒度服务提供一项特定的业务功能,而细粒度服务代表了技术组件方法。 超越项目短期目标进行服务接口的开发和评估是迈向精确定义服务接口的重要一步,同时还需要为接口文档、服务实现文档及所有重要的非功能性特征设立标准。

    1.5K20发布于 2020-01-12
  • 来自专栏机器学习原理

    示例三(3)——人物画像特征提取

    前言:一个人的信用评级一般用人物画像来评判,如何从很多的人物特征中提取有用的特征呢? 下面以一个金融反欺诈模型为例子来对特征提取有一个简单的理解。 数据下载地址:Notes offered by Prospectus (https://www.lendingclub.com/info/prospectus.action) 一共有145行特征, /data/LoanStats3a.csv', skiprows = 1, low_memory = True)#skiprows跳过第一行,low_memory低内存加载,报错就该成False ''' out_prncp_inv has 1 col collections_12_mths_ex_med has 2 col policy_code has 1 col acc_now_delinq has 3 chargeoff_within_12_mths has 2 col delinq_amnt has 4 col pub_rec_bankruptcies has 4 col tax_liens has 3

    1.6K30发布于 2018-06-13
  • 来自专栏脑电信号科研科普

    PNAS:基于频率标记EEG分离视觉皮层数值和连续幅度提取的数值神经特征

    然而,一组对象不仅具有数量特征,而且还具有多个连续的视觉特征,包括单个对象的尺寸和集合的范围。 此外,一些作者认为,数值只是一种抽象的认知结构,是对视觉刺激中存在的所有连续尺度特征进行加权的结果,并且数值是通过根据特定情境的需要对低层感官信息进行自适应重组来提取的。 本研究中采用的频率标记法使研究人员能够克服数值和连续尺度之间的相关性问题,这意味着研究人员可以选择自然维度作为视觉特征的低水平变化的一个强有力的比较点。 因此,人类视觉似乎被提供了对数值的早期辨别机制,其操作方式与解码低级视觉特征所涉及的机制相同,这表明数值也可以被认为是主要的视觉特征。数值的拓扑不变性已被提出为区分数字与连续尺度的关键视觉属性。 开创性的ANS理论提出,与连续尺度相关的低级视觉特征必须在所谓的归一化阶段被消除,该归一化阶段是在以抽象的、非模态的方式提取数字之前。

    67300发布于 2020-11-20
领券