搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏小小挖掘机
特征工程｜连续特征的常见处理方式（含实例）
连续特征离散化可以使模型更加稳健，比如当我们预测用户是否点击某个商品时，一个点击该商品所属类别下次数为100次和一个点击次数为105次的用户可能具有相似的点击行为，有时候特征精度过高也可能是噪声，这也是为什么在连续特征经常是用户或者事物对应一些行为的统计值，常见的处理方法包括：归一化标准化离散化缺失值处理这里要特别注意一下归一化和标准化的区别，在平常的使用中，很多同学都容易把这两者的概念混淆，因为两者的英文翻译是一样的特征经过归一化或者标准化处理之后对于模型训练的好处有：提升模型精度。因为使不同量纲的特征处于同一数值量级，减少方差大的特征的影响。在KNN中，我们需要计算待分类点与所有实例点的距离。这样的好处就是在进行特征提取时，忽略掉不同特征之间的一个度量，而保留样本在各个维度上的信息（分布）。 ? 离散化数据离散化（也叫数据分组）是指将连续的数据进行分组，使其变为一段段离散化的区间，离散化后的特征根据其所在的组进行One-Hot编码。
1.7K40发布于 2020-08-21
来自专栏大数据进阶
scala(2):Trait(特征)
obj.asInstanceOf[Point].x == x } object Test { def main(args: Array[String]) { val p1 = new Point(2, 3) val p2 = new Point(2, 4) val p3 = new Point(3, 3) println(p1.isNotEqual(p2)) println(p1.isNotEqual (p3)) println(p1.isNotEqual(2)) }} 执行以上代码，输出结果为： $ scalac Test.scala $ scala Testfalsetruetrue 特征构造顺序特征也可以有构造器，由字段的初始化和其他特征体中的语句构成。构造器的执行顺序：调用超类的构造器；特征构造器在超类构造器之后、类构造器之前执行；特征由左到右被构造；每个特征当中，父特征先被构造；如果多个特征共有一个父特征，父特征不会被重复构造所有特征被构造完毕
38830发布于 2019-09-17
来自专栏NewBeeNLP
KDD2021 | 华为AutoDis：连续特征的Embedding学习框架
而另一个主要的部分，即「Embedding模块」同样十分重要，出于以下两个原因： 1）Embedding模块是FI模块的「上游模块」，直接影响FI模块的效果； 2）CTR模型中的大多数参数集中在Embedding 1、连续特征处理 CTR预估模型的输入通常包含连续特征和离散特征两部分。，通常难以有效捕获连续特征中信息。这类方法通常是两阶段的，即首先将连续特征转换为对应的「离散值」，再通过「look-up」的方式转换为对应的embedding。首先探讨一个问题，为什么需要对连续特征进行离散化呢？来将连续特征分到不同的节点。
2.2K10发布于 2021-12-02
来自专栏小鹏的专栏
2维特征Feature2D—特征点的图像匹配
基于特征点的图像匹配是图像处理中经常会遇到的问题，手动选取特征点太麻烦了。比较经典常用的特征点自动提取的办法有Harris特征、SIFT特征、SURF特征。先介绍利用SURF特征的特征描述办法，其操作封装在类SurfFeatureDetector中，利用类内的detect函数可以检测出SURF特征的关键点，保存在vector容器中。 /SURF_descriptor <img1> <img2>" << std::endl; } 当然，进行强匹配的效果不够理想，这里再介绍一种FLANN特征匹配算法。前两步与上述代码相同，第三步利用FlannBasedMatcher类进行特征匹配，并只保留好的特征匹配点，代码如下： //-- Step 3: Matching descriptor vectors using 我们说的特征的最大特点就是它具有唯一可识别这一特点，图像特征的类型通常指边界、角点（兴趣点）、斑点（兴趣区域）。角点就是图像的一个局部特征，应用广泛。
76710编辑于 2022-05-09
来自专栏大阳岛
LegoLoam(2)特征提取
概述本节主要讲节LeogLoam中点云特征提取部分 2. 特征提取 2.1 点云预处理点云数据的坐标轴进行交换，变换后的坐标轴如下图: 图片点云数据计算偏航角yaw, yaw = -\arctan(point.x, point.z) (-atan2 cosImuRollStart * y5 + imuShiftFromStartYCur; p->z = z5 + imuShiftFromStartZCur; } 2.3 点云特征提取 0.02 * segInfo.segmentedCloudRange[i]) cloudNeighborPicked[i] = 1; } } 特征提取，每条扫描线的特征点，分成6段，每段找出2个曲率最大的非地面点特征作为cornerPointsSharp，和20个曲率大的非地面点作为cornerPointsLessSharp；选择4个曲率最小的地面特征点作为
1.4K20编辑于 2023-02-17
来自专栏灰灰的数学与机械世界
考研（大学）数学极限与连续（2）
极限与连续（2）基础求 \displaystyle \underset{x\rightarrow 0}{\lim}\frac{\ln \left( \sqrt{1-x^2}\cos x \right 2}+\underset{x\rightarrow 0}{\lim}\frac{1-\sqrt{1-x^2}}{x^2}\\&=-\frac{1}{2}-1+\frac{1}{2}=-1\end{align \sqrt{n^2-2^2}}+\cdot \cdot \cdot +\frac{1}{n+\sqrt{n^2-n^2}} \right) 解：记原式为 I \begin{align*}I&=\frac ) ^2}}+\frac{1}{\frac{2}{n}+\sqrt{1^2-\left( \frac{2}{n} \right) ^2}}+\cdot \cdot \cdot +\frac{1}{\frac cos ^2\frac{x}{2}}dx=}\frac{2\sqrt{2}}{\pi}\int_0^{\pi}{\cos \frac{x}{2}}d\frac{x}{2}\\&=\frac{2\sqrt
68730编辑于 2022-11-23
来自专栏用户11994342的专栏（2）
什么是连续特征离散化？分桶(Bucketing)有什么技巧？
什么是连续特征离散化？分桶(Bucketing)有什么技巧？本文收录于Github：AI-From-Zero项目——一个从零开始系统学习AI的知识库。如果觉得有帮助，欢迎⭐Star支持！这就是连续特征离散化的本质：把无限或庞大的连续数值空间，映射到有限的几个离散类别上。在机器学习的世界里，我们经常会遇到这样的问题：用户的年龄、收入、消费金额，这些都是连续的数字。增强鲁棒性：异常值和噪声的影响被削弱引入非线性：让线性模型也能学习复杂的分段规律便于特征交叉：离散化后的特征更容易组合出有价值的新特征二、什么是连续特征离散化简单来说，连续特征离散化就是把连续的数值转换成有限的几个类别 =-2])3.4分桶的核心技巧技巧一：关注特征与目标的关系分桶不是盲目切分，而是要观察特征和目标变量的关系。可以画散点图或计算不同区间的目标均值，找到趋势变化的"拐点"。：风控评分卡在信用评分系统中，用户的收入、负债比等连续特征会被离散化成5-10个桶，然后用WOE编码转换成风险分数。
9610编辑于 2026-04-10
来自专栏机器学习之禅
机器学习之特征筛选（2）
继上篇的介绍了特征筛选中的TF-IDF与信息增益后，本篇继续介绍卡方检验和互信息。卡方检验开方检验其实是数理统计中一种常用的检验两个变量独立性的方法，在特征选择方面，其主要计算特征项ti与类别Cj之间的关联程度，如果特征项对于某类的卡方值越高，则其与该类之间的相关性越大，从侧面可以反映出特征项对该类携带的信息越多，反之则越少。互信息值越大，特征项ti与Cj类的共现程度越大，继卡方检验中对各个变量的约定，ti与Cj类的互信息为：同样对于多分类的情况，我们需要统计出ti与各个Cj类的互信息值，将互信息值低于预定阈值的特征项予以剔除以上介绍的四种只是众多特征选择过程中用到的几个策略，其他的如皮尔逊系数、期望交叉熵等，但在进行特征选择之后，都会遇到特征空间的髙维数问题，即常说的”维数灾难“，因此需要在降维方面做更多的研究与实验，后期也会对降维进行分享
42620编辑于 2022-07-11
来自专栏数据技巧
Power Pivot智能日期运用——连续时间（2）
2. Datesbetween A. 语法 DATESBETWEEN(<Dates>,<Start_date>,<End_date>) 位置参数描述第1参数 Dates 需要计算的日期列第2参数 Start_Date 开始时间，日期表达式案例 DATESBETWEEN('日历'[Date],date(2018,2,1),date(2018,6,31)) 返回2018/2/1-2018/6/31日的时间列，但是因为6月份只有30天，所以会自动顺延一天，实际返回的是2018/2/1-2018/7/1的时间列。语法 PARALLELPERIOD ( <Dates>, <NumberOfIntervals>, <Interval>) 位置参数描述第1参数 Dates 需要计算的日期列第2参数 NumberOfIntervals
1.2K20发布于 2020-03-24
来自专栏编程
Python面向对象2：继承、多态特征
面向对象的第二个特征是继承。可以将多个类共有的方法提取到父类中，子类仅需继承父类；基本语法为class新类名（父类1，父类2,..）继承的性质特征：子类会继承父类的所有的属性和方法，子类也可以覆盖父类同名的变量和方法。调用方法执行顺序：（见案例）在调用方法时，先调用子类自己的方法，子类无，再去父类中查找。 F2 #2）self代表s2本身，因s2自己有F2，再执行S2的F2 obj2.F3() 执行结果：案例3：多继承，无共同的父类，执行顺序：从左（先往上）再往右。 ,c11,c_1,c21,c_2,找到，执行结果c_2.f2 obj.f4()#依次找寻c3,c11,c_1,c21,c_2,c0找到，执行结果，c0.f2 执行顺序：面向对象的第三个特征是多态：指参数的但python基本上不用管这个特征，因为python定义变量时，可以不指定类型。如下案例，可以传入不同的参数类型，比如字典、列表、数字、string等。
85360发布于 2018-01-29
来自专栏点云PCL
3D特征点概述（2）
紧接上文思路继续介绍3D特征的基本概念问题。 ? RIFT (Rotation-Invariant Feature Transform) RIFT是一种局部特征描述法，且该方法扩展于SIFT。有关特征计算的更多详细信息，请参阅原始论文：http：//hal.inria.fr/docs/00/54/85/30/PDF/lana_pami_final.pdf ? NARF (Normal Aligned Radial Feature) 这是一个局部特征点，NARF功能扩展了SIFT（Lowe）的一些概念。 RSD (Radius-based Surface Descriptor) 是一种局部特征点输入格式：（1）由一组带有方向信息点P组成的点云。带有方向意味着所有点都具有正常的n法线。（4）得到的直方图和半径组可以与其他点云的组合进行比较，以便找到对应关系 ESF (Ensemble of Shape Functions)（拓展一个特征点）是一种局部特征点，参考文章 ▪ A3
1.8K50发布于 2019-07-30
来自专栏狼组安全团队
C2上线操作修改特征
北美第一突破手本文字数：1270 阅读时长：10分支附件/链接：点击查看原文下载声明：请勿用作违法用途，否则后果自负本文属于WgpSec原创奖励计划，未经许可禁止转载前言今天一起来学习下C2修改特征 DNS与CDN上线更多学习内容可以前往公开知识库 wiki.wgpsec.org 一、基础设施搭建 C2翻译本：https://blog.ateam.qianxin.com/CobaltStrike4.0 用户手册_中文翻译.pdf 基础使用服务器配置 yum insatll java # java环境搭建 chmod 777 teamserver # teamserver加权修改特征 firewall-cmd RSA -alias 360.com -dname "CN=US, OU=360.com, O=Sofaware, L=Somewhere, ST=Cyberspace, C=CN" 默认证书信息，特征明显二、运行C2 运行C2: .
1.7K10发布于 2021-02-04
来自专栏书山有路勤为径
特征点法视觉里程计（2D-2D）
SLAM中，可以利用图像特征点作为SLAM中的路标特征点：图像当中具有代表性的部分可重复性可区别性高效本地特征点的信息：位置、大小、方向、评分——关键点特征点周围的图像信息——描述子（Descriptor ）例子：SIFT/SURF/ORB OpenCV features2d 模块 ORB特征关键点：Oriented FAST 描述：BRIEF FAST 连续N个点的灰度有明显差异 Oriented ：比较图1中每个特征和图2特征的距离(汉明距离) 加速：快速最近邻居（FLANN）特征匹配之后，得到特征点之间的对应关系如果只有两个单目图像，得到2D-2D的关系——对极几何如果匹配的是帧和地图，得到3D-2D的关系—— PnP 如果匹配的是RGB-D,得到3D-3D的关系——ICP 2D-2D对极几何 P在两个图像的投影为 ? 2D-2D对极几何小结 2D-2D情况下，只知道图像坐标之间的对应关系当特征点在平面上时，（例如俯视或者仰视），使用H恢复R,t 否则，使用E或F恢复R,t t没有尺度求得R,t后：利用三角化计算特征点的
1.3K20发布于 2019-06-15
来自专栏blog-技术博客
人工智能_2_特征处理.py
# 特征处理 # 特征预处理:通过统计方法将数据转换为算法需要的数据 # 数值型数据:标准缩放 # 规依法,标准化(常用,适用于当前大数据),缺失值处理(删除,填补中位数平均数,通常按照列填补缩放函数 """ # 当数据的n个特征同等重要的时候,要进行归一化, # 使得某一个特征对最终结果不会造成更大的影响(其实主要与算法有关,) # 容易受异常点影响,容易更改max,min的值 from )) data = mms.fit_transform(matrix) print(data) """ [[3. 2. 2. 2. # 主要方法:特征选择,主成分分析 # 特征选择的原因:冗余,噪音 # 方式: # 过滤式(主要过滤方差),例如方差为0的,或很小的就可以过滤 # 嵌入式(正则化,决策树 ,考虑要不要使用使用PCA,(图片可能有上万个特征) # 特征数量很少的时候,可以不使用 # PCA(n_components=) n_components # 小数:指定保留的信息量 0-1之间
42530发布于 2020-05-08
来自专栏又见苍岚
矩阵分解 -2- 特征值分解
线性代数中，特征分解（Eigendecomposition），又称谱分解（Spectral decomposition）是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法。也称 v 为特征值 λ 对应的特征向量。也即特征向量被施以线性变换 A 只会使向量伸长或缩短而其方向不被改变。 \ } 称多项式 p(λ) 为矩阵 A 的特征多项式。上式亦称为矩阵 A 的特征方程。特征多项式是关于未知数 λ 的 N 次多项式。由代数基本定理，特征方程有 N 个解。进行因式分解，而得到 {\displaystyle p\left(\lambda \right)=(\lambda -\lambda {1})^{n{1}}(\lambda -\lambda {2} )^{n{2}}\cdots (\lambda -\lambda {k})^{n{k}}=0!
2.4K20编辑于 2022-10-05
来自专栏Michael阿明学习之路
Feature Engineering 特征工程 2. Categorical Encodings
Count Encoding 计数编码计数编码，就是把该类型的value，替换为其出现的次数例如：一个特征中CN出现了100次，那么就将CN，替换成数值100 category_encoders.CountEncoder model on the baseline data train, valid, test = get_data_splits(data) bst = train_model(train, valid) 2. 目标编码：将会用该特征值的 label 的平均值替换分类特征值 For example, given the country value “CA”, you’d calculate the average 举例子：特征值 “CA”，你要计算所有 “CA” 行的 label（即outcome列）的均值，用该均值来替换 “CA” This is often blended with the target probability 这种编码方法会产生新的特征，不要把验证集和测试集拿进来fit，会产生数据泄露 Instead, you should learn the target encodings from the training
1.2K20发布于 2020-07-13
来自专栏深度学习和计算机视觉
【扩散模型的应用】用于红外小目标检测的基于Diffusion的连续特征表示
2）为了减轻微弱目标的影响并获取细粒度细节，引入了MIFA模块以在连续域中对齐多层特征图。3）为了增强红外目标与复杂背景之间的对比度，设计了SFFI模块以通过空间频率双域交互整合全局-局部混合接受域。 INR中的隐式神经函数定义了一个函数Dθ，它在离散特征图上操作以获得连续特征图。如图1所示，考虑到离散特征图mi，可以将特征向量解释为参考2-D坐标ci上均匀分布的潜在代码z∗ i的潜代码。通过N个条件引导卷积层产生多个分辨率特征{G1, G2, ..., GN}，并通过将红外图像x直接输入U-Net的下采样网络获得{F1, F2, ..., FN}。为了解决红外目标的微弱和脆弱特性并捕获细粒度细节，连接的特征{M1, M2, ..., MN}也将被送入MIFA，后者采用连续方法精确对齐并聚合来自不同层的特征。 2）空间频率特征交互：虽然连续的HR特征表示和隐式特征对齐减轻了小目标问题，但固有的弱点和对复杂背景干扰的敏感性仍然阻碍了ISDTD的实际性能。
95910编辑于 2024-12-06
来自专栏程序人生小记
2、推荐广告算法模型之特征交叉模型
FM系列（FM、FFM、AFM）FM原理将特征映射为K维向量，然后两两组合，旨在解决稀疏数据下的特征组合问题。 tf.float32, initializer=init, validate_shape=False) sum_square = tf.pow(tf.matmul(input, v), 2) square_sum = tf.matmul(tf.pow(input, 2), tf.pow(v, 2)) interaction_term = 0.5 * tf.reduce_sum （Field*K）,然后对特征进行两两组合，FFM认为一个特征和其他特征进行组合时，对不同特征应该对应个不同的向量。，当这个特征与其他特征做交叉时，都是用同样的向量去做计算。
1.1K50编辑于 2022-08-04
来自专栏计算机视觉理论及其实现
Lipschitz连续
Lipschitz（利普希茨）连续定义：有函数f(x)，如果存在一个常量K，使得对f(x)定义域上（可为实数也可以为复数）的任意两个值满足如下条件：?? 那么称函数f(x)满足Lipschitz连续条件，并称K为f(x)的Lipschitz常数。 Lipschitz连续比一致连续要强。它限制了函数的局部变动幅度不能超过某常量。
2.3K10编辑于 2022-09-03
来自专栏点云PCL
PCL点云特征描述与提取（2）
点特征直方图（PFH）描述子正如点特征表示法所示，表面法线和曲率估计是某个点周围的几何特征基本表示法。然而大部分场景中包含许多特征点，这些特征点有相同的或者非常相近的特征值，因此采用点特征表示法，其直接结果就减少了全局的特征信息。查询点的PFH计算的影响区域为了计算两点Pi和Pj及与它们对应的法线Ni和Nj之间的相对偏差，在其中的一个点上定义一个固定的局部坐标系，如图2所示。 ? ? 如图3所示，就是点云中不同点的点特征直方图表示法的一个例子，在某些情况下，第四个特征量d在通常由机器人捕获的2.5维数据集中的并不重要，因为临近点间的距离从视点开始是递增的，而并非不变的，在扫描中局部点密度影响特征时 ()有相同的大小，即每个点都有一个pfh特征向量 PFHEstimation类的实际计算程序内部只执行以下：对点云P中的每个点p 1.得到p点的最近邻元素 2.对于邻域内的每对点，计算其三个角度特征参数值
1.5K20发布于 2019-07-31

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

特征工程｜连续特征的常见处理方式（含实例）

scala(2):Trait(特征)

KDD2021 | 华为AutoDis：连续特征的Embedding学习框架

2维特征Feature2D—特征点的图像匹配

LegoLoam(2)特征提取

考研（大学）数学极限与连续（2）

什么是连续特征离散化？分桶(Bucketing)有什么技巧？

机器学习之特征筛选（2）

Power Pivot智能日期运用——连续时间（2）

Python面向对象2：继承、多态特征

3D特征点概述（2）

C2上线操作修改特征

特征点法视觉里程计（2D-2D）

人工智能_2_特征处理.py

矩阵分解 -2- 特征值分解

Feature Engineering 特征工程 2. Categorical Encodings

【扩散模型的应用】用于红外小目标检测的基于Diffusion的连续特征表示

2、推荐广告算法模型之特征交叉模型

Lipschitz连续

PCL点云特征描述与提取（2）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

特征工程｜连续特征的常见处理方式（含实例）

scala(2):Trait(特征)

KDD2021 | 华为AutoDis：连续特征的Embedding学习框架

2维特征Feature2D—特征点的图像匹配

LegoLoam(2)特征提取

考研（大学）数学 极限与连续（2）

什么是连续特征离散化？分桶(Bucketing)有什么技巧？

机器学习之特征筛选（2）

Power Pivot智能日期运用——连续时间（2）

Python面向对象2：继承、多态特征

3D特征点概述（2）

C2上线操作 修改特征

特征点法视觉里程计（2D-2D）

人工智能_2_特征处理.py

矩阵分解 -2- 特征值分解

Feature Engineering 特征工程 2. Categorical Encodings

【扩散模型的应用】用于红外小目标检测的基于Diffusion的连续特征表示

2、推荐广告算法模型之特征交叉模型

Lipschitz连续

PCL点云特征描述与提取（2）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

考研（大学）数学极限与连续（2）

C2上线操作修改特征