大数据预处理v1.2 - 判断题 - 2_在线真题试卷与模拟练习_大数据预处理v1.2 - 判断题 - 2_考试宝

更新时间：试题数量：购买人数：提供作者：

有效期：个月

章节介绍：共有个章节

收藏

我的练习

我的错题
(0道)

我的收藏
(0道)

我的斩题
(0道)

我的笔记
(0道)

专项练习

顺序练习 0 / 0

随机练习 自定义设置练习量

题型乱序 按导入顺序练习

模拟考试 仿真模拟

题型练习 按题型分类练习

易错题 精选高频易错题

学习资料 考试学习相关信息

搜索

题库预览

多分类定性变量可以转变为one-hot码。（）？多分类定性变量-- 定义：指具有两个以上类别且类别间无顺序关系的变量，如颜色（红、绿、蓝）、职业（教师、医生、工程师）等。-- 特点：无法直接用于大多数机器学习算法，因为算法通常要求输入为数值型数据。-- 处理方法：需要通过编码转换为数值型，常用方法包括one-hot编码、标签编码等。-- 应用场景：在数据分析中广泛存在，如用户画像中的兴趣标签、商品分类等。 one-hot码-- 定义：一种将分类变量转换为二进制向量的编码方式，每个类别对应一个二进制位，只有该类别对应的位为1，其余为0。-- 原理：假设有n个类别，则转换后生成n个二进制特征，每个样本在对应类别特征上为1，其他为0。例如，颜色变量（红、绿、蓝）经one-hot编码后会生成3个特征，红色样本表示为[1,0,0]。-- 优点：避免了类别间的虚假顺序关系，适用于大多数机器学习算法；保留了所有类别信息，不丢失数据特征。-- 缺点：当类别数量较多时，会导致维度灾难，增加计算复杂度和存储开销；特征矩阵变得稀疏，可能影响模型训练效率。-- 应用场景：适用于类别数量较少的多分类定性变量，如逻辑回归、SVM、神经网络等算法的特征预处理；在自然语言处理中用于词向量表示（如独热编码）。

顺序型变量可以转变成得分变量（）？顺序型变量-- 定义：指类别间存在明确顺序关系的定性变量，如教育程度（小学、中学、大学）、满意度（低、中、高）等。-- 特点：类别间有等级差异，但差异大小不一定相等，无法直接进行数值运算；具有定序尺度特征，可比较大小但不能计算差值。-- 与其他变量的区别：不同于定类变量（无顺序）和定距变量（有等距单位）；也不同于定比变量（有绝对零点）。-- 统计分析方法：适用于中位数、四分位数等非参数统计方法，不适用于均值等参数统计。得分变量-- 定义：将顺序型变量的类别按顺序赋予具体数值的变量，如将“低、中、高”分别赋值为1、2、3，或将教育程度赋值为1-5分。-- 转换方法：根据业务需求或领域知识进行主观赋值（如李克特量表）；通过统计方法（如秩次转换）确定得分，即将类别按顺序排列后赋予秩次值。-- 应用场景：在需要将顺序信息转化为数值进行建模时使用，如回归分析、评分模型、综合评价体系等。-- 注意事项：得分赋值需合理反映类别间的顺序关系，避免引入虚假的数值差异；不同的赋值方法可能导致分析结果不同，需谨慎选择。-- 优缺点：优点是可以利用数值分析方法进行深入分析；缺点是可能夸大或缩小类别间的实际差异，影响分析结果的准确性。

哑变量可以有多个类别。（）？哑变量-- 定义：也称为虚拟变量，是一种将定性变量转换为数值型变量的编码方式，通常用于表示二分类变量（是/否、男/女等）。-- 编码规则：对于二分类变量，通常用1表示某一类别，0表示另一类别；对于多分类变量，需采用k-1个哑变量（k为类别数），以避免多重共线性问题。-- 作用：在回归模型中用于表示类别属性对因变量的影响，使定性变量能够参与数值计算。-- 应用场景：线性回归、逻辑回归等统计模型；方差分析（ANOVA）中表示分组效应。哑变量与多分类变量的关系-- 单个哑变量只能表示两种状态（0或1），无法直接表示多个类别。-- 多分类变量处理：当处理具有m个类别的多分类变量时，需要创建m-1个哑变量。例如，对于颜色（红、绿、蓝），可创建2个哑变量：红=1表示红色，绿=1表示绿色，两者均为0则表示蓝色。-- 参考类别：未被直接表示的类别称为参考类别，其效应通过其他哑变量的系数间接反映。哑变量的应用限制-- 不适用于多类别同时存在的情况，每个哑变量只能表示两种状态。-- 在回归模型中，过多的哑变量可能导致自由度降低，影响模型稳定性；当类别数较多时，会增加模型复杂度。-- 与one-hot码的区别：哑变量适用于二分类或有序多分类，而one-hot码适用于无序多分类，会创建k个变量（可能导致多重共线性）。

哑变量又可称为虚拟变量。（）？哑变量-- 定义：也称为虚拟变量，是一种将定性变量转换为数值型变量的编码方式，常用于统计建模和机器学习中。-- 命名由来：“哑”或“虚拟”表示其并非真实存在的变量，而是为了建模需要人工构造的变量，用于“翻译”定性信息为定量数据。-- 基本形式：通常取值为0或1，分别表示某个类别的不存在或存在；在某些情况下也可使用其他数值，但0-1编码最为常见。-- 核心作用：使定性变量能够参与数学模型的计算，揭示类别属性对因变量的影响。-- 数学表示：在回归模型中，哑变量的系数表示该类别与参考类别的差异效应。哑变量的应用场景-- 统计建模：线性回归、逻辑回归、时间序列分析等模型中处理分类自变量。-- 实验设计：在方差分析中表示不同实验处理组，分析组间差异。-- 机器学习：作为特征工程的一部分，将分类特征转换为模型可接受的数值特征。-- 经济分析：表示政策变化、季节效应等定性因素对经济指标的影响。哑变量与其他编码方式的区别-- 与one-hot编码：哑变量通常用于二分类或有序多分类，采用k-1编码方式避免多重共线性；one-hot编码用于无序多分类，采用k编码方式，可能引入多重共线性。-- 与标签编码：标签编码将类别映射为连续整数（如0,1,2...），可能引入虚假顺序关系；哑变量通过多个二进制变量避免了这一问题。-- 与独热编码的关系：在二分类情况下，哑变量编码与one-hot编码效果相同；在多分类情况下，哑变量是one-hot编码的一种特殊形式（去除一个参考类别）。

低频分类数据的处理方式通常是将频数过低的类别删除。（）？低频分类数据-- 定义：指在数据集中出现频数极低的类别，通常指出现次数占总样本比例低于某个阈值（如1%或5%）的类别。例如，在10000条样本中仅出现5次的类别。-- 形成原因：可能源于真实的罕见类别（如特殊疾病类型）、数据采集错误（如拼写错误导致的重复类别）、分类体系过细（如过于详细的职业分类）或样本量不足等。-- 识别方法：通过频数统计、频率分布表或条形图可视化来识别低频类别；常用阈值法（如频数1%）定义低频。-- 对模型的影响：可能导致模型对低频类别的预测不准确（数据稀疏）；增加特征维度（如one-hot编码后）；引入噪声，降低模型泛化能力。低频分类数据的常见处理方法-- 合并类别：将多个低频类别合并为一个“其他”或“罕见”类别，保留信息同时减少类别数量。例如，将各种低频职业合并为“其他职业”。-- 替换为高频类别：将低频类别替换为最相似的高频类别，适用于类别间有明确层级或相似性的情况。例如，将“小众品牌”替换为“其他品牌”。-- 特征工程：通过特征交叉（如与高频特征组合）或聚合（如按类别层级向上汇总）生成新特征，减少对低频类别的依赖。-- 重新分类：调整分类体系，将过细的类别合并为更宽泛的类别，从根本上减少低频类别的产生。-- 删除：仅在低频类别无实际意义、为错误数据或对分析目标无影响时使用，可能导致信息丢失，因此不是通常做法。处理策略选择依据-- 数据特点：类别频数、类别间关系、数据质量。-- 分析目标：模型预测准确性、特征可解释性、计算效率。-- 业务背景：低频类别的实际意义、是否为关键业务指标。

过多的低频类别会严重影响建模的效率。（）？低频类别的负面影响-- 维度灾难：每个低频类别在编码后（如one-hot）会生成一个新特征，过多低频类别导致特征空间急剧扩大。例如，100个低频类别会增加100个稀疏特征。-- 计算复杂度增加：高维特征空间需要更多的存储空间和计算资源；矩阵运算量随特征数量呈几何增长，延长模型训练和预测时间。-- 数据稀疏性：低频类别对应的数据样本少，导致特征矩阵稀疏，模型难以从中学习有效模式；稀疏矩阵运算效率低，进一步降低建模速度。-- 过拟合风险：模型可能过度学习低频类别的噪声特征，而无法捕捉普遍规律，导致在测试集上表现不佳。-- 特征重要性误导：低频类别的特征重要性可能被高估或低估，影响特征选择和模型解释。建模效率的具体影响-- 训练时间延长：处理高维稀疏数据需要更多迭代次数才能收敛；梯度计算涉及更多参数，增加每轮迭代时间。-- 调参难度增加：过多特征使模型超参数调优变得复杂，需要更多实验才能找到最优参数组合，增加调参时间。-- 模型选择困难：不同模型对高维稀疏数据的适应能力不同，需要尝试更多模型，增加建模流程复杂度。-- 资源消耗增加：高维数据需要更多内存存储，可能超出计算资源限制；分布式计算时通信成本增加。实证案例-- 电商用户分类：若商品类别中存在大量低频小类别，经one-hot编码后特征维度可能从数百增至数万，导致逻辑回归模型训练时间增加10倍以上。-- 文本分类：若保留所有低频词汇作为特征，词袋模型维度会爆炸，SVM等算法几乎无法训练，必须通过TF-IDF或词嵌入降维。

低频类别不会影响建模的效率。（）？低频类别对建模效率的具体影响-- 特征维度膨胀：低频类别经编码后会生成大量稀疏特征，增加特征空间维度。例如，包含1000个低频类别的变量经one-hot编码后会新增1000个特征。-- 计算资源消耗增加：高维特征需要更多内存存储数据和模型参数；矩阵运算复杂度提高，导致训练时间延长。-- 数据稀疏性问题：低频类别对应的数据样本少，特征矩阵稀疏，使得模型优化过程收敛速度减慢；稀疏数据的缓存利用率低，进一步降低计算效率。-- 模型复杂度上升：过多特征增加了模型的复杂度，可能需要更复杂的正则化策略，增加调参难度和时间。不同建模阶段的效率影响-- 数据预处理阶段：需要额外处理低频类别（如合并、编码），增加数据清洗时间；稀疏数据的存储和处理需要特殊数据结构（如稀疏矩阵），增加编程复杂度。-- 模型训练阶段：梯度下降等优化算法在高维稀疏数据上收敛速度慢；批量处理时内存占用大，可能需要减小批次大小，延长训练时间。-- 模型评估阶段：交叉验证等评估方法在高维数据上计算成本高；模型解释性分析（如特征重要性）因特征过多而变得困难。对比案例-- 有低频类别：某客户分群模型包含500个商品类别（其中300个为低频），经编码后特征数达1000+，随机森林模型训练需2小时。-- 无低频类别：合并低频类别后，商品类别减少至200个，特征数降至600+，相同模型训练仅需30分钟，效率提升75%。

低频分类数据的形成完全是来源于真实的分类结果。（）？低频分类数据的形成原因-- 真实的罕见类别：数据中确实存在发生概率低的类别，如罕见疾病、特殊事件等，这是低频数据的合理来源。-- 数据采集错误：录入错误（如拼写错误、格式不一致）导致的虚假类别，如“苹果”误写为“苹里”、“aplle”等。-- 分类体系过细：分类标准过于详细，将本可合并的类别拆分为多个小类，导致部分子类频数过低。-- 样本量不足：总体中该类别比例不低，但由于样本量小导致抽样后频数低，如小样本调查中的小众群体。-- 数据整合问题：多源数据合并时，不同数据源的分类标准不一致，导致类别膨胀和低频类别产生。不同来源的特征与识别-- 真实罕见类别：类别含义明确，与其他类别有显著区分；在业务中有实际意义，如“VIP客户”。-- 数据错误类别：类别名称存在明显拼写错误或格式问题；在数据集中孤立存在，无其他相关样本。-- 分类过细类别：类别间差异小，可合并为更高层级类别；如将“红色”、“浅红”、“深红”细分为多个类别。-- 识别方法：结合业务知识判断类别合理性；检查类别名称的规范性；分析类别间的语义相似度。案例说明-- 电商商品数据：类别“手机-智能手机-品牌X-型号Y”由于型号过细导致低频，属于分类过细；而“手机-复古大哥大”则可能是真实的罕见类别。-- 客户地址数据：“北京市海淀区”是正常类别，而“北京市海锭区”（错别字）则是数据错误导致的低频类别。

低频分类数据的形成完全是来源于数据采集是的不规范格式。（）？低频分类数据的主要形成原因-- 数据采集不规范：录入错误（如错别字、大小写不一致）、格式混乱（如日期格式混用）、单位不统一等导致的虚假低频类别。-- 真实罕见现象：数据中客观存在的低概率事件或类别，如自然灾害类型中的“陨石撞击”、疾病中的“罕见遗传病”。-- 分类体系设计问题：分类标准过于细致或层级过多，导致部分子类别频数自然偏低；分类标准不明确，导致类别划分混乱。-- 样本代表性问题：抽样偏差导致某些本应高频的类别在样本中低频；样本量不足，无法充分反映总体分布。-- 数据整合与迁移：不同系统间数据格式转换不当；历史数据与新数据的分类标准不兼容。数据采集不规范的具体表现-- 拼写错误：如“男性”误写为“男姓”、“nanxing”等。-- 格式不一致：如日期“2023-10-01”与“10/01/2023”并存；地址“北京市”与“北京”混用。-- 冗余信息：如“客户反馈-非常满意”与“非常满意”同时存在。-- 缺失值处理不当：将缺失值编码为“N/A”、“未知”、“缺失”等多个不同类别。非采集原因的案例-- 真实罕见类别：某医院患者数据中，“罕见病”类别占比0.5%，属于真实低频。-- 分类过细：商品分类中“服装-上衣-T恤-短袖-纯棉-白色-S码”层级过多导致低频。-- 样本量不足：某新产品用户调查仅收集100份样本，导致“50岁以上用户”类别频数低。

低频分类数据都是由于数据采集时的错误导致的。（）？低频分类数据的非错误来源-- 真实罕见类别：客观存在的低概率事件或群体，如“百岁以上老人”、“诺贝尔奖获得者”等。-- 分类体系过细：将大类拆分为过多子类，导致部分子类自然低频，如将“交通工具”细分为“电动自行车-品牌A-型号X”。-- 业务特殊性：某些行业或领域天然存在大量低频类别，如电商平台的长尾商品、学术论文的关键词。-- 时间因素：随时间变化出现的新兴类别，初期样本量少，如“元宇宙”相关概念在早期数据中低频。-- 空间因素：特定地域特有的类别，在全国性数据中低频，如地方方言、特色产品。数据采集错误导致的低频类别特征-- 类别名称异常：存在明显拼写错误、乱码或无意义字符，如“苹果手机”误写为“苹果手几”。-- 格式不一致：同一类别有多种表示形式，如“中国”、“CN”、“china”并存。-- 逻辑矛盾：类别与其他特征存在明显矛盾，如“年龄=10岁”且“职业=退休人员”。-- 孤立存在：该类别仅有极少数样本，且无任何业务意义。区分错误与非错误低频类别的方法-- 业务知识验证：咨询领域专家判断类别是否合理存在。-- 数据一致性检查：分析类别与其他变量的逻辑关系是否合理。-- 来源追踪：检查数据录入流程，确认是否存在采集规范问题。-- 频率趋势分析：观察低频类别在不同时间段的分布，判断是否为新兴或临时性类别。

所有的数据错误都可以被发现并纠正。（）？难以发现或纠正的数据错误类型-- 逻辑错误：数据本身格式正确，但存在内在逻辑矛盾，如“年龄=20岁且工作年限=30年”，此类错误需复杂逻辑校验才能发现。-- 样本偏差：数据在采集阶段因抽样方法不当导致的系统性偏差，如仅调查某一群体导致的代表性不足，难以通过数据本身发现。-- 隐性缺失值：数据看似完整但实际信息缺失，如“收入=0”可能是真实值也可能是缺失值，缺乏明确判断依据。-- 标注错误：分类数据的标签错误，如将“垃圾邮件”误标为“正常邮件”，需人工复核才能发现，大规模数据中难以完全纠正。-- 测量误差：传感器精度限制或人为测量偏差导致的数据不准确，如体重秤读数误差，无法通过数据处理完全消除。数据错误发现与纠正的限制因素-- 缺乏真值：很多情况下无法获取数据的真实值作为参考，如用户自评的“满意度”无法验证准确性。-- 成本过高：全面的数据审核和纠正需要大量人力物力，在大规模数据中难以实现。-- 技术局限：现有算法对某些类型错误的识别能力有限，如自然语言处理中的语义错误。-- 时间限制：实时数据处理场景下，无法进行充分的错误检测和纠正。实例说明-- 医疗数据：患者自述的“疼痛程度”为主观数据，即使存在偏差也无法客观纠正。-- 历史数据：早期采集的纸质数据数字化后，部分模糊字迹无法准确识别，成为永久性错误。-- 传感器数据：温度传感器在极端环境下的漂移误差，难以完全校准。

不是所有的数据错误都可以被发现并纠正的。（）？无法完全发现和纠正的数据错误类型-- 隐性逻辑错误：数据格式正确但存在内在矛盾，如“出生日期=2020年”且“年龄=30岁”，需复杂规则校验才能发现，易被遗漏。-- 标注偏差：分类任务中人工标注的主观误差，如情感分析中将“中性”文本误标为“积极”，缺乏客观标准难以完全纠正。-- 数据漂移：随时间推移数据分布发生变化，如用户行为模式改变导致历史数据“过时”，此类“错误”难以界定和纠正。-- 样本代表性不足：抽样过程导致的数据偏差，如调查样本中某群体比例过高，需重新抽样才能解决，无法通过数据纠正。-- 测量极限：受仪器精度限制的物理测量误差，如GPS定位的米级误差，无法完全消除。数据错误处理的现实挑战-- 成本效益权衡：全面错误检测和纠正的成本可能超过错误带来的损失，实际中常采用“可接受错误率”标准。-- 真值获取困难：多数情况下无法获取绝对真值，如用户的真实收入、商品的实际质量。-- 算法局限性：自动纠错算法对复杂错误的识别率有限，如自然语言中的语义矛盾。-- 业务复杂性：跨领域数据的错误判断需要多专业知识，难以由单一系统完成。实际案例-- 客户画像数据：用户填写的“兴趣爱好”可能包含虚假信息，无法验证真实性。-- 历史气象数据：早期手动记录的气温数据可能存在笔误，因缺乏原始记录无法纠正。-- 社交媒体数据：文本中的讽刺、反话等修辞手法导致情感分析错误，算法难以完全识别。

逻辑纠错中比较简单的方式是将不合理的值替换为缺失值，这样既保持了变量的性质不变，又避免了错误数据的危害。（）？逻辑纠错中的缺失值替换方法-- 定义：当检测到数据中存在明显不合理的值（如年龄=200岁、收入=-1000元）时，将其替换为缺失值标记（如NaN、None）的处理方式。-- 操作步骤：1. 设定合理值范围（如年龄1-120岁）；2. 识别超出范围的异常值；3. 用缺失值替换异常值。-- 适用场景：无法确定错误值的真实值时；错误值比例较低时；变量为连续型或有序型时。-- 实现方式：在Python中可通过pandas的mask()或where()函数实现，如df['age'] = df['age'].mask(df['age'] > 120, np.nan)。该方法的优势-- 保持变量性质不变：仅移除错误数据，不引入新的虚假值，变量的分布特征（如均值、方差）相对真实。-- 操作简单高效：无需复杂的插值或建模，适合快速数据清洗；计算成本低，适用于大规模数据。-- 避免错误传播：防止不合理值参与后续分析（如建模、统计），减少对结果的误导。-- 与后续处理兼容：缺失值可通过统一的缺失值处理方法（如删除、插值）进一步处理，保持数据处理流程一致性。注意事项与局限性-- 缺失值比例控制：若错误值比例过高（如超过20%），大量缺失值可能影响分析结果，需考虑其他方法。-- 缺失值标记一致性：确保替换后的缺失值标记在整个数据集中统一，避免混淆。-- 后续处理：替换为缺失值后需明确后续处理策略，避免缺失值直接参与分析。-- 适用类型：不适用于类别型变量中错误的类别值（如“性别=未知”），此类情况更适合替换为众数或特定类别。

数据错误是指数据集中的数据与其真值不一致的情况。（）？数据错误的定义与内涵-- 核心定义：数据集中的某个或某些值与其对应的真实值（客观事实）不一致的现象，是数据质量问题的主要表现形式之一。-- 构成要素：1. 存在客观真值；2. 数据记录值与真值不符；3. 差异并非随机波动（需区分错误与误差）。-- 与数据误差的区别：误差是测量值与真值的偏差，通常不可避免（如仪器精度限制）；错误是可避免的人为或系统失误导致的不一致。-- 与数据缺失的区别：缺失是信息不存在，错误是信息存在但不正确。数据错误的主要类型-- 数值错误：数值超出合理范围（如年龄=150岁）、计算错误（如总和不等于各分项之和）。-- 逻辑错误：数据间存在矛盾（如“已婚”且“配偶姓名为空”）、违反业务规则（如“订单金额=0但包含商品”）。-- 格式错误：数据格式不符合规范（如日期写成“2023/13/32”）、单位不一致（如部分身高用厘米部分用米）。-- 标签错误：分类数据的类别标记错误（如将“ spam”邮件标记为“ham”）、编码错误（如性别“男”编码为“2”而非“1”）。-- 重复错误：同一记录被多次录入，导致数据冗余和统计偏差。数据错误的影响-- 分析结果失真：错误数据导致统计指标（如均值、中位数）不准确，影响决策。-- 模型性能下降：机器学习模型学习错误模式，导致预测准确性降低。-- 资源浪费：错误数据可能导致错误决策，造成经济损失或效率低下。-- 信任危机：长期数据错误会降低数据使用者对数据系统的信任度。

Min-Max缩放可以将数据缩放至任意给定的范围内。（）？ Min-Max缩放的原理与公式-- 基本原理：通过线性变换将原始数据映射到指定的目标区间，保持数据的分布形状不变。-- 通用公式：X_scale 任意范围缩放的实现-- 目标区间设定：用户可根据需求指定任意区间，如[-1,1]、[1,10]、[5,15]等。-- 实例演示：将数据缩放到[1,5]区间--- 原始数据：X = [10, 20, 30, 40, 50]，X_min=10，X_max=50--- 计算：X_scale 应用场景与优势-- 模型要求：某些算法（如神经网络输入层、SVM）对特征范围敏感，需将数据缩放到特定区间。-- 可视化需求：将不同量纲的数据缩放到同一区间，便于图表比较（如雷达图、热力图）。-- 特征融合：多源数据融合时，统一量纲可避免数值大的特征主导分析结果。-- 保持分布：线性变换不改变数据的分布形状，保留原始数据的相对关系。

Min-Max缩放只能将数据缩放至[0,1]的范围内。（）？ Min-Max缩放的灵活区间设置-- 通用公式回顾：X_scale 不同区间的实现案例-- 案例1：缩放到[-1,1]区间--- 原始数据：[2, 4, 6, 8, 10]，X_min=2，X_max=10--- 公式应用：X_scale 常见误解原因与澄清-- 误解来源：多数教材和教程以[0,1]区间为例讲解，导致误认为是唯一选项。-- 技术限制澄清：Min-Max缩放本身无区间限制，仅需保证分母(X_max - X_min)不为零。-- 实现验证：主流数据科学库（如scikit-learn的MinMaxScaler）均支持feature_range参数自定义区间，如scaler = MinMaxScaler(feature_range=(-1, 1))。

经过Min-Max缩放，数据的正负可能会发生改变。（）？ Min-Max缩放改变数据正负的条件-- 目标区间包含负数：当new_min 0时，即使原始数据全为正数，缩放后也可能出现负数。-- 公式推导：X_scale 实例演示-- 案例1：原始数据非负，缩放到[-1,1]--- 原始数据：[0, 2, 4, 6, 8]，X_min=0，X_max=8--- 公式应用：X_scale 应用场景与注意事项-- 模型敏感场景：某些算法（如ReLU激活函数）对输入负数敏感，需注意缩放区间设置。-- 数据解释：缩放后数据的正负可能失去原始业务含义，需在分析报告中说明。-- 参数设置：使用工具库时需明确指定feature_rang

经过Min-Max缩放，数据的正负不会发生改变。（）？ Min-Max缩放改变数据正负的具体情形-- 情形1：原始数据非负 → 缩放后有负数--- 条件：目标区间下限new_min 0--- 示例：原始数据[1,2,3]缩放到[-1,1]，结果为[-1, 0, 1]-- 情形2：原始数据有负有正 → 缩放后全为正--- 条件：目标区间[new_min, new_max]均为正数--- 示例：原始数据[-2,-1,0,1,2]缩放到[0,1]，结果为[0, 0.25, 0.5, 0.75, 1]-- 情形3：原始数据全负 → 缩放后有正数--- 条件：目标区间上限new_max > 0--- 示例：原始数据[-5,-3,-1]缩放到[-2,2]，结果为[-2, 0, 2] 数学原理分析-- 缩放公式：X_scale 常见误解与澄清-- 误解：Min-Max缩放仅做线性变换，不会改变数据分布趋势。-- 澄清：分布趋势（单调性）不变，但数值的正负属性可能改变，这是线性变换的必然结果。-- 工具验证：使用scikit-learn的MinMaxScaler设置feature_range=(-1,1)，对非负数据进行缩放，可观察到负数结果。

Max-ABS缩放只可以将变量缩放至区间[0,1]。（）？ Max-ABS缩放的原理与范围-- 定义：一种将数据缩放至以原点为中心，绝对值不超过1的缩放方法，公式为X_scaled = X / max_abs(X)，其中max_abs(X)是原始数据绝对值的最大值。-- 取值范围：当原始数据包含正负值时，缩放后范围为[-1,1]；仅含非负值时为[0,1]；仅含非正值时为[-1,0]。-- 与Min-Max缩放的区别：Max-ABS缩放基于绝对值最大值，而非数据范围（max-min）；不移动数据均值，仅改变尺度。-- 核心特点：保持数据的正负号不变；缩放比例由数据中绝对值最大的元素决定。不同数据分布的缩放结果-- 案例1：数据包含正负值 → 缩放至[-1,1]--- 原始数据：[-5, -3, 0, 2, 5]，max_abs=5--- 结果：[-1, -0.6, 0, 0.4, 1] → 范围[-1,1]-- 案例2：数据仅含非负值 → 缩放至[0,1]--- 原始数据：[2, 4, 6, 8, 10]，max_abs=10--- 结果：[0.2, 0.4, 0.6, 0.8, 1] → 范围[0,1]-- 案例3：数据仅含非正值 → 缩放至[-1,0]--- 原始数据：[-10, -8, -6, -4, -2]，max_abs=10--- 结果：[-1, -0.8, -0.6, -0.4, -0.2] → 范围[-1,0] 应用场景与优势-- 稀疏数据处理：不改变数据的稀疏性（零值仍为零），适用于稀疏矩阵（如文本TF-IDF特征）。-- 保留符号信息：适用于需要保留数据正负含义的场景，如收益率（正表示盈利，负表示亏损）。-- 与其他缩放方法比较：计算简单（仅需除法）；对异常值敏感（同Min-Max缩放）；无需中心化处理。

经过Max-ABS缩放后，数据的正负可能会发生改变。（）？ Max-ABS缩放的符号不变性原理-- 数学公式：X_scale 实例验证-- 案例1：混合正负数据--- 原始数据：[-4, -2, 0, 3, 5]，max_abs=5--- 缩放结果：[-0.8, -0.4, 0, 0.6, 1] → 正负符号与原始数据完全相同-- 案例2：全正数据--- 原始数据：[1, 3, 5, 7]，max_abs=7--- 缩放结果：[0.14, 0.43, 0.71, 1] → 均为正数-- 案例3：全负数据--- 原始数据：[-8, -6, -4]，max_abs=8--- 缩放结果：[-1, -0.75, -0.5] → 均为负数与其他缩放方法的对比-- Min-Max缩放：可能改变正负（如缩放到[-1,1]区间时）-- 标准化（Z-scor 应用意义-- 保留业务含义：如财务数据中的盈利/亏损符号、温度的正负（零上/零下）需保持不变。-- 算法兼容性：某些模型（如稀疏矩阵分解）要求零值位置不变，Max-ABS缩放满足此需求。-- 结果解释：缩放后数据的正负可直接对应原始数据的正负含义，便于结果解释。

1 2