更新时间: 试题数量: 购买人数: 提供作者:

有效期: 个月

章节介绍: 共有个章节

收藏
搜索
题库预览
顺序型变量可以转变成得分变量()? 顺序型变量-- 定义:指类别间存在明确顺序关系的定性变量,如教育程度(小学、中学、大学)、满意度(低、中、高)等。-- 特点:类别间有等级差异,但差异大小不一定相等,无法直接进行数值运算;具有定序尺度特征,可比较大小但不能计算差值。-- 与其他变量的区别:不同于定类变量(无顺序)和定距变量(有等距单位);也不同于定比变量(有绝对零点)。-- 统计分析方法:适用于中位数、四分位数等非参数统计方法,不适用于均值等参数统计。 得分变量-- 定义:将顺序型变量的类别按顺序赋予具体数值的变量,如将“低、中、高”分别赋值为1、2、3,或将教育程度赋值为1-5分。-- 转换方法:根据业务需求或领域知识进行主观赋值(如李克特量表);通过统计方法(如秩次转换)确定得分,即将类别按顺序排列后赋予秩次值。-- 应用场景:在需要将顺序信息转化为数值进行建模时使用,如回归分析、评分模型、综合评价体系等。-- 注意事项:得分赋值需合理反映类别间的顺序关系,避免引入虚假的数值差异;不同的赋值方法可能导致分析结果不同,需谨慎选择。-- 优缺点:优点是可以利用数值分析方法进行深入分析;缺点是可能夸大或缩小类别间的实际差异,影响分析结果的准确性。
哑变量可以有多个类别。()? 哑变量-- 定义:也称为虚拟变量,是一种将定性变量转换为数值型变量的编码方式,通常用于表示二分类变量(是/否、男/女等)。-- 编码规则:对于二分类变量,通常用1表示某一类别,0表示另一类别;对于多分类变量,需采用k-1个哑变量(k为类别数),以避免多重共线性问题。-- 作用:在回归模型中用于表示类别属性对因变量的影响,使定性变量能够参与数值计算。-- 应用场景:线性回归、逻辑回归等统计模型;方差分析(ANOVA)中表示分组效应。 哑变量与多分类变量的关系-- 单个哑变量只能表示两种状态(0或1),无法直接表示多个类别。-- 多分类变量处理:当处理具有m个类别的多分类变量时,需要创建m-1个哑变量。例如,对于颜色(红、绿、蓝),可创建2个哑变量:红=1表示红色,绿=1表示绿色,两者均为0则表示蓝色。-- 参考类别:未被直接表示的类别称为参考类别,其效应通过其他哑变量的系数间接反映。 哑变量的应用限制-- 不适用于多类别同时存在的情况,每个哑变量只能表示两种状态。-- 在回归模型中,过多的哑变量可能导致自由度降低,影响模型稳定性;当类别数较多时,会增加模型复杂度。-- 与one-hot码的区别:哑变量适用于二分类或有序多分类,而one-hot码适用于无序多分类,会创建k个变量(可能导致多重共线性)。
哑变量又可称为虚拟变量。()? 哑变量-- 定义:也称为虚拟变量,是一种将定性变量转换为数值型变量的编码方式,常用于统计建模和机器学习中。-- 命名由来:“哑”或“虚拟”表示其并非真实存在的变量,而是为了建模需要人工构造的变量,用于“翻译”定性信息为定量数据。-- 基本形式:通常取值为0或1,分别表示某个类别的不存在或存在;在某些情况下也可使用其他数值,但0-1编码最为常见。-- 核心作用:使定性变量能够参与数学模型的计算,揭示类别属性对因变量的影响。-- 数学表示:在回归模型中,哑变量的系数表示该类别与参考类别的差异效应。 哑变量的应用场景-- 统计建模:线性回归、逻辑回归、时间序列分析等模型中处理分类自变量。-- 实验设计:在方差分析中表示不同实验处理组,分析组间差异。-- 机器学习:作为特征工程的一部分,将分类特征转换为模型可接受的数值特征。-- 经济分析:表示政策变化、季节效应等定性因素对经济指标的影响。 哑变量与其他编码方式的区别-- 与one-hot编码:哑变量通常用于二分类或有序多分类,采用k-1编码方式避免多重共线性;one-hot编码用于无序多分类,采用k编码方式,可能引入多重共线性。-- 与标签编码:标签编码将类别映射为连续整数(如0,1,2...),可能引入虚假顺序关系;哑变量通过多个二进制变量避免了这一问题。-- 与独热编码的关系:在二分类情况下,哑变量编码与one-hot编码效果相同;在多分类情况下,哑变量是one-hot编码的一种特殊形式(去除一个参考类别)。
低频分类数据的处理方式通常是将频数过低的类别删除。()? 低频分类数据-- 定义:指在数据集中出现频数极低的类别,通常指出现次数占总样本比例低于某个阈值(如1%或5%)的类别。例如,在10000条样本中仅出现5次的类别。-- 形成原因:可能源于真实的罕见类别(如特殊疾病类型)、数据采集错误(如拼写错误导致的重复类别)、分类体系过细(如过于详细的职业分类)或样本量不足等。-- 识别方法:通过频数统计、频率分布表或条形图可视化来识别低频类别;常用阈值法(如频数1%)定义低频。-- 对模型的影响:可能导致模型对低频类别的预测不准确(数据稀疏);增加特征维度(如one-hot编码后);引入噪声,降低模型泛化能力。 低频分类数据的常见处理方法-- 合并类别:将多个低频类别合并为一个“其他”或“罕见”类别,保留信息同时减少类别数量。例如,将各种低频职业合并为“其他职业”。-- 替换为高频类别:将低频类别替换为最相似的高频类别,适用于类别间有明确层级或相似性的情况。例如,将“小众品牌”替换为“其他品牌”。-- 特征工程:通过特征交叉(如与高频特征组合)或聚合(如按类别层级向上汇总)生成新特征,减少对低频类别的依赖。-- 重新分类:调整分类体系,将过细的类别合并为更宽泛的类别,从根本上减少低频类别的产生。-- 删除:仅在低频类别无实际意义、为错误数据或对分析目标无影响时使用,可能导致信息丢失,因此不是通常做法。 处理策略选择依据-- 数据特点:类别频数、类别间关系、数据质量。-- 分析目标:模型预测准确性、特征可解释性、计算效率。-- 业务背景:低频类别的实际意义、是否为关键业务指标。
过多的低频类别会严重影响建模的效率。()? 低频类别的负面影响-- 维度灾难:每个低频类别在编码后(如one-hot)会生成一个新特征,过多低频类别导致特征空间急剧扩大。例如,100个低频类别会增加100个稀疏特征。-- 计算复杂度增加:高维特征空间需要更多的存储空间和计算资源;矩阵运算量随特征数量呈几何增长,延长模型训练和预测时间。-- 数据稀疏性:低频类别对应的数据样本少,导致特征矩阵稀疏,模型难以从中学习有效模式;稀疏矩阵运算效率低,进一步降低建模速度。-- 过拟合风险:模型可能过度学习低频类别的噪声特征,而无法捕捉普遍规律,导致在测试集上表现不佳。-- 特征重要性误导:低频类别的特征重要性可能被高估或低估,影响特征选择和模型解释。 建模效率的具体影响-- 训练时间延长:处理高维稀疏数据需要更多迭代次数才能收敛;梯度计算涉及更多参数,增加每轮迭代时间。-- 调参难度增加:过多特征使模型超参数调优变得复杂,需要更多实验才能找到最优参数组合,增加调参时间。-- 模型选择困难:不同模型对高维稀疏数据的适应能力不同,需要尝试更多模型,增加建模流程复杂度。-- 资源消耗增加:高维数据需要更多内存存储,可能超出计算资源限制;分布式计算时通信成本增加。 实证案例-- 电商用户分类:若商品类别中存在大量低频小类别,经one-hot编码后特征维度可能从数百增至数万,导致逻辑回归模型训练时间增加10倍以上。-- 文本分类:若保留所有低频词汇作为特征,词袋模型维度会爆炸,SVM等算法几乎无法训练,必须通过TF-IDF或词嵌入降维。
低频类别不会影响建模的效率。()? 低频类别对建模效率的具体影响-- 特征维度膨胀:低频类别经编码后会生成大量稀疏特征,增加特征空间维度。例如,包含1000个低频类别的变量经one-hot编码后会新增1000个特征。-- 计算资源消耗增加:高维特征需要更多内存存储数据和模型参数;矩阵运算复杂度提高,导致训练时间延长。-- 数据稀疏性问题:低频类别对应的数据样本少,特征矩阵稀疏,使得模型优化过程收敛速度减慢;稀疏数据的缓存利用率低,进一步降低计算效率。-- 模型复杂度上升:过多特征增加了模型的复杂度,可能需要更复杂的正则化策略,增加调参难度和时间。 不同建模阶段的效率影响-- 数据预处理阶段:需要额外处理低频类别(如合并、编码),增加数据清洗时间;稀疏数据的存储和处理需要特殊数据结构(如稀疏矩阵),增加编程复杂度。-- 模型训练阶段:梯度下降等优化算法在高维稀疏数据上收敛速度慢;批量处理时内存占用大,可能需要减小批次大小,延长训练时间。-- 模型评估阶段:交叉验证等评估方法在高维数据上计算成本高;模型解释性分析(如特征重要性)因特征过多而变得困难。 对比案例-- 有低频类别:某客户分群模型包含500个商品类别(其中300个为低频),经编码后特征数达1000+,随机森林模型训练需2小时。-- 无低频类别:合并低频类别后,商品类别减少至200个,特征数降至600+,相同模型训练仅需30分钟,效率提升75%。
低频分类数据的形成完全是来源于真实的分类结果。()? 低频分类数据的形成原因-- 真实的罕见类别:数据中确实存在发生概率低的类别,如罕见疾病、特殊事件等,这是低频数据的合理来源。-- 数据采集错误:录入错误(如拼写错误、格式不一致)导致的虚假类别,如“苹果”误写为“苹里”、“aplle”等。-- 分类体系过细:分类标准过于详细,将本可合并的类别拆分为多个小类,导致部分子类频数过低。-- 样本量不足:总体中该类别比例不低,但由于样本量小导致抽样后频数低,如小样本调查中的小众群体。-- 数据整合问题:多源数据合并时,不同数据源的分类标准不一致,导致类别膨胀和低频类别产生。 不同来源的特征与识别-- 真实罕见类别:类别含义明确,与其他类别有显著区分;在业务中有实际意义,如“VIP客户”。-- 数据错误类别:类别名称存在明显拼写错误或格式问题;在数据集中孤立存在,无其他相关样本。-- 分类过细类别:类别间差异小,可合并为更高层级类别;如将“红色”、“浅红”、“深红”细分为多个类别。-- 识别方法:结合业务知识判断类别合理性;检查类别名称的规范性;分析类别间的语义相似度。 案例说明-- 电商商品数据:类别“手机-智能手机-品牌X-型号Y”由于型号过细导致低频,属于分类过细;而“手机-复古大哥大”则可能是真实的罕见类别。-- 客户地址数据:“北京市海淀区”是正常类别,而“北京市海锭区”(错别字)则是数据错误导致的低频类别。
低频分类数据的形成完全是来源于数据采集是的不规范格式。()? 低频分类数据的主要形成原因-- 数据采集不规范:录入错误(如错别字、大小写不一致)、格式混乱(如日期格式混用)、单位不统一等导致的虚假低频类别。-- 真实罕见现象:数据中客观存在的低概率事件或类别,如自然灾害类型中的“陨石撞击”、疾病中的“罕见遗传病”。-- 分类体系设计问题:分类标准过于细致或层级过多,导致部分子类别频数自然偏低;分类标准不明确,导致类别划分混乱。-- 样本代表性问题:抽样偏差导致某些本应高频的类别在样本中低频;样本量不足,无法充分反映总体分布。-- 数据整合与迁移:不同系统间数据格式转换不当;历史数据与新数据的分类标准不兼容。 数据采集不规范的具体表现-- 拼写错误:如“男性”误写为“男姓”、“nanxing”等。-- 格式不一致:如日期“2023-10-01”与“10/01/2023”并存;地址“北京市”与“北京”混用。-- 冗余信息:如“客户反馈-非常满意”与“非常满意”同时存在。-- 缺失值处理不当:将缺失值编码为“N/A”、“未知”、“缺失”等多个不同类别。 非采集原因的案例-- 真实罕见类别:某医院患者数据中,“罕见病”类别占比0.5%,属于真实低频。-- 分类过细:商品分类中“服装-上衣-T恤-短袖-纯棉-白色-S码”层级过多导致低频。-- 样本量不足:某新产品用户调查仅收集100份样本,导致“50岁以上用户”类别频数低。
低频分类数据都是由于数据采集时的错误导致的。()? 低频分类数据的非错误来源-- 真实罕见类别:客观存在的低概率事件或群体,如“百岁以上老人”、“诺贝尔奖获得者”等。-- 分类体系过细:将大类拆分为过多子类,导致部分子类自然低频,如将“交通工具”细分为“电动自行车-品牌A-型号X”。-- 业务特殊性:某些行业或领域天然存在大量低频类别,如电商平台的长尾商品、学术论文的关键词。-- 时间因素:随时间变化出现的新兴类别,初期样本量少,如“元宇宙”相关概念在早期数据中低频。-- 空间因素:特定地域特有的类别,在全国性数据中低频,如地方方言、特色产品。 数据采集错误导致的低频类别特征-- 类别名称异常:存在明显拼写错误、乱码或无意义字符,如“苹果手机”误写为“苹果手几”。-- 格式不一致:同一类别有多种表示形式,如“中国”、“CN”、“china”并存。-- 逻辑矛盾:类别与其他特征存在明显矛盾,如“年龄=10岁”且“职业=退休人员”。-- 孤立存在:该类别仅有极少数样本,且无任何业务意义。 区分错误与非错误低频类别的方法-- 业务知识验证:咨询领域专家判断类别是否合理存在。-- 数据一致性检查:分析类别与其他变量的逻辑关系是否合理。-- 来源追踪:检查数据录入流程,确认是否存在采集规范问题。-- 频率趋势分析:观察低频类别在不同时间段的分布,判断是否为新兴或临时性类别。
所有的数据错误都可以被发现并纠正。()? 难以发现或纠正的数据错误类型-- 逻辑错误:数据本身格式正确,但存在内在逻辑矛盾,如“年龄=20岁且工作年限=30年”,此类错误需复杂逻辑校验才能发现。-- 样本偏差:数据在采集阶段因抽样方法不当导致的系统性偏差,如仅调查某一群体导致的代表性不足,难以通过数据本身发现。-- 隐性缺失值:数据看似完整但实际信息缺失,如“收入=0”可能是真实值也可能是缺失值,缺乏明确判断依据。-- 标注错误:分类数据的标签错误,如将“垃圾邮件”误标为“正常邮件”,需人工复核才能发现,大规模数据中难以完全纠正。-- 测量误差:传感器精度限制或人为测量偏差导致的数据不准确,如体重秤读数误差,无法通过数据处理完全消除。 数据错误发现与纠正的限制因素-- 缺乏真值:很多情况下无法获取数据的真实值作为参考,如用户自评的“满意度”无法验证准确性。-- 成本过高:全面的数据审核和纠正需要大量人力物力,在大规模数据中难以实现。-- 技术局限:现有算法对某些类型错误的识别能力有限,如自然语言处理中的语义错误。-- 时间限制:实时数据处理场景下,无法进行充分的错误检测和纠正。 实例说明-- 医疗数据:患者自述的“疼痛程度”为主观数据,即使存在偏差也无法客观纠正。-- 历史数据:早期采集的纸质数据数字化后,部分模糊字迹无法准确识别,成为永久性错误。-- 传感器数据:温度传感器在极端环境下的漂移误差,难以完全校准。
不是所有的数据错误都可以被发现并纠正的。()? 无法完全发现和纠正的数据错误类型-- 隐性逻辑错误:数据格式正确但存在内在矛盾,如“出生日期=2020年”且“年龄=30岁”,需复杂规则校验才能发现,易被遗漏。-- 标注偏差:分类任务中人工标注的主观误差,如情感分析中将“中性”文本误标为“积极”,缺乏客观标准难以完全纠正。-- 数据漂移:随时间推移数据分布发生变化,如用户行为模式改变导致历史数据“过时”,此类“错误”难以界定和纠正。-- 样本代表性不足:抽样过程导致的数据偏差,如调查样本中某群体比例过高,需重新抽样才能解决,无法通过数据纠正。-- 测量极限:受仪器精度限制的物理测量误差,如GPS定位的米级误差,无法完全消除。 数据错误处理的现实挑战-- 成本效益权衡:全面错误检测和纠正的成本可能超过错误带来的损失,实际中常采用“可接受错误率”标准。-- 真值获取困难:多数情况下无法获取绝对真值,如用户的真实收入、商品的实际质量。-- 算法局限性:自动纠错算法对复杂错误的识别率有限,如自然语言中的语义矛盾。-- 业务复杂性:跨领域数据的错误判断需要多专业知识,难以由单一系统完成。 实际案例-- 客户画像数据:用户填写的“兴趣爱好”可能包含虚假信息,无法验证真实性。-- 历史气象数据:早期手动记录的气温数据可能存在笔误,因缺乏原始记录无法纠正。-- 社交媒体数据:文本中的讽刺、反话等修辞手法导致情感分析错误,算法难以完全识别。
逻辑纠错中比较简单的方式是将不合理的值替换为缺失值,这样既保持了变量的性质不变,又避免了错误数据的危害。()? 逻辑纠错中的缺失值替换方法-- 定义:当检测到数据中存在明显不合理的值(如年龄=200岁、收入=-1000元)时,将其替换为缺失值标记(如NaN、None)的处理方式。-- 操作步骤:1. 设定合理值范围(如年龄1-120岁);2. 识别超出范围的异常值;3. 用缺失值替换异常值。-- 适用场景:无法确定错误值的真实值时;错误值比例较低时;变量为连续型或有序型时。-- 实现方式:在Python中可通过pandas的mask()或where()函数实现,如df['age'] = df['age'].mask(df['age'] > 120, np.nan)。 该方法的优势-- 保持变量性质不变:仅移除错误数据,不引入新的虚假值,变量的分布特征(如均值、方差)相对真实。-- 操作简单高效:无需复杂的插值或建模,适合快速数据清洗;计算成本低,适用于大规模数据。-- 避免错误传播:防止不合理值参与后续分析(如建模、统计),减少对结果的误导。-- 与后续处理兼容:缺失值可通过统一的缺失值处理方法(如删除、插值)进一步处理,保持数据处理流程一致性。 注意事项与局限性-- 缺失值比例控制:若错误值比例过高(如超过20%),大量缺失值可能影响分析结果,需考虑其他方法。-- 缺失值标记一致性:确保替换后的缺失值标记在整个数据集中统一,避免混淆。-- 后续处理:替换为缺失值后需明确后续处理策略,避免缺失值直接参与分析。-- 适用类型:不适用于类别型变量中错误的类别值(如“性别=未知”),此类情况更适合替换为众数或特定类别。
数据错误是指数据集中的数据与其真值不一致的情况。()? 数据错误的定义与内涵-- 核心定义:数据集中的某个或某些值与其对应的真实值(客观事实)不一致的现象,是数据质量问题的主要表现形式之一。-- 构成要素:1. 存在客观真值;2. 数据记录值与真值不符;3. 差异并非随机波动(需区分错误与误差)。-- 与数据误差的区别:误差是测量值与真值的偏差,通常不可避免(如仪器精度限制);错误是可避免的人为或系统失误导致的不一致。-- 与数据缺失的区别:缺失是信息不存在,错误是信息存在但不正确。 数据错误的主要类型-- 数值错误:数值超出合理范围(如年龄=150岁)、计算错误(如总和不等于各分项之和)。-- 逻辑错误:数据间存在矛盾(如“已婚”且“配偶姓名为空”)、违反业务规则(如“订单金额=0但包含商品”)。-- 格式错误:数据格式不符合规范(如日期写成“2023/13/32”)、单位不一致(如部分身高用厘米部分用米)。-- 标签错误:分类数据的类别标记错误(如将“ spam”邮件标记为“ham”)、编码错误(如性别“男”编码为“2”而非“1”)。-- 重复错误:同一记录被多次录入,导致数据冗余和统计偏差。 数据错误的影响-- 分析结果失真:错误数据导致统计指标(如均值、中位数)不准确,影响决策。-- 模型性能下降:机器学习模型学习错误模式,导致预测准确性降低。-- 资源浪费:错误数据可能导致错误决策,造成经济损失或效率低下。-- 信任危机:长期数据错误会降低数据使用者对数据系统的信任度。
Max-ABS缩放只可以将变量缩放至区间[0,1]。()? Max-ABS缩放的原理与范围-- 定义:一种将数据缩放至以原点为中心,绝对值不超过1的缩放方法,公式为X_scaled = X / max_abs(X),其中max_abs(X)是原始数据绝对值的最大值。-- 取值范围:当原始数据包含正负值时,缩放后范围为[-1,1];仅含非负值时为[0,1];仅含非正值时为[-1,0]。-- 与Min-Max缩放的区别:Max-ABS缩放基于绝对值最大值,而非数据范围(max-min);不移动数据均值,仅改变尺度。-- 核心特点:保持数据的正负号不变;缩放比例由数据中绝对值最大的元素决定。 不同数据分布的缩放结果-- 案例1:数据包含正负值 → 缩放至[-1,1]--- 原始数据:[-5, -3, 0, 2, 5],max_abs=5--- 结果:[-1, -0.6, 0, 0.4, 1] → 范围[-1,1]-- 案例2:数据仅含非负值 → 缩放至[0,1]--- 原始数据:[2, 4, 6, 8, 10],max_abs=10--- 结果:[0.2, 0.4, 0.6, 0.8, 1] → 范围[0,1]-- 案例3:数据仅含非正值 → 缩放至[-1,0]--- 原始数据:[-10, -8, -6, -4, -2],max_abs=10--- 结果:[-1, -0.8, -0.6, -0.4, -0.2] → 范围[-1,0] 应用场景与优势-- 稀疏数据处理:不改变数据的稀疏性(零值仍为零),适用于稀疏矩阵(如文本TF-IDF特征)。-- 保留符号信息:适用于需要保留数据正负含义的场景,如收益率(正表示盈利,负表示亏损)。-- 与其他缩放方法比较:计算简单(仅需除法);对异常值敏感(同Min-Max缩放);无需中心化处理。
1 2