量化交易中数据清洗很关键，对于刚入行的人来说，有哪些容易被忽略的数据清洗要点呢？

我刚进入量化交易领域，看到大家都强调数据清洗的重要性。我想知道对于像我这样的新手，在进行数据清洗的时候，有哪些要点是很容易被忽略掉的。

0 条评论
分类：编程

默认排序时间排序

1 个回答

追风少年 2024-09-09 17:18

缺失值的本质

缺失值，简而言之，就是数据集中未能收集到或记录下的数据点。在矩阵式的数据结构中，这些缺失项通常以空值（如NaN）的形式存在，它们不仅破坏了数据的完整性，还可能对后续的数据分析和模型构建造成不利影响。因此，有效处理缺失值，是数据预处理阶段不可或缺的一环。

泛用的缺失值处理*——填充策略

面对缺失值，一种常见的处理方式是采用填充策略。考虑到许多算法无法直接处理包含缺失值的数据集，因此，将缺失值替换为合理的估计值成为了一种可行的解决方案。其中，以均值填充最为普遍，即将缺失值替换为该特征列的平均值。此外，通过Z-score标准化处理，使数据均值为0、标准差为1，也能在一定程度上减轻缺失值的影响，因为此时填充均值与标准化处理后的结果具有一致性。不过，这种*虽然简便，却也牺牲了缺失值本身可能携带的信息，同时减少了数据的自由度。

未定义数据的特殊处理

未定义数据是缺失值的一种特殊形式，通常源于原始数据的部分缺失或特定条件下的不可计算性（如计算“60日股价涨幅”时，股票上市未满60日）。针对这类数据，有两种主要的清洗*：

重定义指标：在数据不足的情况下，根据现有数据重新定义指标。例如，若只有几个交易日的数据，则直接用这几个交易日的数据来计算。这种*保留了尽可能多的信息，但可能导致数据失真，特别是在日均交易量等需要较长时间跨度来计算的指标上。
数据删除：直接将含有未定义数据的记录从数据集中剔除。这种做法虽然简单直接，但会减少可用数据量，可能影响模型的泛化能力。同时，这也隐含了一个假设，即模型不应从这类数据中学习。

无交易数据的深度处理

无交易数据，如停牌或涨跌停导致的成交量为零的情况，其处理需更加谨慎。对于股票价格的缺失值，可以基于市场逻辑进行填充，如使用最近成交价或同行业指数变化作为替代。然而，这种*虽在数学上具有合理性，却忽略了停牌背后可能隐藏的重要信息（如财务问题、公司重组等），这些信息对股价的长期走势具有潜在影响。因此，在填充之前，深入理解数据的实际含义和背后的市场逻辑至关重要。

对于成交量的缺失值，直接将其设为零可能忽略了“不能交易”与“没有交易”之间的本质区别。在可能的情况下，应探索更精细化的处理方式，以保留更多有价值的信息。

量化交易中数据清洗很关键，对于刚入行的人来说，有哪些容易被忽略的数据清洗要点呢？

1 个回答

泛用的缺失值处理*——填充策略

未定义数据的特殊处理

无交易数据的深度处理

相似问题