探索性数据分析(EDA)

探索性数据分析 (EDA) 分析和调查数据集并总结其主要特征,通常采用数据可视化方法。 它有助于确定如何最好地操纵数据源以获得所需的答案,从而更容易发现模式、发现异常、检验假设或检查假设。

https://embed.notionlytics.com/wt/ZXlKd1lXZGxTV1FpT2lKa09HTTVabU00TVRRNU5UUTBOalUyT0dNMVl6TmlORGM0TUdNMk1HTXpOaUlzSW5kdmNtdHpjR0ZqWlZSeVlXTnJaWEpKWkNJNklsZHNTR2hsVEZSUFdXeHpaVmRhUW1ZNU1YQmxJbjA9

EDA 主要用于查看在正式建模或假设检验任务之外可以揭示哪些数据,并提供对数据集变量及其之间关系的更好理解。 它还可以帮助确定您正在考虑用于数据分析的统计技术是否合适。

您可以使用 EDA 工具执行的特定统计功能和技术包括:

本文要点:

  1. 模拟登录尝试,创建我们的数据集
  2. 执行探索性数据分析,了解模拟数据
  3. 使用规则和基准进行异常检测

模拟登录

为了运行模拟,我们将构建一个 Python 包来模拟需要正确用户名和密码的登录过程(无需任何额外的身份验证措施,例如双因素身份验证)和一个可以在命令行上运行的脚本。

模拟器对网站的有效用户做出以下假设: