我们将使用探索性数据分析来识别财务数据中脆弱的早期预警信号。
破产是由无法偿还欠债权人(欠债的银行或机构)的部分或全部债务的债务人(欠其他实体债务的实体)发起的法律程序。在大多数国家,破产是由法院命令实施的。当公司无法偿还债务或履行义务时,就会发生破产。这种破产状态可持续数月至数年。在某些情况下,破产可能是永久性的。
我们需要加载文件并将它们转换为 pandas DataFrame。这些列被赋予了一个新的标题,如下所示:
# To suppress warnings
import warnings
warnings.filterwarnings("ignore")
warnings.filterwarnings("ignore", category=DeprecationWarning)
import numpy as np
import pandas as pd
%matplotlib inline
# For loading .arff files
from scipy.io import arf
# Load the 5 raw .arff files into a list
def load_raw_data():
N=5
return [arff.loadarff(str(i+1) \\
+ 'year.arff') for i in range(N)]
数据分析的下一步,在导入数据并安装所需的包之后,是 pandas 分析。
我们将专注于 pandas profiling——一种简单而快速的探索性数据分析方法。它本质上是一个包,它承诺提供一种更有效的数据分析方法。
pandas 分析的输出是一个 HTML 文件。我们将讨论以下屏幕截图中显示的发现的各个方面。