机器学习刻画股票市场结构和可视化——以上证50成分股为例引言股票市场的波动往往存在一定的共振，尤其是同一个行业或主题概念的公司股票，当面临行业基本面的冲击时，其波动存在一定的相...

引言

股票市场的波动往往存在一定的共振，尤其是同一个行业或主题概念的公司股票，当面临行业基本面的冲击时，其波动存在一定的相似性，即表现出同涨同跌。如果能通过交易行情数据对股票市场的波动结构进行刻画，对于我们深入理解板块轮动和网络关联性具有重要的启示作用。那么如何借助可视化的手段对股票市场结构进行分析呢？机器学习中的无监督学习算法或许可以帮助我们解决这一问题。本文以上证50指数成分股为例，使用稀疏逆协方差（GraphicalLassoCV）计算股票之间的条件相关性，然后使用聚类分析将行为相似的股票分组在一起并进行可视化。

数据获取

使用tushare pro获取上证50指数成分股收盘价和开盘价数据，以收盘价减去开盘价作为日波动的替代变量。以下代码使用Jupyter notebook运行。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.collections import LineCollection
from sklearn import cluster, covariance, manifold
%matplotlib inline #Jupyter Notebook显示图形专用
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

import tushare as ts
token='到tushare pro官网获取你的token'
pro=ts.pro_api(token)
#获取上证50成分股票代码和名称
def get_50_code():
    #获取上证50成分股代码
    dd=pro.index_weight(index_code='000016.SH')
    dd=dd[dd.trade_date=='20201130']
    codes50=dd.con_code.values
    #获取全市场股票基本信息
    df = pro.stock_basic(exchange='', list_status='L')
    df=df[df.ts_code.isin(codes50)]
    codes=df.ts_code.values
    names=df.name.values
    stocks=dict(zip(codes,names))
    return stocks

def get_data(code,start='20191210',end='20201210'):
    df=ts.pro_bar(ts_code=code,adj='qfq',
                  start_date=start, end_date=end)
    df.index=pd.to_datetime(df.trade_date)
    df=df.sort_index()
    return df

codes, names = np.array(sorted(get_50_code().items())).T
data=pd.DataFrame({name:(get_data(code).close-get_data(code).open)
for code,name in zip(codes,names)})
variation=data.dropna().values

data.head()

上证50成分股股价日变动情况：

聚类分析

由于相互关联的股票会在交易中产生共波动，所以我们可以使用无监督学习算法从历史报价中提取股票市场结构的变化，如使用（收盘价-开盘价）来刻画股价每日价格变动，然后使用稀疏逆协方差估计找出哪些股票存在条件相关性。换句话说，稀疏逆协方差可以得到一个方差关联性列表，对于每只股票来说，与之相关的股票有助于解释其波动。然后再使用聚类分析将行为相似的股票分组在一起。scikit-learn提供了十种不同的聚类算法，本文用“Affinity_propagation”（AP算法），主要基于该算法可以从数据中自动选择聚类的数量。AP算法的基本思想是将全部样本看作网络的节点，然后通过网络中各条边的消息传递计算出各样本的聚类中心，关于该算法的详细原理可参考scikit-learn官网或相关书籍。

# 相关系数
edge_model = covariance.GraphicalLassoCV()
X = variation.copy()
X /= X.std(axis=0)
edge_model.fit(X)
_, labels = cluster.affinity_propagation(edge_model.covariance_)
n_labels = labels.max()

for i in range(n_labels + 1):
print('Cluster %i: %s' % ((i + 1), ', '.join(names[labels == i])))

#输出结果：

Cluster 1: 万华化学
Cluster 2: 恒瑞医药, 贵州茅台, 伊利股份
Cluster 3: 山东黄金
Cluster 4: 三安光电, 闻泰科技, 汇顶科技
Cluster 5: 浦发银行, 民生银行, 中国石化, 招商银行, 兴业银行, 农业银行, 中国平安, 交通银行, 工商银行, 邮储银行, 光大银行, 中国石油, 中国银行
Cluster 6: 三一重工, 保利地产, 海螺水泥, 中国神华, 中国铁建, 中国建筑
Cluster 7: 上海机场, 中信证券, 中国联通, 上汽集团, 海尔智家, 海通证券, 中信建投, 工业富联, 国泰君安, 红塔证券, 中国人保, 新华保险, 中国太保, 中国人寿, 华泰证券, 中国中免, 中国重工, 洛阳钼业
Cluster 8: 京沪高铁
Cluster 9: 复星医药, 用友网络, 隆基股份, 药明康德

数据可视化

为了将上述聚类分析进行可视化，需要在一个2D画布上布置不同的股票。为此，需要使用“流形”技术来检索二维嵌入。模型的输出组合成一个二维图，其中节点代表股票名称，边表示:

集群标签用于定义节点的颜色

使用稀疏协方差模型来显示边缘的强度

二维嵌入用于在平面中定位节点

node_position_model = manifold.LocallyLinearEmbedding(
n_components=2, eigen_solver='dense', n_neighbors=6)

embedding = node_position_model.fit_transform(X.T).T

# 可视化
plt.figure(1, facecolor='w', figsize=(10, 8))
plt.clf()
ax = plt.axes([0., 0., 1., 1.])
plt.axis('off')

# 计算偏相关系数
partial_correlations = edge_model.precision_.copy()
d = 1 / np.sqrt(np.diag(partial_correlations))
partial_correlations *= d
partial_correlations *= d[:, np.newaxis]
non_zero = (np.abs(np.triu(partial_correlations, k=1)) > 0.02)

# 使用嵌入的坐标绘制节点
plt.scatter(embedding[0], embedding[1], s=100 * d ** 2, c=labels,
            cmap=plt.cm.nipy_spectral)

# 画相互关联的边
start_idx, end_idx = np.where(non_zero)
segments = [[embedding[:, start], embedding[:, stop]]
            for start, stop in zip(start_idx, end_idx)]
values = np.abs(partial_correlations[non_zero])
lc = LineCollection(segments,
                    zorder=0, cmap=plt.cm.hot_r,
                    norm=plt.Normalize(0, .7 * values.max()))
lc.set_array(values)
lc.set_linewidths(15 * values)
ax.add_collection(lc)

#向每个节点添加一个标签，难点在于定位标签，以避免与其他标签重叠
for index, (name, label, (x, y)) in enumerate(
        zip(names, labels, embedding.T)):

    dx = x - embedding[0]
    dx[index] = 1
    dy = y - embedding[1]
    dy[index] = 1
    this_dx = dx[np.argmin(np.abs(dy))]
    this_dy = dy[np.argmin(np.abs(dx))]
    if this_dx > 0:
        horizontalalignment = 'left'
        x = x + .002
    else:
        horizontalalignment = 'right'
        x = x - .002
    if this_dy > 0:
        verticalalignment = 'bottom'
        y = y + .002
    else:
        verticalalignment = 'top'
        y = y - .002
    plt.text(x, y, name, size=10,
             horizontalalignment=horizontalalignment,
             verticalalignment=verticalalignment,
             bbox=dict(facecolor='w',
                       edgecolor=plt.cm.nipy_spectral(label / float(n_labels)),
                       alpha=.6))

plt.xlim(embedding[0].min() - .15 * embedding[0].ptp(),
         embedding[0].max() + .10 * embedding[0].ptp(),)
plt.ylim(embedding[1].min() - .03 * embedding[1].ptp(),
         embedding[1].max() + .03 * embedding[1].ptp())

plt.show()

图表反映了变量之间的条件关系，而聚类反映了边际属性：聚在一起的变量可以被认为在整个股票市场水平上具有类似的影响。从下图中可以看出，无监督学习通过对交易报价信息的提取，可以大致勾勒出上证50指数成分股的一个市场结构，具有相同行业属性或概念属性的个股其波动表现出相似性，如医药、银行、券商、保险、大基建等。

结语

机器学习是量化分析的一个重要工具，掌握机器学习算法的基本原理和应用场景可以为我们分析和研究金融市场提供一个参考框架。无监督机器学习中的聚类分析能够从纷繁复杂的数据中提取有用信息，刻画多维特征的“相似性”和“关联性”，再借助网络分析的视角，可以进一步考察数据变量间的微观结构和运动状态。本文参考scikit-learn官方网站示例，对上证50指数成分股的“共波动”结构进行了可视化分析，为大家深入学习机器学习抛砖引玉。关于网络分析方面，Python有个很好用的第三方库——networkx，可以画出各种精美的网络分析图，感兴趣的读者可以进一步了解。

参考资料：

scikit-learn官方网站案例：网页链接

机器学习刻画股票市场结构和可视化——以上证50成分股为例

作者：Python金融量化

全部讨论