海安有股票吗?
当然有了,现在沪深两市上市的公司一共有4069家(2017年1月18日统计数据),其中上海证券交易所1593家,深圳证券交易所2476家。 通过查找上交所和深交所的上市公司名称,我们发现了151家和246家分别以“海”“安”开头的公司,将它们合并在一起共得到397家公司。然后我们通过搜索引擎输入这397家公司名称,发现除了个别公司的官网没有找到外,其它公司的官网上都有关于他们上市的报道(如搜狐网上载日期晚于公司上市日期的一般都不选),以此我们可以得到一个大概的数字,即在沪、深交易所上市的公司中每家企业都至少有一个网页提到他们上市的事情。 我们进一步把这些公司拉到最大,放大到整个互联网,借助百度指数等工具,统计各个公司名字出现的频次。最后发现有300多家公司名字出现次数达到或超过10万次/天,这些就是著名的“千禧一代”概念股了。 此外我们还发现了6家以“海”或“安”开头的新三板挂牌企业。
综上我们一共找到了397+6=403个样本。
接下来需要提取每个样本公司最重要的信息,用于构建模型。我们选取了如下特征: (1)是否处于创业阶段[1];
(2)是否存在股东承诺不分红[2];
(3)是否存在抵押贷款[3];
(4)资产负债率是否高于行业水平[4];
(5)是否有金融衍生工具[5];
(6)是否为央企或者国企[6]。 利用这些特征,我们最终构建了包含6个变量的一个数学模型,用于预测待评企业是否会成为千禧一代概念股。 为了评价模型的预测效果,我们利用K-Fold Cross Validation的方法,让模型自己计算出误差值并选择最优参数组合。
在测试集上的误差为0.397%,在训练集上的误差为0.3907%,平均错误率约为万分之四。这个结果说明我们的模型能够比较准确地实现对于新千禧一代概念股的预测,并且具有较好的通用性,因为该模型的构造并没有具体依赖任何一个数据集的特性。 基于此,我们就能够对新企业作出判断:如果一家新建企业的特征更倾向于属于千禧一代的概念股,那么它成为千禧一代概率将会很大。