Hi!请登陆

算法挖掘上海的“真公司”

2020-11-13 31 11/13

上周赵食惠跟餐厅老板互动下意外启发的文章《经营一家员工10人的公司在上海算什么水平?》得到坊间一些反响。

但大家觉得还不够过瘾。好像只是从数量上做了梳理。现在的读者啊,精明得很。许多事情不能单一从一个维度去思考。所以老板琢磨着让赵食惠趁热打铁,做点更丰富的内容。也给公司的公众号冲一冲人气。

老板

小赵啊,上次你对中小企业的分析不错啊,但你能说说上海的企业分布是怎样的吗?

赵食惠

没问题,老板,等我5分钟!

五分钟后。。。

赵食惠

老板

这个图有问题啊!

怎么长兴岛也有个亮点啊,那儿不就是一些造船企业吗,企业数应该不会这么多啊,食惠同学,你用的数据是不是有问题啊?

赵食惠

????????????。。。

我使用的是上海工商企业数据中企业状态显示为正在经营的,一共有160多万

老板

怎么可能?根据上海2018年第四次经济普查,上海只有50多万家企业。即使考虑到这两年企业数的增加,以及四经普中未统计那些没有独立核算的企业,上海企业数最多也就70万吧。要不你先看看工商数据与四经普的数据在企业构成上有啥区别吧。

赵食惠

厚!冇问题!

半小时后。。。

赵食惠

老板,我根据上海四经普公报,与咱们的工商数据对比了一下。上海四经普52.6万家单位,其中法人单位44.1万家,里面的企业法人41万家。

赵食惠

与工商企业数据相比较,这41万家不包含农林牧渔业、采矿业、公共管理社会保障和社会组织、国际组织,也不包括企业的分支机构。

赵食惠

工商企业数据中分支机构比重与四经普中基本相同,都在20%左右。而上述四类企业以及未标注行业类型的共占2.47%。

赵食惠

对于其他的工商企业数据,我与四经普结论分行业对比了一下。

赵食惠

赵食惠

从企业数角度,可以发现工商企业数据中,科研技术服务业、租赁和商务服务业、建筑业、批发和零售业的比重明显偏高,其中科研技术服务业的比重高了9%。

赵食惠

赵食惠

从就业人数角度,科研技术服务业、租赁和商务服务业、批发和零售业的比重也偏高。

老板

嗯嗯,这四个行业可是空壳企业的高发行业啊。

赵食惠

空壳企业?

老板

是的。

由于各种各样复杂的原因,很多企业都注册了不只一家企业。而空壳企业就是指这种只有注册,而没有实际经营活动的企业。对于这些空壳企业的存在,我们无法笼统评价其对错,但是的确对企业研究带来了一定挑战。

赵食惠

那如何排除呢?

老板

空壳企业自身有一定特点的,比如就业人数比较少,或者一个地址存在企业数过多,要不我们根据这些特征来把空壳企业找出来?

请输入文字

方法一

根据就业人数的企业筛选

又过了一个小时。。。

赵食惠

老板,上一次中小企业研究中,我看过企业就业人数的分布,其中就业人数10名以上的占所有企业数的比重不足10%,而企业人数2人及2人以下的占了68.8%。除去这68.8%的企业,企业数大概51万家,基本与四经普的企业数相当。根据筛选完的企业,我重新做了一张上海企业的分布图。

赵食惠

这是第二版的上海企业分布(就业人数大于2人的工商企业数据)

老板

嗯,比刚才那张好多了,但是长兴岛企业数仍然很多啊,感觉这个方法还是有些问题,小赵,你看看你排除的企业主要在哪些行业啊?

赵食惠

这是就业人数小于2人的企业分行业比重分布

赵食惠

这是地域分布图

就业人数小于2人与大于2人的单位数量比值分布

老板

果然。。。

赵食惠

怎么?

老板

这种方法虽然可以在一定程度上识别一些空壳企业,但是也容易对就业规模本来就小的行业造成误伤,比如农林牧渔、文体、批发零售等行业,所以在分布上乡村地区的分布比重普遍偏高,缺乏重点。要不我们从地址角度去看看呢?

赵食惠

好嘞,我正在对工商企业地址进行地理编码,需要一定时间,明天给您看结果!

请输入文字

方法二

基于地理编码的企业筛选

第二天一早

赵食惠

老板,我觉得这个方法也有问题啊。

赵食惠

我首先根据地理编码的结果,看了相同地理编码的企业数占所有企业的比重。如果需要达到四经普50多万的量级,需要将相同地理编码上超过10家的企业全部排除,这个门槛明显太低了,普通一幢商务楼的企业数肯定都超过10家啊。

赵食惠

赵食惠

如果一个三四十层商务楼,每层五六家企业的话,这个商务楼就可能有200家企业,远远超过10家了。因此我先保守点,用200家作为阈值,筛选了每个点企业数低于200家的所有企业,一共111万,其分布是这样的。

老板

嗯,这张图看起来有点对了,以前几张长兴岛一直很多,这张上面长兴岛终于安静了。

但是。。。

赵食惠

又但是。。????????????

老板

但是,赵食惠同学啊,正如你所说,这次筛出来的企业有110多万家,是四经普企业数的两倍以上呢,我们能不能把工作再做细一点,不说50万了,至少也要70万以下吧

赵食惠

老板,要不把这200家的门槛再降点?

老板

按照现在的逻辑,再降也难,的确不能降到10家,但是每个点最多是一幢楼吧,我们能不能深入每幢楼,看看每层,甚至每个房间的企业数呢?

请输入文字

方法三

基于语义识别的企业筛选

回到工位,赵食惠看着160多万家企业的地址,回想着老板的要求,有点不知所措。

的确,可能一幢楼企业数不足200家,但是一个房间的企业数超过100家也不合适吧,但是这个怎么筛选呢?这次不能使用地理编码的手段了,如何从地址中准确识别其楼层、房间号呢?

赵食惠不得不求助公司的大神 —— 团支书。

赵食惠

团支书,老板让我根据地址识别同一楼层、同一房间号的企业,但是地址填报的太不规范了,比如有的写2楼201,有的写2F201,有的直接就是201,更不要说地址前面的城市、街道、门牌号、小区名等等,经常缺这少那的,很难用简单的规则进行自动识别啊,总不可能让我手动将这160万家企业过一遍吧。

团支书

简单的方法的确不行了,这事需要利用深度学习的手段,通过循环神经网络进行语义识别才行。

赵食惠

。。。????

团支书

算了吧,这事还是我帮你做吧。

赵食惠

感恩的心,感谢有你。????

团支书

先别说谢啊,深度学习需要语料库,160万家企业不要全部过一遍,但是1万家还是需要人工过一遍的,要不……

请输入文字

接下来的一个礼拜,是赵食惠同学陷入10000家企业地址,进行人工标识的一个礼拜。

一个礼拜之后。。。

赵食惠

老板,经过团支书的帮忙,我们根据每个房间不多于5家、每个楼层不多于20家、每幢楼不多于200家的原则,在工商企业数据165万家中筛选了69万家,终于达到老板您提到的不高于70万家的要求,这是69万家企业的分布图。

赵食惠

上面就是我做的第四版上海企业分布图了。这次是通过楼宇、楼层、房间等深度筛选的工商企业数据。。。

老板

好的,赵食惠同学,你辛苦了。但是……

赵食惠

????????????

老板

但是你们识别出来的那些空壳企业分布在哪儿啊,有哪些特征?

赵食惠

赵食惠

老板,这是识别出来的空壳企业的分布图,从这张图上,我们看到空壳企业在上海中心城区、各郊区新城、工业区都有所分布,也包括之前一直提到的长兴岛,与筛选完的正常企业的分布特征基本相同,似乎看不出什么特别。

赵食惠

但是(通过楼宇、楼层、房间等深度筛选的空壳企业分布)

我们比较了空壳企业与正常企业数的比重,可以发现,上海南侧奉贤、金山、松江、临港等地区的工业园区、乡镇的空壳企业比重明显偏高,而比重更高的,是在崇明岛北部以及长兴岛地区。

老板

是啊,在对这些地区的企业空间分析中,如果不把空壳企业挑出来,出来的结果肯定是不正确的。

赵食惠

这些空壳企业,正如您所说,明显分布在批发零售业、租赁和商务服务业、科学研究和技术服务业以及建筑业,这四个行业的空壳企业占了所有空壳企业的78%。

赵食惠

筛选之后,企业占比更加接近于四经普的比重分布,如租赁和商务服务业,从筛选前的差距6.5%缩小到了现在的2.3%。

赵食惠

赵食惠

从就业人数角度,就业人数越少的企业中筛选出来的空壳企业越多,而就业人数超过10人的企业中,正常企业数量均超过了空壳企业,说明这种按照企业地址进行语义识别筛选的方法,也可以很好地拟合空壳企业就业人数较少的特征。

赵食惠

老板

有点意思。味道对了。赶快整理下,出篇文章吧。冲到10万加,有额外奖励。

赵食惠

Yes Sir! Thank you Sir!

相关推荐