基于主成分分析的中国各省市就业状况研究
摘 要:近年来随着经济和信息科技的快速发展,中国各省市之间就业市场发展呈现出了严重的不均衡性。文章基于《中国统计年鉴》(2017)中的就业数据,设计了包含19个维度的指标体系,使用了主成分分析方法,对中国各省市的就业情况提取了3个主成分进行降维分析,使用了主成分得分对各省市就业情况进行了综合排序。最后,得出了行业的分类信息,总结了3个层面的地区就业情况的总体特点与差异,并给出了成因分析。
关键词:主成分分析;就业;PCA
中图分类号:F241.4 文献标识码:A 文章编号:1008-4428(2018)06-0134-03
一、 引言
中国就业市场上充斥着信息不对称的状况,对于求职者而言,他们大多都对行业没有清晰的认识,没有明确的求职规划,在求职中处于劣势地位。同时全国就业市场又极度地发展不均衡,北上广等一线城市牢牢占据榜首,每年吸引了大批年轻求职者,中西部常年吊车尾,每年都有大量人才流失。年轻劳力的缺失会使得经济发展迟缓,并且会形成恶性循环,最终会造成极其严重的后果。因此,对我国就业情况进行分析,可以为求职者制订职业生涯规划提供依据,也可以为企业或政府机构调整相关战略政策提供数据支持。
本文对我国31个省市的就业情况进行研究,在主成分分析的基础上,使用主成分得分进行综合排序。综合得分函数越大,排名越靠前,反之亦然。根据分析结果,本文总结了3个方面就业状况的总体特点与差别,并分析了差别的形成原因,总结了各个区域在就业市场上的优势与不足。
二、 主成分分析相关理论
主成分分析法是指将数据中具有一定相关性的指标,重新组合成一组新的不相关的综合指标来代替原来的指标。例如,在就业问题分析中有M个指标,主成分分析就是通过对这M个指标进行线性组合,最后得出新的综合指标。对于选取的第一个线性组合,将其命名为F1,用方差来表示该成分的信息量。从理论上来说,F1的方差是最大的,故称为第一个主成分。如果第一个主成分不能完全代表M个指标的信息,就考虑选取第二个线性组合。考虑到成分的有效性,此时在上一个主成分中出现过的信息不会再出现到第二个主成分中。以此类推,可以构造出第三,第四,……,直至第M个主成分。
主成分分析本质上是一种降维分析,在信息损失不多的情况下,将高纬数据转换为几个少数的主成分。在主成分提取中,通常选取累积贡献率为85%作为阈值,取累积贡献率不低于85%的前k个主成分,这样既保证了信息的完整性,又成功地完成了对源数据的降维工作。本文将主成分分析用于就业状况分析任务中,分析过程如下。
三、 基于主成分分析的就业状况研究
(一)构建指标体系
在分析就业状况之前,首先要构建合适的指标体系。本文基于2017年 《中国统计年鉴》,对我国各省市的就业情况进行了分析,选取了19个行业作为指标体系,分别为:X1(农、林、牧、渔业)、X2(采矿业)、X3(制造业)、X4(电力、燃气及水的生产和供应业)、X5(建筑业)、X6(批发和零售业)、X7(交通运输、仓储和邮政业)、X8(住宿和餐饮业)、X9(信息传输、软件和信息技术服务业)、X10(金融业)、X11(房地产业)、X12(租赁和商务服务业)、X13(科学研究和技术服务业)、X14(水利、环境和公共设施管理业)、X15(居民服务、修理和其他服务业)、X16(教育)、X17(卫生和社会工作)、X18(文化、体育和娱乐业)、X19(公共管理、社会保障和社会组织)。本文将各省市19个行业的就业数据作为源数据,进行就业状况分析。
(二)主成分分析法的计算步骤
第一步,先对 19 个指标的原始数据进行标准化处理。使用X表示源数据,X*表示标准化后的数据。可以使用源数据的协方差矩阵表示数据之间的相关性,也可以使用标准化之后数据的相关系数矩阵来表示,二者的值是相同的。本文使用相关系数矩阵。
第二步,计算相关系数矩阵。
第五步,计算主成分系数。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,m)在诸主成分Fi(i=1,2,…,m)上的荷载Iij(i=1,2,…,n;j=1,2,…,m)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
第六步,计算主成分得分重新构建数据。
根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式可如下。依据主成分得分的数据,则可以进行进一步的统计分析。其中,常见的应用有主成分回归,变量子集合的选择,综合评价等。
四、 实验结果与分析
文章基于中国统计年鉴数��,使用MATLAB编码实现了主成分分析,计算了特征值、差值、贡献率、累计贡献率、主成分系数和主成分得分等,计算结果如下。
(一)特征值、差值、贡献率和累积贡献率
计算相关系数矩阵R的特征值和特征向量,得到了如表1的实验结果。根据累积贡献率进行升序排列,可以看出第一个特征贡献率最大,达到了62.43%;第二个特征贡献率有 16.52%;第三个特征贡献率是6.85%。根据特征值累计贡献率大于 85% 确定主成分的为 3,提取了 85.81% 的信息(见表1)。
(二)主成分提取(见表2)
其中,主成分F1包括X1(农林牧渔业),X2(采矿业),X4(电力热力燃气及水生产和供应业),X6(批发和零售业),X7(交通运输仓储和邮政业),X8(住宿和餐饮业),X10(金融业),X11(房地产业),X14(水利环境和公共设施管理业),X16(教育),X17(卫生和社会工作),X18(文化、体育和娱乐业)和X19(公共管理、社会保障和社会组织),这些行业与人们生活高度相关,全面涵盖了衣食住行、学习、医疗、娱乐和政府事务。因此本文将F1命名为个人生活类行业(见表3)。 主成分F2在X9(信息传输、软件和信息技术服务业),X12(租赁和商务服务业),X13(科学研究和技术服务业),X15(居民服务、修理和其他服务业)等行业影响显著,这些行业都属于服务业,与人们生活相关,且X9和X13属于高科技行业,因此本文将F2命名为高新服务业(见表4)。
主成分F3包括X3(制造业)和X5(建筑业),这些都属于传统行业,对工作者劳动力和熟练度要求很高。随着日后我国平均教育水平的提高,从事这种劳动密集型产业的工作者会越来越少,相应的人力资源成本也会提高。本文将F3命名为劳动型传统产业(见表5)。
(三)综合得分
总得分排名情况分析,北京、江苏、广东、上海、浙江、天津、四川、福建等就业情况都很好,宁夏、青海、西藏、山西就业情况较差。其中,北京最好,山西最差(见表6)。
五、 结论
实验结果验证了文章的理论假设,就业市场发展具有地区不均衡性,其中,北京、江苏、广东、上海和浙江等地就业状况良好的原因是多元化的。第一,这些地区在改革开放进程比内地和中西部地区要快,较早地完成了工业化,原始资本的积累使得这些地区相较其他地区更早地完成了产业转型,由农业转变成了工业,由工业转变成了高科技服务业。第二,上述地区是互联网等高新服务业发展的集中地,北京有今日头条等互联网名企,腾讯坐落在广东,上海金融业比较发达,浙江有阿里巴巴等许多互联网企业,人工智能和互联网等高科技企业更多地会选择这些一线城市,吸引了许多年轻求职者。第三,政策的倾斜也使得区域发展不均衡,其他地区如内地中西部应努力结合自身优势,如郑州结合自己身为交通枢纽的优势,把物流作为自己的一大重点。贵州则紧贴大数据的潮流,努力把自身打造成数据之都。综上所述,我国就业状况总体良好,可将行业分为个人生活行业,高新服务业和劳动型传统行业,其中北上广浙等地就业形势良好。
参考文献:
[1]林海明,杜子芳.主成分分析综合评价应该注意的问题[J].统计研究,2013(8):25-31.
[2]中华人民共和国国家统计局.中国统计年鉴(2017)[M].北京:中国统计出版社,2017.
[3]赖德胜,苏丽锋,孟大虎,李长安.中国各地区就业质量测算与评价[J].经济理论与经济管理,2011(11):88-99.
[4]丁守海.中国城镇发展中的就业问题[J].中国社会科学,2014(1):30-47.
[5]范雪莉,冯海泓,原猛.基于互信息的主成分分析特征选择算法[J].控制与决策,2013,28(6):915-919.
[6]�T亚芳,刘娟,王才华等.一种稀疏可控的主成分分析方法[J].计算机科学,2017,44(1):243-246.
[7]严碧峰.供给侧改革背景下我国大学生就业状况及促进对策研究[J].经济研究导刊,2017(19):113-114.
[8]姚建平.多元视角下的城乡低收入家庭就业状况研究[J].社会保障评论,2017(2).
作者简介:
王梦华,女,河南周口人,南京财经大学管理科学与工程学院硕士研究生,研究方向:信息管理与信息系统、数据分析。
编辑推荐:
温馨提示:因考试政策、内容不断变化与调整,长理培训网站提供的以上信息仅供参考,如有异议,请考生以权威部门公布的内容为准! (责任编辑:长理培训)
点击加载更多评论>>