基于主成分分析的中国各省市就业状况研究

来源： 2018-11-20 12:54中

　摘要：近年来随着经济和信息科技的快速发展，中国各省市之间就业市场发展呈现出了严重的不均衡性。文章基于《中国统计年鉴》（2017）中的就业数据，设计了包含19个维度的指标体系，使用了主成分分析方法，对中国各省市的就业情况提取了3个主成分进行降维分析，使用了主成分得分对各省市就业情况进行了综合排序。最后，得出了行业的分类信息，总结了3个层面的地区就业情况的总体特点与差异，并给出了成因分析。
　　关键词：主成分分析；就业；PCA
　　中图分类号：F241.4 文献标识码：A 文章编号：1008-4428（2018）06-0134-03
　　一、引言
　　中国就业市场上充斥着信息不对称的状况，对于求职者而言，他们大多都对行业没有清晰的认识，没有明确的求职规划，在求职中处于劣势地位。同时全国就业市场又极度地发展不均衡，北上广等一线城市牢牢占据榜首，每年吸引了大批年轻求职者，中西部常年吊车尾，每年都有大量人才流失。年轻劳力的缺失会使得经济发展迟缓，并且会形成恶性循环，最终会造成极其严重的后果。因此，对我国就业情况进行分析，可以为求职者制订职业生涯规划提供依据，也可以为企业或政府机构调整相关战略政策提供数据支持。
　　本文对我国31个省市的就业情况进行研究，在主成分分析的基础上，使用主成分得分进行综合排序。综合得分函数越大，排名越靠前，反之亦然。根据分析结果，本文总结了3个方面就业状况的总体特点与差别，并分析了差别的形成原因，总结了各个区域在就业市场上的优势与不足。
　　二、主成分分析相关理论
　　主成分分析法是指将数据中具有一定相关性的指标，重新组合成一组新的不相关的综合指标来代替原来的指标。例如，在就业问题分析中有M个指标，主成分分析就是通过对这M个指标进行线性组合，最后得出新的综合指标。对于选取的第一个线性组合，将其命名为F1，用方差来表示该成分的信息量。从理论上来说，F1的方差是最大的，故称为第一个主成分。如果第一个主成分不能完全代表M个指标的信息，就考虑选取第二个线性组合。考虑到成分的有效性，此时在上一个主成分中出现过的信息不会再出现到第二个主成分中。以此类推，可以构造出第三，第四，……，直至第M个主成分。
　　主成分分析本质上是一种降维分析，在信息损失不多的情况下，将高纬数据转换为几个少数的主成分。在主成分提取中，通常选取累积贡献率为85%作为阈值，取累积贡献率不低于85%的前k个主成分，这样既保证了信息的完整性，又成功地完成了对源数据的降维工作。本文将主成分分析用于就业状况分析任务中，分析过程如下。
　　三、基于主成分分析的就业状况研究
　　（一）构建指标体系
　　在分析就业状况之前，首先要构建合适的指标体系。本文基于2017年《中国统计年鉴》，对我国各省市的就业情况进行了分析，选取了19个行业作为指标体系，分别为：X1（农、林、牧、渔业）、X2（采矿业）、X3（制造业）、X4（电力、燃气及水的生产和供应业）、X5（建筑业）、X6（批发和零售业）、X7（交通运输、仓储和邮政业）、X8（住宿和餐饮业）、X9（信息传输、软件和信息技术服务业）、X10（金融业）、X11（房地产业）、X12（租赁和商务服务业）、X13（科学研究和技术服务业）、X14（水利、环境和公共设施管理业）、X15（居民服务、修理和其他服务业）、X16（教育）、X17（卫生和社会工作）、X18（文化、体育和娱乐业）、X19（公共管理、社会保障和社会组织）。本文将各省市19个行业的就业数据作为源数据，进行就业状况分析。
　　（二）主成分分析法的计算步骤
　　第一步，先对 19 个指标的原始数据进行标准化处理。使用X表示源数据，X*表示标准化后的数据。可以使用源数据的协方差矩阵表示数据之间的相关性，也可以使用标准化之后数据的相关系数矩阵来表示，二者的值是相同的。本文使用相关系数矩阵。
　　第二步，计算相关系数矩阵。
　　第五步，计算主成分系数。
　　从以上的分析可以看出，主成分分析的实质就是确定原来变量xj（j=1，2，…，m）在诸主成分Fi（i=1，2，…，m）上的荷载Iij（i=1，2，…，n；j=1，2，…，m）。从数学上可以证明，它们分别是相关矩阵m个较大的特征值所对应的特征向量。
　　第六步，计算主成分得分重新构建数据。
　　根据标准化的原始数据，按照各个样品，分别代入主成分表达式，就可以得到各主成分下的各个样品的新数据，即为主成分得分。具体形式可如下。依据主成分得分的数据，则可以进行进一步的统计分析。其中，常见的应用有主成分回归，变量子集合的选择，综合评价等。
　　四、实验结果与分析
　　文章基于中国统计年鉴数��，使用MATLAB编码实现了主成分分析，计算了特征值、差值、贡献率、累计贡献率、主成分系数和主成分得分等，计算结果如下。
　　（一）特征值、差值、贡献率和累积贡献率
　　计算相关系数矩阵R的特征值和特征向量，得到了如表1的实验结果。根据累积贡献率进行升序排列，可以看出第一个特征贡献率最大，达到了62.43%；第二个特征贡献率有 16.52%；第三个特征贡献率是6.85%。根据特征值累计贡献率大于 85% 确定主成分的为 3，提取了 85.81% 的信息（见表1）。
　　（二）主成分提取（见表2）
　　其中，主成分F1包括X1（农林牧渔业），X2（采矿业），X4（电力热力燃气及水生产和供应业），X6（批发和零售业），X7（交通运输仓储和邮政业），X8（住宿和餐饮业），X10（金融业），X11（房地产业），X14（水利环境和公共设施管理业），X16（教育），X17（卫生和社会工作），X18（文化、体育和娱乐业）和X19（公共管理、社会保障和社会组织），这些行业与人们生活高度相关，全面涵盖了衣食住行、学习、医疗、娱乐和政府事务。因此本文将F1命名为个人生活类行业（见表3）。　　主成分F2在X9（信息传输、软件和信息技术服务业），X12（租赁和商务服务业），X13（科学研究和技术服务业），X15（居民服务、修理和其他服务业）等行业影响显著，这些行业都属于服务业，与人们生活相关，且X9和X13属于高科技行业，因此本文将F2命名为高新服务业（见表4）。
　　主成分F3包括X3（制造业）和X5（建筑业），这些都属于传统行业，对工作者劳动力和熟练度要求很高。随着日后我国平均教育水平的提高，从事这种劳动密集型产业的工作者会越来越少，相应的人力资源成本也会提高。本文将F3命名为劳动型传统产业（见表5）。
　　（三）综合得分
　　总得分排名情况分析，北京、江苏、广东、上海、浙江、天津、四川、福建等就业情况都很好，宁夏、青海、西藏、山西就业情况较差。其中，北京最好，山西最差（见表6）。
　　五、结论
　　实验结果验证了文章的理论假设，就业市场发展具有地区不均衡性，其中，北京、江苏、广东、上海和浙江等地就业状况良好的原因是多元化的。第一，这些地区在改革开放进程比内地和中西部地区要快，较早地完成了工业化，原始资本的积累使得这些地区相较其他地区更早地完成了产业转型，由农业转变成了工业，由工业转变成了高科技服务业。第二，上述地区是互联网等高新服务业发展的集中地，北京有今日头条等互联网名企，腾讯坐落在广东，上海金融业比较发达，浙江有阿里巴巴等许多互联网企业，人工智能和互联网等高科技企业更多地会选择这些一线城市，吸引了许多年轻求职者。第三，政策的倾斜也使得区域发展不均衡，其他地区如内地中西部应努力结合自身优势，如郑州结合自己身为交通枢纽的优势，把物流作为自己的一大重点。贵州则紧贴大数据的潮流，努力把自身打造成数据之都。综上所述，我国就业状况总体良好，可将行业分为个人生活行业，高新服务业和劳动型传统行业，其中北上广浙等地就业形势良好。
　　参考文献：
　　[1]林海明，杜子芳.主成分分析综合评价应该注意的问题[J].统计研究，2013（8）：25-31.
　　[2]中华人民共和国国家统计局.中国统计年鉴（2017）[M].北京：中国统计出版社，2017.
　　[3]赖德胜，苏丽锋，孟大虎，李长安.中国各地区就业质量测算与评价[J].经济理论与经济管理，2011（11）：88-99.
　　[4]丁守海.中国城镇发展中的就业问题[J].中国社会科学，2014（1）：30-47.
　　[5]范雪莉，冯海泓，原猛.基于互信息的主成分分析特征选择算法[J].控制与决策，2013，28（6）：915-919.
　　[6]�T亚芳，刘娟，王才华等.一种稀疏可控的主成分分析方法[J].计算机科学，2017，44（1）：243-246.
　　[7]严碧峰.供给侧改革背景下我国大学生就业状况及促进对策研究[J].经济研究导刊，2017（19）：113-114.
　　[8]姚建平.多元视角下的城乡低收入家庭就业状况研究[J].社会保障评论，2017（2）.
　　作者简介：
　　王梦华，女，河南周口人，南京财经大学管理科学与工程学院硕士研究生，研究方向：信息管理与信息系统、数据分析。