
中国幅员辽阔、历史悠久,很多人都会对中国的地名津津乐道,一方面人们感慨于中文的神奇,另一方面也乐于回味各种有趣的历史故事。很多地名都有其历史地理起源上的独特性,我们不进行深究,在这里纯粹从地名中的汉字进行统计,来发现一些有趣的规律。我们使用中华人民共和国民政部(简称民政部)官网提供的最新的行政区划编码“2020年11月份县以上行政区划代码”,其中台湾省、香港特别行政区和澳门特别行政区暂缺地市和区县信息,除此之外,一共包含了4个直辖市、333个地级行政区和30个省直辖县级行政区,这也是我们俗称的“城市”的概念,因此我们首先研究这367座城市的名称。
首先进行数据清洗,在民政部提供的数据中,各行政区划都包含了其区划单位,比如“北京市”,在分析的时候应该剔除“市”字,只保留其本名。通过查看这367座城市的全名,我们发现其中包含了316个市、30个自治州、7个地区、6个自治县、4个县、3个盟、1个林区。由于自治州县的全名中也包含了相应的民族名称,我们也予以剔除。地名在我们的日常生活中随处可见,当我们游历祖国的大好河山时,地名通常也是我们对陌生城市的第一印象,通过以上一些简单的统计和分析,可以帮助我们更加清晰地了解全国地名中的一些常见现象和不同区域的差别。以此为引,如果能够进一步地探究其中的深层含义和历史文化,将会是一件非常有趣的事情。

