向豆包提交了一个excel表,提了个问题,直接生成了一篇半成品的分析报告,第一次体验,效果很惊艳:

# 一、数据预处理
import pandas as pd

# 读取数据
excel_file = pd.ExcelFile('/mnt/香港出入境数据20250310.xlsx')
df = excel_file.parse('Sheet1')

# 筛选2023年和2024年的数据
filtered_df = df[df['年'].isin([2023, 2024])]

# 查看数据的基本信息
print('数据基本信息:')
filtered_df.info()

# 查看数据集行数和列数
rows, columns = filtered_df.shape

if rows < 100 and columns < 20:
    # 短表数据(行数少于100且列数少于20)查看全量数据信息
    print('数据全部内容信息:')
    print(filtered_df.to_csv(sep='\t', na_rep='nan'))
else:
    # 长表数据查看数据前几行信息
    print('数据前几行内容信息:')
    print(filtered_df.head().to_csv(sep='\t', na_rep='nan'))

一、数据预处理

1. 数据筛选与基本信息

通过代码对原始数据进行筛选,提取出 2023 年和 2024 年的出入境数据,得到一个包含 21622 条记录的数据集。该数据集包含 13 个字段,涵盖了日期等与出入境相关的各类信息。从数据类型来看,有日期类型(yyyymmdd)、整数类型(如等 9 个字段)以及对象类型(如日期管制站入境 / 出境等 3 个字段)。这表明数据包含了多种不同性质的信息,既有时序信息,也有分类信息和数值信息,能够为后续从不同角度进行分析提供丰富的数据基础。

2. 数据前几行内容

从输出的前几行数据可以看到,2023 年 1 月 1 日当天,在机场口岸,入境的香港居民数量为 24925 人,内地访客 1687 人,其他访客 2456 人,总计 29068 人;出境的香港居民数量为 14591 人,内地访客 1648 人,其他访客 4644 人,总计 20883 人。而高铁西九龙和红磡口岸在当天入境和出境人数均为 0。这可能暗示在 2023 年年初,机场是主要的出入境口岸,而高铁西九龙和红磡口岸在当天可能尚未开始运营、运营时间特殊或者受特殊情况影响导致无人员出入境。

展开过程

二、按天分布分析

1. 数据统计结果

  • 香港居民出境按天统计:从 2023 年 1 月 1 日到 2024 年 12 月 31 日,共 731 天的统计数据。每天香港居民出境人数的最小值(min)波动较大,从个位数到数千人不等,如 2024 年 12 月部分日期最小值低至 1 - 2 人,而 2023 年初也在几百人左右。最大值(max)同样波动剧烈,从 2023 年初的一万多人到 2024 年末的七万多人。日均人数(mean)整体呈现上升趋势,在 2023 年初日均约 5000 - 5500 人,到 2024 年末增长到 2 万多人。同比数据显示,大部分时间有一定幅度的增长,如 2024 年 12 月 28 日同比增长达到 0.51(51%),但也存在同比下降的情况,如 2024 年 12 月 29 日同比下降 0.14(14%)。这可能与香港本地的经济发展、旅游旺季、政策变化等因素有关。例如经济发展较好时,居民出境旅游、商务活动等可能增加;旅游旺季会吸引更多居民出境游玩;政策放宽或收紧也会直接影响出境人数。
  • 内地居民入境按天统计:同样涵盖 731 天。每天内地居民入境人数最小值从几十人到几百人,最大值从一千多人到三万多人。日均人数在 2023 年初约 700 - 1000 人,到 2024 年末增长到 8000 - 9000 人左右,整体也是增长趋势。同比数据有较大波动,如 2024 年 12 月 28 日同比增长 0.63(63%),而 2024 年 12 月 30 日同比下降 0.50(50%)。内地居民入境人数的变化可能与香港的旅游吸引力、内地居民的收入水平、节假日安排等因素相关。香港旅游景点的推广、内地居民收入提高后旅游需求增加会促使入境人数上升;而节假日安排不同,可能导致某些日期入境人数大增,某些日期则减少。

2. 趋势图分析

  • 香港居民出境按天均值趋势图

该图展示了香港居民出境按天均值随时间的变化趋势。通过折线的起伏可以直观地看到日均出境人数的增减情况。从图中可以推测出在某些时间段可能存在出境高峰,这些高峰可能对应着香港的法定节假日、旅游旺季或者重大商务活动时期。而低谷期可能是由于特殊事件(如突发事件、政策限制等)导致居民出境意愿降低。

  • 内地居民入境按天均值趋势图

此图反映了内地居民入境按天均值的时间趋势。与香港居民出境趋势类似,也有明显的起伏。内地的节假日(如春节、国庆等)可能会带来入境高峰,因为这些时期内地居民有更多的时间前往香港旅游、购物或探亲。低谷期可能与内地的工作繁忙时期、香港旅游负面事件等因素有关。

# 三、口岸分布特征分析
# 统计香港居民出境在各管制站的分布
hk_outbound_station = filtered_df[(filtered_df['入境 / 出境'] == '出境') & (filtered_df['香港居民'] > 0)].groupby('管制站')['香港居民'].sum()

# 统计内地居民入境在各管制站的分布
mainland_inbound_station = filtered_df[(filtered_df['入境 / 出境'] == '入境') & (filtered_df['内地访客'] > 0)].groupby('管制站')['内地访客'].sum()

# 输出结果
print('香港居民出境在各管制站的分布:')
print(hk_outbound_station)
print('内地居民入境在各管制站的分布:')
print(mainland_inbound_station)

# 创建画布,包含两个子图
fig, axes = plt.subplots(2, 1, figsize=(10, 10))

# 绘制香港居民出境在各管制站的分布柱状图
sns.barplot(x=hk_outbound_station.index, y=hk_outbound_station.values, ax=axes[0])
axes[0].set_title('香港居民出境在各管制站的分布')
axes[0].set_xlabel('管制站')
axes[0].set_ylabel('人数')
axes[0].tick_params(axis='x', rotation=90)

# 添加数据标签
for i, v in enumerate(hk_outbound_station.values):
    axes[0].text(i, v + 100, str(v), ha='center')

# 绘制内地居民入境在各管制站的分布柱状图
sns.barplot(x=mainland_inbound_station.index, y=mainland_inbound_station.values, ax=axes[1])
axes[1].set_title('内地居民入境在各管制站的分布')
axes[1].set_xlabel('管制站')
axes[1].set_ylabel('人数')
axes[1].tick_params(axis='x', rotation=90)

# 添加数据标签
for i, v in enumerate(mainland_inbound_station.values):
    axes[1].text(i, v + 100, str(v), ha='center')

plt.tight_layout()
plt.show()

三、口岸分布特征分析

1. 香港居民出境在各管制站的分布

管制站 香港居民出境人数
中国客运码头 597364
启德邮轮码头 211992
文锦渡 962949
机场 20480152
深圳湾 19819783
港口管制 5992
港澳客轮码头 4222248
港珠澳大桥 16517828
罗湖 43631682
落马洲 6698842
落马洲支线 37589207
香园围 15319598
高铁西九龙 10857497

从数据中可以看出,不同管制站的香港居民出境人数差异巨大。像罗湖和落马洲支线这样的管制站,香港居民出境人数非常多,可能是因为这些口岸地理位置优越、交通便利,连接着香港与内地主要城市,便于居民前往内地或者通过内地转往其他地区。而港口管制这样的管制站人数极少,可能是因为其功能比较特殊,主要服务于特定类型的出境需求,如货运相关的少量人员出境等。机场作为重要的国际交通枢纽,出境人数也较多,反映出香港居民通过航空方式出境的需求较高。

2. 内地居民入境在各管制站的分布

管制站 内地居民入境人数
中国客运码头 528246
启德邮轮码头 103992
文锦渡 329924
机场 6355217
深圳湾 8016498
港口管制 446
港澳客轮码头 810069
港珠澳大桥 4267295
罗湖 9605242
落马洲 1897642
落马洲支线 11226603
香园围 5146866
高铁西九龙 12477622

对于内地居民入境,罗湖、深圳湾和落马洲支线等管制站的入境人数较多。这可能是因为这些口岸与内地的交通连接紧密,是内地居民进入香港的主要通道。例如罗湖口岸是传统的出入境热门口岸,交通网络成熟,内地居民往来便捷。而港口管制入境人数极少,与香港居民出境时该口岸人数少的原因类似,可能其功能并非主要针对旅客入境。

3. 各管制站分布柱状图

通过柱状图能够更加直观地对比不同管制站之间的人数差异。在分析口岸资源分配时,可以根据这些数据合理安排人力、物力,如在人数较多的口岸增加出入境检查人员、优化通关设施等,以提高通关效率,提升旅客的出入境体验。同时,对于人数较少的口岸,可以进一步研究其功能定位是否需要调整,以更好地满足出入境需求。

# 四、与节假日的关系分析
import holidays

# 定义中国节假日
china_holidays = holidays.China()

# 标记是否为节假日
filtered_df['is_holiday'] = filtered_df['yyyymmdd'].apply(lambda x: x in china_holidays)

# 分别计算香港居民出境和内地居民入境在节假日和非节假日的日均人数(保留两位小数)
hk_outbound_holiday = filtered_df[(filtered_df['入境 / 出境'] == '出境') & (filtered_df['香港居民'] > 0)].groupby('is_holiday')['香港居民'].mean().round(2)
mainland_inbound_holiday = filtered_df[(filtered_df['入境 / 出境'] == '入境') & (filtered_df['内地访客'] > 0)].groupby('is_holiday')['内地访客'].mean().round(2)

print('香港居民出境在节假日和非节假日的日均人数:')
print(hk_outbound_holiday)
print('内地居民入境在节假日和非节假日的日均人数:')
print(mainland_inbound_holiday)

# 创建画布
fig, axes = plt.subplots(1, 2, figsize=(12, 6))

# 绘制香港居民出境柱状图
sns.barplot(x=hk_outbound_holiday.index.astype(str), y=hk_outbound_holiday.values, ax=axes[0])
axes[0].set_title('香港居民出境在节假日和非节假日的日均人数')
axes[0].set_xlabel('是否节假日')
axes[0].set_ylabel('日均人数')
axes[0].bar_label(axes[0].containers[0])

# 绘制内地居民入境柱状图
sns.barplot(x=mainland_inbound_holiday.index.astype(str), y=mainland_inbound_holiday.values, ax=axes[1])
axes[1].set_title('内地居民入境在节假日和非节假日的日均人数')
axes[1].set_xlabel('是否节假日')
axes[1].set_ylabel('日均人数')
axes[1].bar_label(axes[1].containers[0])

plt.tight_layout()
plt.show()

四、与节假日的关系分析

1. 节假日与非节假日的日均人数统计

人群类型 是否节假日 日均人数
香港居民出境 False(非节假日) 21099.26
香港居民出境 True(节假日) 18299.85
内地居民入境 False(非节假日) 7273.70
内地居民入境 True(节假日) 11280.22

从这些数据中我们可以推测,对于香港居民出境而言,非节假日的日均出境人数要高于节假日。这可能是因为在非节假日期间,更多香港居民出于商务出行、日常工作通勤(如往返内地工作)等原因出境。而在节假日,部分商务活动暂停,居民可能更倾向于在本地休息或者进行本地的休闲活动,导致出境人数有所下降。

对于内地居民入境,情况则相反,节假日的日均入境人数明显高于非节假日。这很可能是因为内地居民在节假日有更多的空闲时间,会选择前往香港旅游、购物或者探亲访友。例如像春节、国庆等长假期,是内地居民前往香港旅游的高峰期。

2. 日均人数对比柱状图

通过这两个柱状图,能够更加直观地对比香港居民出境和内地居民入境在节假日和非节假日的日均人数差异。这有助于相关部门提前做好资源调配和应对措施。对于香港方面,在非节假日要重点保障香港居民出境的通关顺畅,例如合理安排口岸工作人员、确保交通接驳等;在节假日则要针对内地居民入境高峰,加强旅游服务设施的保障,如增加旅游景点的服务人员、维护购物场所的秩序等。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐