留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

考虑数据不平衡的城市道路乘用车致命事故率分析

王朝健 张道文 蒋骏 肖乐

王朝健, 张道文, 蒋骏, 肖乐. 考虑数据不平衡的城市道路乘用车致命事故率分析[J]. 交通信息与安全, 2023, 41(5): 43-53. doi: 10.3963/j.jssn.1674-4861.2023.05.005
引用本文: 王朝健, 张道文, 蒋骏, 肖乐. 考虑数据不平衡的城市道路乘用车致命事故率分析[J]. 交通信息与安全, 2023, 41(5): 43-53. doi: 10.3963/j.jssn.1674-4861.2023.05.005
WANG Chaojian, ZHANG Daowen, JIANG Jun, XIAO Le. An Analysis of Fatal Accident Rates of Passenger Cars on Urban Roads Considering Imbalanced Data Samples[J]. Journal of Transport Information and Safety, 2023, 41(5): 43-53. doi: 10.3963/j.jssn.1674-4861.2023.05.005
Citation: WANG Chaojian, ZHANG Daowen, JIANG Jun, XIAO Le. An Analysis of Fatal Accident Rates of Passenger Cars on Urban Roads Considering Imbalanced Data Samples[J]. Journal of Transport Information and Safety, 2023, 41(5): 43-53. doi: 10.3963/j.jssn.1674-4861.2023.05.005

考虑数据不平衡的城市道路乘用车致命事故率分析

doi: 10.3963/j.jssn.1674-4861.2023.05.005
基金项目: 

国家自然科学基金项目 61803314

详细信息
    作者简介:

    王朝健(1997—),硕士. 研究方向:交通安全. E-mail: 549786670@qq.com

    通讯作者:

    张道文(1968—),硕士,教授. 研究方向:交通安全. E-mail: 0119910025@mail.xhu.edu.cn

  • 中图分类号: U491.31

An Analysis of Fatal Accident Rates of Passenger Cars on Urban Roads Considering Imbalanced Data Samples

  • 摘要: 城市道路交通事故频发,而事故数据存在明显不平衡,不同因素间的耦合作用对城市道路乘用车致命事故率分析造成极大挑战。为此提出了1种集成重采样、贝叶斯网络(Bayesian networks,BN)和关联规则(association rule method,ARM)的三阶段事故率分析方法。基于国家事故深度调查体系的1 105例城市道路乘用车事故数据,从驾驶人、车辆、道路、环境这4个方面选取16个潜在特征变量构建BN模型;鉴于数据不平衡时会导致BN模型性能下降的问题,提出在构建BN模型前利用合成少数类过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)和聚类中心进行数据重采样,并比较分析各类采样技术下不同BN模型的综合性能;基于最优BN模型并结合ARM,推理不同影响因素及因素的耦合作用对致命事故率的影响。结果表明:重采样方法可以显著提升BN模型的综合性能,以及识别风险因素的能力。其中SMOTE采样技术结合GTT算法构建的BN模型的AUC最高,达0.793。此外,相较于原始不平衡数据构建的BN模型,经SMOTE采样后构建的BN模型多挖掘了6个风险因素;“机动二/三轮车”与“超速行驶”耦合时致命事故率最高,达80.4%。“机动二/三轮车”与“存在视野盲区”耦合时,致命事故率达77.4%;乘用车在四枝分叉口左转时,容易与汽车发生碰撞,但致命事故率低于20%。本方法能够降低数据不平衡对道路交通事故分析的影响,并实现风险因素的耦合作用分析,进而预防和降低城市道路致命事故的发生。

     

  • 图  1  研究流程

    Figure  1.  Research process

    图  2  SMOTE_GTT模型的BN结构

    Figure  2.  BN structure of SMOTE_GTT model

    图  3  致命事故发生概率大于50%的状态取值

    Figure  3.  Indicates that the probability of fatal accident is greater than 50%

    图  4  碰撞目标与各关键因素的联合效应

    Figure  4.  The combined effect of collision target and key factors

    表  1  变量取值和离散情况

    Table  1.   Value and dispersion of variables

    变量名称 变量取值
    事故类别 1_非致命事故、2_致命事故
    驾驶人年龄/岁 1_[18~25]、2_[26~40]、3_[41~65]、4_ > 65
    驾驶人性别 1_男、2_女
    驾驶人驾龄/年 1_[0~3]、2_[4~8]、3[9~15]、4 > 15
    超速行驶 1_是、2_否
    视野盲区 1_是、2_否
    碰撞目标 1_汽车、2_机动二/三轮车、3_非机动二/三轮车、4_路边隔离装置、5_树木等杆状物、6_其他障碍物
    碰撞位置 1_正面偏左、2_正面偏右、3_汽车左侧、4_汽车右侧
    车辆运动类型 1_匀速直行、2_加速直行、3_减速直行、4_左转、5_右转、6_变道/超车
    路段信息 1_普通路段、2_三枝分叉口、3_四枝分叉口、4_其他
    路段限速/(km/h) 1_[0~30]、2_[31~40]、3_[41~50]、4_[51~60]、5_[61~70]、6_[71~80]
    路灯状况 1_无、2_有(关闭)、3_有(点亮)
    路口信号灯 1_无、2_直行、3_直行+转向
    季节 1_春季、2_夏季、3_秋季、4_冬季
    节假日 1_是、2_否
    时段 1_清晨[05:01—08:00]、2_日间[08:01—17:00]、3_傍晚[17:01—19:00]、4_夜间[19:01—05:00]
    天气 1_晴天、2_阴天、3_雨天、4_其他恶劣天气
    下载: 导出CSV

    表  2  模型描述与数据集的使用情况

    Table  2.   Description of the model and use of the dataset

    数据组 结构学习算法 模型
    BS OD_BS
    OD GTT OD_GTT
    PC OD_PC
    BS SMOTE_BS
    SMOTE GTT SMOTE_GTT
    PC SMOTE_PC
    BS CC_BS
    CC GTT CC_GTT
    PC CC_PC
    下载: 导出CSV

    表  3  原始数据和重采样数据的分布差异

    Table  3.   Differences in the distribution of raw and resampled data

    数据组 案例总数 非致命事故 致命事故
    OD 1 105 783 322
    SMOTE 1 566 783 783
    CC 644 322 322
    下载: 导出CSV

    表  4  不同模型的评价指标情况

    Table  4.   The situation of evaluation indicators of different models

    模型 准确率 敏感度 特异度 AUC
    OD_BS 0.743 0.925 0.301 0.733
    OD_GTT 0.735 0.908 0.314 0.725
    OD_PC 0.659 0.819 0.27 0.581
    SMOTE_BS 0.718 0.709 0.728 0.792
    SMOTE_GTT 0.724 0.713 0.736 0.793
    SMOTE_PC 0.679 0.607 0.751 0.75
    CC_BS 0.728 0.72 0.736 0.782
    CC_GTT 0.717 0.677 0.758 0.762
    CC_PC 0.691 0.637 0.745 0.721
    下载: 导出CSV

    表  5  OD_GTT和SMOTE_GTT中关键因素的互信息

    Table  5.   Mutual information on key factors in OD_GTT and SMOTE_GTT

    影响因素 SMOTE_GTT OD_GTT
    碰撞目标 0.079 0.078
    超速行驶 0.078 0.037
    天气 0.034 0
    驾驶人性别 0.011 0
    路段信息 0.011 0
    碰撞位置 0.009 0
    视野盲区 0.007 0
    车辆运动类型 0.003 0.002
    路口信号灯 0.002 0
    下载: 导出CSV

    表  6  关键因素的卡方信息

    Table  6.   Key factor chi-square information

    影响因素 皮尔逊卡方 显著性
    碰撞目标 224.9 0.000
    超速行驶 174 0.000
    天气 71.9 0.000
    驾驶人性别 23.3 0.000
    路段信息 25.9 0.000
    碰撞位置 21.8 0.000
    视野盲区 14.8 0.000
    车辆运动类型 19 0.002
    路口信号灯 49.7 0.000
    下载: 导出CSV

    表  7  强耦合度规则

    Table  7.   Rules for strong coupling degree  单位%

    规则 后项 前项 支持度 置信度 提升度 致命事故率
    1 车辆运动类型=左转 & 碰撞位置=汽车右侧 & 路段信息=四枝分叉口 & 驾驶人性别=男 1.02 81.3 4.43 16.00
    2 汽车 车辆运动类型=左转 & 碰撞位置=汽车右侧 & 路口信号灯=直行+转向 1.02 75.0 4.09 14.80
    3 车辆运动类型=左转 & 碰撞位置=汽车右侧 & 路段信息=四枝分叉口 & 超速行驶=否 & 视野盲区=否 1.02 68.8 3.75 13.40
    4 车辆运动类型=左转 & 路段信息=三枝分叉口 & 超速行驶=否 & 天气=晴天 & 视野盲区=否 & 驾驶人性别=男 1.02 68.8 2.61 63.50
    5 机动二/三轮车 碰撞位置=汽车右侧 & 路口信号灯=无 & 路段信息=普通路段 & 超速行驶=否 & 天气=晴天 & 视野盲区=否 & 驾驶人性别=男 1.02 62.5 2.38 62.20
    6 碰撞位置=汽车左侧 & 路段信息=三枝分叉口 & 视野盲区=否 & 驾驶人性别=男 1.66 61.5 2.34 75.20
    7 路口信号灯=直行 & 路段信息=四枝分叉口 & 碰撞位置=正面偏左 & 超速行驶=是 & 天气=晴天 & 车辆运动类型=匀速直行 1.21 89.5 2.09 75.90
    8 非机动二/三轮车 路段信息=三枝分叉口 & 路口信号灯=直行+转向 & 碰撞位置=正面偏右 & 车辆运动类型=匀速直行 & 驾驶人性别=男 1.02 87.5 2.05 67.80
    9 天气=阴天 & 路口信号灯=直行+转向 & 路段信息=四枝分叉口 & 碰撞位置=正面偏右 & 超速行驶=否 & 驾驶人性别=男 1.02 87.5 2.05 38.90
    下载: 导出CSV

    表  8  其余碰撞目标的最高支持度规则

    Table  8.   Maximum support rule for remaining collision targets  单位%

    后项 前项 最高支持度 置信度
    路边隔离装置 天气=晴天 & 路口信号灯=直行 & 碰撞位置=正面偏右 & 超速行驶=否 & 驾驶人性别=男 0.383 66.67
    树木等杆状物 车辆运动类型=加速直行 & 路口信号灯=无 & 超速行驶=否 & 视野盲区=否 & 驾驶人性别=男 0.383 66.67
    其他障碍物 天气=其他恶劣天气 & 车辆运动类型=加速直行 & 碰撞位置=正面偏右 0.192 66.67
    下载: 导出CSV

    表  9  其余碰撞目标的最高置信度规则

    Table  9.   Maximum confidence rule for the remaining collision  单位%targets

    后项 前项 支持度 最高置信度
    路边隔离装置 天气=雨天 & 路口信号灯=直行 & 碰撞位置=正面偏右 & 驾驶人性别=男 1.02 37.5
    树木等杆状物 路口信号灯=直行 & 碰撞位置=正面偏左 & 路段信息=普通路段 & 超速行驶=是 & 驾驶人性别=男 1.02 43.75
    其他障碍物 天气=阴天 & 碰撞位置=正面偏左 & 路口信号灯=无 & 超速行驶=否 & 视野盲区=否 1.15 16.67
    下载: 导出CSV
  • [1] 刘爱华, 叶植材. 中国统计年鉴—2020[M]. 北京: 中国统计出版社, 2020.

    LIU A H, YE Z C. China statistical yearbook – 2020[M]. Beijing: China Statistics Press, 2020. (in Chinese)
    [2] 胡宗品, 骆仁佳, 于淑君. 城市死亡交通事故形态影响因素分析[J]. 交通科技与经济, 2022, 24(1): 25-29, 37.

    HU Z P, LUO R J, YU S J. Analysis of influencing factors on urban fatal crash types[J]. Technology & Economy in Areas of Communications, 2022, 24(1): 25-29, 37. (in Chinese)
    [3] 赵琳娜, 贾兴无, 戴帅, 等. 中国城市道路交通安全特点解析[J]. 城市交通, 2018, 16(3): 9-14, 20.

    ZHAO L N, JIA X W, DAI S, et al. Characteristics of urban road traffic safety in China[J]. Urban Transport of China, 2018, 16(3): 9-14, 20. (in Chinese)
    [4] 张道文, 母尧尧, 王朝健, 等. 城市道路交通事故特性及严重程度研究[J]. 安全与环境学报, 2022, 22(2): 599-605.

    ZHANG D W, MU Y Y, WANG C J, et al. Research on characteristics and severity of urban road traffic accidents[J]. Journal of Safety and Environment, 2022, 22(2): 599-605. (in Chinese)
    [5] FOUNTAS G, ANASTASOPOULOS P C. Analysis of accident injury-severity outcomes: the zero-inflated hierarchical ordered probit model with correlated disturbances[J]. Analytic Methods in Accident Research, 2018, 20: 30-45. doi: 10.1016/j.amar.2018.09.002
    [6] WEN X, XIE Y, JIANG L, et al. Applications of machine learning methods in traffic crash severity modelling: current status and future directions[J]. Transport Reviews, 2021, 41(6): 855-879. doi: 10.1080/01441647.2021.1954108
    [7] MORAL-GARCÍA S, CASTELLANO J G, MANTAS C J, et al. Decision tree ensemble method for analyzing traffic accidents of novice drivers in urban areas[J]. Entropy, 2019, 21(4): 360. doi: 10.3390/e21040360
    [8] SHAIK M E, ISLAM M M, HOSSAIN Q S. A review on neural network techniques for the prediction of road traffic accident severity[J]. Asian Transport Studies, 2021, 7: 100040. doi: 10.1016/j.eastsj.2021.100040
    [9] 吕通通, 张湛, 陆林军, 等. 基于互信息贝叶斯网络的交通事故严重程度分析[J]. 交通信息与安全, 2021, 39(6): 36-43. doi: 10.3963/j.jssn.1674-4861.2021.06.005

    LYU T T, ZHANG Z, LU L J, et al. An analysis of traffic accident severity based on mutual-information Bayesian net-work[J]. Journal of Transport Information and Safety, 2021, 39(6): 36-43. (in Chinese) doi: 10.3963/j.jssn.1674-4861.2021.06.005
    [10] 李贵阳, 张福明, 王永岗. 基于SVM模型的山区高速公路多车事故影响因素分析[J]. 武汉理工大学学报(交通科学与工程版), 2020, 44(6): 1046-1051. doi: 10.3963/j.issn.2095-3844.2020.06.020

    LI G Y, ZHANG F M, WANG Y G, et al. Influencing factors analysis of multiple vehicle accidents in mountainous expressway based on SVM mode[J]. Journal of Wuhan University of Technology (Transportation Science & Engineering), 2020, 44(6): 1046-1051. (in Chinese) doi: 10.3963/j.issn.2095-3844.2020.06.020
    [11] VILAÇA M, MACEDO E, COELHO M C. A rare event modelling approach to assess injury severity risk of vulnerable road users[J]. Safety, 2019, 5(2): 29. doi: 10.3390/safety5020029
    [12] 方方, 王昕. 基于集成学习的不平衡交通事故风险研究[J]. 北京信息科技大学学报(自然科学版), 2021, 36 (06): 19-24.

    FANG F, WANG X. Research on unbalanced traffic accident risk based on ensemble learning[J]. Journal of Beijing Information Science & Technology University, 2021, 36(06): 19-24. (in Chinese)
    [13] 恽天翔. 基于机器学习的道路交通事故严重程度分析和预测[D]. 南京: 南京师范大学, 2021.

    YUN T X. Road traffic accident severity Analysis and prediction based on machine learning[D]. Nanjing: Nanjing Normal University, 2021. (in Chinese)
    [14] YANG C, CHEN M, YUAN Q. The application of XGBoost and SHAP to examining the factors in freight truck-related crashes: an exploratory analysis[J]. Accident Analysis & Prevention, 2021, 158: 106153.
    [15] 束鹍. 基于可解释机器学习的城市道路交通事故严重程度预测[D]. 西安: 长安大学, 2021.

    SHU K. Analysis of factors contributing to crash severity on urban road based on explainable machine learning[D]. Xi'an: Chang'an University, 2021. (in Chinese)
    [16] 胡立伟, 赵雪亭, 杨锦青, 等. 城市快速过境通道衔接节点交通风险耦合致因模型研究[J]. 中国安全生产科学技术, 2019, 15(12): 150-155.

    HU L W, ZHAO X T, YANG J Q, et al. Research on coupling cause model of traffic risk in connecting nodes of urban rapid transit channels[J]. Journal of Safety Science and Technology, 2019, 15(12): 150-155. (in Chinese)
    [17] 魏珊珊. 基于数据挖掘的危险货物道路运输事故机理研究[D]. 西安: 长安大学, 2021.

    WEI S S. Application of data mining for the mechanism of hazardous materials road transport accidents[D]. Xi'an: Chang'an University, 2021. (in Chinese)
    [18] 刘晨. 基于NAIS的交通伤严重程度影响因素研究[D]. 北京: 清华大学, 2015.

    LIU C. Study of influencing factors on traffic injury severity based on the NAIS[D]. Beijing: Tsinghua University, 2015. (in Chinese)
    [19] 陈彬, 于鹏程, 张奇. 基于Apriori算法的特殊路段事故致因关联规则挖掘研究[J]. 道路交通管理, 2022(3): 34-37.

    CHEN B, YU P C, ZHANG Q. Research on Mining cause-related association rules of special road accidents based on Apriori algorithm[J]. Road Traffic Control, 2022(3): 34-37. (in Chinese)
    [20] THAMMASIRI D, DELEN D, MEESAD P, et al. A critical assessment of imbalanced class distribution problem: the case of predicting freshmen student attrition[J]. Expert Systems with Applications, 2014, 41(2): 321-330 doi: 10.1016/j.eswa.2013.07.046
    [21] 李蒙蒙, 刘艺, 李庚松, 等. 不平衡多分类算法综述[J/OL]. 计算机应用: 1-17[2022-05-24]. http://kns.cnki.net/kc-ms/detail/51.1307.TP.20220221.1455.002.html.

    LI M M, LIU Y, LI G S, et al. Survey on imbalanced multi-class classification algorithms[J/OL]. Journal of Computer Applications: 1-17[2022-05-24]. http://kns.cnki.net/kcms/detail/51.1307.TP.20220221.1455.002.html. (in Chinese)
    [22] DELEN D, TOMAK L, TOPUZ K, et al. Investigating injury severity risk factors in automobile crashes with predictive analytics and sensitivity analysis methods[J]. Journal of Transport & Health, 2017(4): 118-131.
    [23] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of artificial intelligence research, 2002, 16: 321-357. doi: 10.1613/jair.953
    [24] 任化娟. 面向不平衡数据的分类方法研究[D]. 郑州: 郑州大学, 2020.

    REN H J. Research on methods for classifying imbalanced data[D]. Zhengzhou: Zhengzhou University. (in Chinese)
    [25] MENG H, AN X, XING J. A data-driven Bayesian network model integrating physical knowledge for prioritization of risk influencing factors[J]. Process Safety and Environmental Protection, 2022, 160: 434-449.
    [26] 谢小慧. 基于的水质评价及水质因子关联性分析[D]. 成都: 西南交通大学, 2019.

    XIE X H. WATER Quality evaluation and correlation analysis of indicators based on bayesian network[D]. Chengdu: Southwest Jiaotong University, 2019. (in Chinese)
    [27] 董傲然, 王长帅, 秦丹, 等. 机动车-行人事故中行人伤害严重程度分析[J]. 中国安全科学学报, 2020, 30(11): 141-147.

    DONG A R, WANG C S, QIN D, et al. Analysis on injury severity of pedestrian in motor vehicle-pedestrian accidents[J]. China Safety Science Journal, 2020, 30(11): 141-147. (in Chinese).
    [28] 王精滢. 考虑空间异质性的机非交通事故严重程度分析[D]. 成都: 西南交通大学, 2020.

    WANG J Y. Severity analysis of motorized and non-motorized vehicle crashes considering spatial heterogeneity[D]. Chengdu: Southwest Jiaotong University, 2020. (in Chinese).
    [29] 王琳琳. 交叉口交通事故损伤严重程度与影响因素分析[D]. 青岛: 山东科技大学, 2020.

    WANG L L. Analysis on injury severity and influencing factors of traffic accidents at intersections[D]. Qingdao: Shandong University of Science and Technology, 2020. (in Chinese).
    [30] LI Z, WU Q, CI Y, et al. Using latent class analysis and mixed logit model to explore risk factors on driver injury severity in single-vehicle crashes[J]. Accident Analysis & Prevention, 2019, 129: 230-240.
    [31] 张礼宁. 典型天气条件下山地城市道路异常驾驶行为研究[D]. 重庆: 重庆交通大学, 2021.

    ZHANG L L. Research on abnormal driving behavior of mountain city road under typical weather conditions[D]. Chongqin: Chongqing Jiaotong University, 2021. (in Chinese)
    [32] LEEVY J L, KHOSHGOFTAAR T M, BAUDER R A, et al. A survey on addressing high-class imbalance in big data[J]. Journal of Big Data, 2018, 5(1): 1-30
  • 加载中
图(4) / 表(9)
计量
  • 文章访问数:  535
  • HTML全文浏览量:  333
  • PDF下载量:  34
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-03-29
  • 网络出版日期:  2024-01-18

目录

    /

    返回文章
    返回