📜  项目理念 |使用关联规则挖掘分析紧急 911 呼叫

📅  最后修改于: 2022-05-13 01:57:40.991000             🧑  作者: Mango

项目理念 |使用关联规则挖掘分析紧急 911 呼叫


介绍
分析紧急呼叫数据集并发现隐藏的趋势和模式将有助于确保应急响应团队能够更好地应对紧急情况。
考虑到道路事故、火灾事故等,特定地区的高数字表明这些地区对救护车服务的需求很高。一些地区的道路事故可能是由于需要改善的道路状况。由于呼吸系统问题而导致的高频率紧急情况可能是由于该特定区域空气中的有害污染物造成的。因此,关联规则挖掘将有助于发现此类模式。

提议的系统
预处理数据集—>关联规则挖掘—>从获得的规则中提取有趣的模式—>验证规则

使用的数据集
用于分析的数据集来自 Kaggle。该数据集包含位于宾夕法尼亚州的蒙哥马利县的紧急 911 呼叫。选择的属性包括:紧急情况类型、时间戳、发生紧急情况的乡镇。

预处理
具有缺失值的行被消除。对于关联规则挖掘,数值必须转换为分类值。因此,时间戳转换为星期几、月份和时间(早上、下午、晚上、晚上)。

关联规则挖掘
关联规则学习是一种基于规则的机器学习方法,用于发现大型数据库中变量之间的有趣关系。它旨在使用一些有趣的度量(支持、信心)来识别在数据库中发现的强规则。

为支持度和置信度选择合适的阈值:
为非常小的数据库设置较高的最低支持,为非常大的数据库设置较低的最低支持。如果将小型数据库的最小支持设置得更高,是为了确保项集是显着的。如果对大型数据库将最小支持设置得较低,是为了确保找到足够的项集。

提升:如果一条规则的提升为 1,则意味着前件发生的概率和后件发生的概率是相互独立的。当两个事件相互独立时,就无法得出涉及这两个事件的规则。如果提升 > 1,这让我们知道这两个事件相互依赖的程度,并使这些规则可能对预测未来数据集中的结果有用。如果一个规则有更高的置信度和更低的提升,直觉上它似乎更有价值,因为它的置信度更高——它似乎更准确(更好的支持)。但规则的准确性可能会产生误导。提升的价值在于它同时考虑了规则的置信度和整个数据集。

获得的规则的结果和验证
设置 1:
{下午,十二月} => {交通:车辆事故}
{十二月,晚上} => {交通:车辆事故}
{十二月,早上} => {交通:车辆事故}
{十二月} => {交通:车辆事故}

这些规则表明,12月很可能会发生很多事故。
在冬季(12 月至 1 月至 2 月),温度分别为 44 °F (7 °C) 和 28 °F (?2 °C)。在冬季,由于全县各地都有冰层,车辆事故的数量很高。根据美国国家公路交通安全管理局 (NHTSA) 的数据,在圣诞节期间,发生了许多涉及酒后驾驶的死亡事件。如果更广泛地使用呼气测醉器,所有这些事故肯定会减少。

第 2 组:
{EMS: ASSAULT VICTIM,Night} => {NORRISTOWN}
{EMS: ASSAULT VICTIM,Evening} => {NORRISTOWN}
{EMS: ASSAULT VICTIM,POTTSTOWN} => {Night}

这些规则表明,波茨敦的诺里斯敦在晚上和晚上可能不安全。
据报道,尽管十多年来总体犯罪率一直在缓慢而稳定地下降,反映了全国趋势,但诺里斯敦在暴力犯罪方面仍然顽固地领先于邻近的蒙哥马利县乡镇。造成这种情况的原因可能是——人口更密集、更不富裕;毒品祸害;快速变化的人口结构带来的挑战。

第 3 组:
{EMS: OVERDOSE,LOWER MERION} => {Night}
{CHELTENHAM,EMS:过量} => {夜}
{EMS: OVERDOSE,Sunday} => {Night}
{EMS: OVERDOSE,Saturday} => {Night}
{EMS: OVERDOSE,Friday} => {Night}
{EMS: OVERDOSE,NORRISTOWN} => {Night}
{EMS: OVERDOSE,POTTSTOWN} => {Night}

这些规则表明,周末晚上的药物过量可能很高,这可能是因为人们在那个时候更有可能参加聚会和吸毒。药物过量的另一个原因是,当医生停止开阿片类药物或这些药物变得过于昂贵时,患者可能会改用相对便宜且容易获得的海洛因。海洛因(药物)是一种阿片类药物——一种降低体内疼痛信号强度的物质。
规则表明,Lower Merion、Cheltenham、Norristown、Pottstown(宾夕法尼亚州的城镇)接到了大量的药物过量紧急呼叫。
宾夕法尼亚州 2015 年全州药物过量死亡率为每 10 万人 26 人,高于 2014 年报告的每 10 万人 21 人的死亡率。根据疾病预防控制中心的数据,2014 年全国药物过量死亡率(最新数据)为每 10 万人 14.7 人。据报道,在过去的一年里,蒙哥马利县的过量用药急剧增加。根据地方检察官办公室提供的信息,该县经历了其历史上最严重的药物过量流行。

第 4 组:
{EMS: CVA/STROKE} => {早上}

规则表明中风很可能发生在早上。
科学研究表明,您在清晨比其他任何时候都更容易中风,而这种增加的风险与身体的自然节律有关。
昼夜节律(存在于人类和大多数其他动物中的昼夜节律是由与生物体环境中的明暗周期和其他线索同步的内部时钟产生的。)似乎在血压、体温、和其他身体功能。在清晨,当血压较高时,中风的风险似乎增加。

第 5 组:
{EMS:发烧} => {夜}
{EMS:发烧} => {早上}
{EMS:发烧} => {晚上}

第一条规则的置信度高于其他两条。
规则中出现这种模式的原因可能是由于:体温通常遵循内置的 24 小时循环。最低点在凌晨 3 点到 6 点之间,然后是下午 4 点到 11 点之间的高峰
两个主要因素调节这个周期:
下丘脑有自己的 24 小时激素分泌模式。
身体在白天所做的事情(心跳、肌肉运动、呼吸)涉及热能的释放,导致您的核心体温随着一天的进行而升温。
这就解释了为什么在正常情况下,您的体温会在一天结束时升高。然而,当你发烧时,这个循环仍然会发生。不同之处在于,现在温度升高更加明显,因为您已经从比正常温度更高的温度开始。

第 6 组:
{ABINGTON,EMS: HEAT EXHAUSTION,Evening} => {August}
{EMS: HEAT EXHAUSTION,Evening,Thursday} => {August}
{下午,EMS:热排气,星期一} => {七月}
{EMS: HEAT EXHAUSTION,Evening,Monday} => {June}
{阿宾顿,EMS:热排放} => {八月}

规则表明,8 月和 6 月的白天,阿宾顿的热衰竭程度很高。
夏季(6 月、7 月、8 月)白天气温飙升,导致热衰竭。教育人们采取热安全措施(不要在烈日下花费太多时间,在清晨或傍晚进行户外工作,穿着轻便、浅色、宽松的衣服,经常在阴凉处休息,保持充足的水分.) 将有助于减少这些紧急情况。

使用的工具
R 和 RStudio
• 关联规则挖掘需要arules 包。
• arulesViz 包对于可视化结果很有用。

应用
该项目对每个国家的应急响应团队都很有用。