如何从单独列的字符串中提取特定代码?

我有以下格式的数据。

Data

Data Sample Excel

我想从“诊断”列中提取代码,并将每个代码粘贴到“诊断”列之后的单独列中。我知道使用正则表达式来匹配它是

[A-TV-Z] [0-9] [0-9AB]。?[0-9A-TV-Z] {0,4}

source: https://www.johndcook.com/blog/2019/05/05/regex_icd_codes/

这些被称为ICD10代码,如Z01.2,E11等表示。上述表达式旨在匹配所有ICD10代码。

但是我不确定如何在python代码中使用此表达式来完成上述任务。

我要解决的问题是?

  1. 计算分配给所有患者的代码总数?
  2. 计数分配的唯一代码总数(由于多个患者可能分配了相同的代码)
  3. 明智地生成数据-即,如果我选择代码Z01.2,我想提取已分配了此代码的患者数据(可能是PATID,移动电话号码或其他任何列或全部)。

提前致谢。