近日,《自然》子刊 NPJ Precision Oncology发表了中国科学院大学张正军教授团队等关于一类新型人工智能AI模型和算法并应用到结直肠癌关键基因识别的研究成果。研究发现,由组织样本识别出的4个基因及其交互关系就可以完全识别结直肠癌。这四个基因使用了来自与世界不同地区不同人种不同研究目标共10个队列超过2000病例进行了更为严苛的队列交叉验证。此前,相关文献中对这4个基因的作用有零星报道,但它们的联合作用原理从来没有出现过。
研究人员介绍这类新型AI是集聚类和判别同时作用的新型模型和算法,具备了真正AI所需的演绎推理、归纳推理、溯源推理这三大要素的基本功能,同时建立了生物学意义和识别出来基因的等价性,即建立了不变性。
现在的AI大多是“黑箱”,解释性不高,而且只能满足上面三大要素中的归纳推理一项。而研究使用的新型AI最大特点是其可解释性。
据了解,新型AI算法在理论上可以保证存在和找到最小核心关联基因。因为目标函数是集组合优化、整数规划于一体的非凸非光滑函数,文章提出了一类基于计量经济学模型的三大指数(均值、标准差、夏普率)的新型高维降维方法:求异存同变量帅选法。
进而,研究论文提出了比临床医学随机化实验常用的希尔法则更为严苛的识别关键变量的7条准则。
研究人员表示,在发现的4个基因中,CXCL8/IL8和PSMC2是表达值相对越低要好,SLC20A1是表达值相对越高要好。这三个基因代表了结直肠癌的共性和一致性。
“APP的表达值具有异质性。我们发现这个基因在欧美人、中国人、日本人的表达具有逆向性。这些特征明显为结直肠癌的诊断、检测试剂开发、药物开发和治疗方案提供了一个新的维度的认识和指导。”张正军表示,国内的某些肿瘤医院给病人提供的全基因检测报告里包含了500-600个基因,但并不包含我们发现的这四个基因,这提示医学界在基因组学层面对结直肠癌的认识还不够。
鉴于此,研究人员指出,APP在欧美人与国人的异质性表达尤其需要得到国内医学界的关注,尤其用药需要关注。
张正军表示,目前还未看到有文献发表的有关结直肠癌关联的基因能达到一致性。因此,新型AI必定有广阔的应用场景。我们准备或期望把其嵌入AI的底层模型中,并提出了极大线性回归和极大逻辑回归为新型AI的基本模型。
除了结直肠癌的研究,研究人员还对世界卫生组织发布的患癌人数排名前五(肺癌、乳腺癌、结直肠癌、肝癌、胃癌)的另外4种也做了基因组学研究。
相关论文信息:https://doi.org/10.1038/s41698-024-00512-1