科学家提出个性化即时干预方法,能减少18-25岁美国青年的大麻摄入

科学家提出个性化即时干预方法,能减少18-25岁美国青年的大麻摄入
2024年04月12日 19:01 麻省理工科技评论

近日,美国威斯康星麦迪逊大学助理教授郭永祎和合作者提出了一种基于强化学习的个性化即时干预(personalized Just-in-time Adaptive Intervention,pJITAI)方法。

这种方法能被用于数字医疗之中,通过手机 App、调查问卷等灵活的形式,能够以个性化的方式减少 18-25 岁青年的大麻摄入。

实际的临床试验已于 ClinicalTrials.gov 注册(NCT05824754),并已在 2024 年 3 月开始。

在临床试验中,大约 120 名存在吸大麻习惯、想要戒除的青年参与。对其中每个用户,在 30 天的参与时间内,他们将以每天两次的频率决定是否在其手机上显示干预信息,从而帮助 Ta 减少大麻的摄入。

同时,研究人员也会使用调查问卷等方式,同步收集用户的有关信息,以便更好地对不同用户进行个性化的优化决策。

相比强化学习的其他应用场景,在数字医疗领域尤其会面对样本量不足、用户差异性、用户会丧失参与度等实际问题。

基于综合考量,课题组使用 contextual bandit 来给这个问题建模:即在一定时间跨度内的每个决策点,根据之前观察到的数据,来决定是否对用户进行“干预”。

这里干预的具体形式即推送合适的干预信息。这些决策将与每个用户的当前状态和模型参数,来共同决定用户的回报。

研究中,课题组通过与医疗领域专家的交流,共同制定了回报的指标,保证其与大麻摄入减少高度相关。同时,本次研究的目标之一是:最大化用户在一段时间内的累积回报。

这一回报模型的特别之处在于:鉴于有限的用户数量和决策次数,研究人员需要在数据利用效率和考虑用户的差异性之间达成平衡。

具体来说,在模型参数的设计上,他们希望不同用户回报模型中的参数既有所不同、又有共同的部分。

如此一来,在决策过程中针对每一个用户,其他用户的数据能帮助他们快速学习到该用户回报模型中共有的部分。

同时,他们也能特别针对该用户的历史数据学到 Ta 与其他用户的不同之处。

其中,课题组使用混合效应模型来描述不同用户的回报模型。固定效应是用户共同的部分,随机效应是每个用户不同的部分。

针对以上回报模型,该团队使用 Thompson sampling 算法来做自适应决策,在学习用户回报的同时优化决策的质量。

与之前方法不同的是,他们通过采用投影梯度下降、以及经验贝叶斯来更新所学到的模型信息,确保算法在较多参数情况之下仍能自主、稳定地运行。

同时,课题组从之前临床试验的数据中,确定了算法中特定参数的先验分部。

此外,从之前的临床试验中,他们还提取和完善了模拟用户,并基于此建立了多种模拟环境,例如具有不同程度的干预效果、不同程度的用户习惯化等,以用于测试所使用算法的表现。

在各种环境之下,本次算法都能有效识别用户的异质性、以及利用用户的共同点,从而达到优化回报的目的。

与其他算法相比,本次算法在用户异质性较高的情况下尤其能体现出优势。

这在本次成果的应用中非常重要,因为研究表明不同人对成瘾性物质的摄入习惯、以及摄入行为与心理状态的关系具有很大的差异[1]。

研究期间,为了确保临床试验的用户体验,团队中的部分成员还下载和测试了试验期的手机 App,并给出了许多反馈。

例如,他们意识到用户习惯化在实际应用中几乎是不可避免的,单个干预信息对用户的影响几乎都是正的(即能帮助用户减少大麻摄入)。

而过于频繁的干预信息却会让用户对信息变得不敏感,甚至卸载程序。因此,他们在实验中添加了多种用户习惯化场景,并将其作为测试算法表现的重要指标。

图 | 相关论文(来源:arXiv

在临床试验结束后,他们需要对数据进行统计分析,其中最重要的是对干预效果的统计推断,从而验证干预方案的有效性。

相比传统的统计分析,无论对于时间点、还是对于不同用户,本次研究中的数据都不是独立的。所以,需要开发新的统计推断方法,目前他们正在解决这一问题。

参考资料:

Benson, Lizbeth, et al. "Associations between morning affect and later-day smoking urges and behavior." Psychology of Addictive Behaviors (2023)

2.https://arxiv.org/pdf/2402.17739.pdf

运营/排版:何晨龙

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部