自2023年5月发布SoulChat以来,华南理工大学数字孪生人实验室经过对真实世界心理咨询语言风格、心理咨询技术等方面的深入探索,在心理咨询师数字孪生建模能力上取得了显著提升。
ChatGPT诞生以来,国内外已有大量的工作将大模型(LLM)应用于情感陪护、心理健康支持对话、心理咨询对话领域,例如SoulChat、MeChat、QiaoBan、CPsyCoun、MindChat、EmoLLM等等。然而,过往的工作聚焦于借助精心设计的提示词来构建多轮心理健康对话数据集,微调出的“心理健康大模型”很容易造成回答的同质化、模板化,使得这些LLMs难以应对复杂多变的来访者,无法很好模拟现实世界真实心理咨询师的语言表达与疗法技术运用风格。
针对上述问题,华南理工大学未来技术学院-广东省数字孪生人重点实验室在灵心大模型(SoulChat1.0)基础上,推出了心理咨询师数字孪生大模型SoulChat2.0。SoulChat2.0首次定义了特定心理咨询师的数字孪生(PsyDT, Psychological consultant Digital Twin)任务:
也就是,给定特定心理咨询师的N个咨询案例CN(如图 3所示),心理咨询技术知识库KBthe.,以及用于辅助构建数据集的单轮对话咨询数据库Dst,任务要求建立一个可以模拟该咨询师语言风格与咨询技术的模型fLLM(*)。
一、研究内容
如图 1所示,心理咨询师数字孪生大模型SoulChat2.0包含2个部分:(1)心理咨询师数字孪生数据生成;(2)心理咨询师数字孪生建模。
图 1心理咨询师数字孪生数据生成框架
(1)心理咨询师数字孪生数据生成
要实现特定的心理咨询师的数字孪生,前提是能获取该心理咨询师的大量咨询案例,但是这对于心理咨询师个体而言,难度极大。一方面,需要考虑心理咨询的伦理要求和隐私保护,另一方面,数据的采集也非常繁琐。为此,有必要建立一种仅需少量咨询案例的心理咨询师数字孪生数据生成框架。如图 3所示,心理咨询师的每个咨询案例都体现了本人的语言风格与咨询技术应用方式,这可以借助于现有的先进的LLMs的语言总结能力去提取。如图 2所示,为GPT-4对于心理咨询师的“人际关系”话题的真实咨询案例进行语言风格特点提取的结果。另一方面,可以通过心理咨询师的多个咨询案例归纳该心理咨询师偏向的咨询疗法技术流派(本项目实验当中的心理咨询师咨询流派偏向为“理情行为疗法”),并从心理咨询技术知识库KBthe.当中查询该咨询技术的知识与策略(Therapeutic Strategy),以指导数据生成,提升其中的疗法专业性。同时,为了保证生成的数据当中来访者的多样性与真实性,需要尽可能建模用户的个性特质,我们以常用的大五人格为参考,对单轮对话咨询数据库中的来访者进行了大五人格分析。最后,通过综合真实世界咨询师的语言风格、咨询技术、来访者大五人格,结合真实世界咨询案例,对于单轮对话进行心理咨询师数字孪生数据生成。采取我们的框架生成的多轮对话数据,能有效表征特定心理咨询师的语言风格与咨询技术应用方式。为了综合考虑成本与效果,我们设定了用于心理咨询师数字孪生数据生成的单轮对话咨询数据库的规模为5000个,特定心理咨询师的咨询案例数目设定为12个(为保证低成本,一般不多于20个)。最终,只需要给定任意心理咨询师的少量咨询案例,我们的框架即可快速生成批量用于该心理咨询师数字孪生建模的咨询案例。在本项目当中,对真实心理咨询师进行数字孪生生成的多轮对话数据的总轮次为90365轮,平均每个对话样本18轮。
图 2 GPT-4对真实咨询案例的语言风格特点概括示例(话题:人际关系)
图 3 特定心理咨询师的真实咨询案例片段截取(话题:人际关系)
我们对不同的数据构建方法生成的数据进行人工评估发现,相比于Smile和SoulChat1.0,SoulChat2.0提出的数据生成方法(PsyDT_Prompt),几乎在所有话题上都能很好地构建高质量的数字孪生数据。
图 4不同的数据生成方法构建的数据与给定咨询师案例的咨询技术一致性比较
同时,我们在表 1所示谈话技术(提问探询、反馈与总结、问题解决和指导)、状态与态度(开放性和价值中立、情感控制)、关系建立、疗法技术应用4个专业维度上对SMILECHAT、SoulChatCorpus、CPsyCounD以及我们建立的PsyDTCorpus进行了对话整体级别的人工评估比较,结果见图 4。PsyDTCorpus相对于其他几个数据集,在谈话技术、状态与态度、关系建立、疗法技术这四个方面均有明显的提升,这表明利用真实世界心理咨询师的少量咨询案例来诱导构建高质量的多轮心理健康对话数据是可行的。
表 1 专业性评估指标
图5 不同数据集中的咨询师回复的专业性分析
(2)心理咨询师数字孪生建模
给定用于心理咨询师数字孪生建模的咨询案例数据,可以通过微调来实现对该咨询师的数字孪生。为了方便研究社区进行对比和复现,我们选用Llama3-8B-Instruct作为基座模型,在PsyDTCorpus的训练集上进行全量微调3个epoches。并且与ChatGPT、GPT-4为代表的闭源模型,Baichuan2-7B-Chat 、GLM4-9B-Chat、Meta-Llama3-8B-Instruct等7个模型为代表的开源模型,以及MeChat、PsyChat、SoulChat1.0、MindChat、EmoLLM、CPsyCounX 6个心理健康领域的大模型在PsyDTCorpus的测试集进行自动化对比分析。特别地,我们对MeChat、PsyChat、SoulChat1.0、MindChat、EmoLLM、CPsyCounX以及所提出的SoulChat2.0在谈话技术、状态与态度、情感共情、认知共情、安全性五个维度进行轮次的对比评估。这7个心理健康大模型在安全性维度上都获得了很高的评分,表明了这些经过微调的领域大模型在安全维度上已经很好地对齐人类目标。但是,在认知共情、会话技术、状态与态度三个维度上,SoulChat2.0相对于其他模型均有较大幅度的提升。这表明了通过心理咨询师数字孪生建模的方式,能很好地提升LLMs的真实心理咨询性能。
图 6 SoulChat2.0的应用示例
二、总结与展望
SoulChat2.0的推出,将为心理健康大模型领域带来新的研究思路:通过少量的真实咨询案例去进行心理咨询师数字孪生建模的方式,可以低成本、快速、高效地构建拥有特定心理咨询师语言风格与疗法技术的心理健康大模型,在谈话技术、状态与态度、情感共情、认知共情方面均有显著的性能提升,能很好地辅助真实世界心理咨询师展开心理咨询工作,例如执行这些咨询师的前置谈话,二十四小时的在线服务等等。
该项研究的大模型与微调数据已经全面在Github和ModelScope开源。
实验室合作:华南理工大学 邢晓芬老师
作者:陈艺荣