突破时间序列组合推理难题！南加大发布一站式多步推理框架TS-Reasoner_

随着近年来大型语言模型（LLMs）的迅速发展，学术界对将其应用于时间序列分析领域表现出浓厚的兴趣。

时间序列分析在金融、能源管理、气候科学、自然科学和社会科学等众多关键领域中发挥着至关重要的作用，影响着从经济预测到事件检测、从能源调度到气候变化建模等广泛应用。

然而，尽管已有许多模型在特定的时间序列任务上取得了显著成果，现有的方法仍然面临诸多挑战。

首先，大多数模型主要专注于单一任务，如时间序列预测、异常检测或分类，缺乏在多任务环境中的灵活性。现实应用中常常需要多步推理过程，将多个已确立的任务作为中间步骤。

此外，这些模型在上下文推理和多步推理能力方面存在不足。虽然在处理时间模式上表现良好，但难以应对需要结构化多步推理的复杂任务。这种局限性在需要综合多个时间序列信息的复合问题中尤为突出，限制了模型在复杂应用场景中的适用性。

为了应对这些挑战，南加州大学的研究人员提出了一种全新的时间序列推理范式——TS-Reasoner：利用大型语言模型的上下文学习和推理能力，将复杂的时间序列任务分解为结构化的多步推理过程，实现对复杂问题的高效解决。

论文地址：https://arxiv.org/pdf/2410.04047

不同于传统的程序辅助推理系统，TS-Reasoner 支持创建自定义模块，能够适应外部知识和用户指定的约束，具有高度的灵活性和可扩展性。

这种高度的灵活性不仅增强了模型应对复杂时间序列任务的能力，还使其在需要严格约束的领域（如气候建模和投资组合）中表现出色。

此外，TS-Reasoner 的模块化设计使其易于扩展和定制，能够根据不同应用场景集成特定的领域知识和约束条件。这一特性使得模型在金融、能源以及气候监测等领域具有广泛的适用性，进一步提升了其在实际应用中的价值和影响力。

背景与挑战

然而，时间序列分析领域面临着一系列独特的挑战，这使得直接将大型语言模型（如 GPT-4、LLaMA 等）的成功经验应用于处理复杂和复合时间序列推理任务并不现实。

这些挑战包括：

1. 缺乏多步推理能力：现有的时间序列模型主要专注于提高单一任务的性能，如预测、异常检测和分类等。它们通常为特定任务而设计，缺乏处理需要综合多个任务和领域知识的复杂多步骤推理能力，难以满足现实世界中复杂应用的需求。

2. 难以整合领域知识和外部约束：在实际应用中，科学家和工程师需要将领域知识（如物理定律、业务规则）与统计分析相结合。例如，在能源供应预测中，需要基于特定约束优化预测结果。然而，现有模型在整合外部知识和用户指定的约束方面存在局限，限制了其在专业领域中的适用性。

3. 模型的灵活性和可扩展性不足：传统的时间序列模型通常为特定任务和数据结构设计，缺乏在复杂多任务环境中的灵活性。它们难以适应不同领域和多样化的数据特性，无法在多任务、多模态的环境中有效工作。

4. 缺乏端到端的任务执行框架：由于在结构化推理和时间信号的数值计算交叉点上的研究较少，实现端到端的时间序列任务执行仍然面临挑战。现有方法往往需要跨学科专家的协作，流程繁琐，耗时长，且中间任务通常是独立优化的，导致效率低下。

5. 对复杂复合任务的适用性有限：现有模型在处理需要结构化多步推理的复杂任务时表现不佳，无法充分利用大型语言模型的上下文学习和推理能力。这种局限性在需要综合多个时间序列信息的复合问题中尤为突出，限制了模型在复杂应用场景中的表现。

模型创新

为了解决上述问题，本文提出了一种新的多步推理框架——TS-Reasoner。该框架结合了大型语言模型（LLMs）的上下文学习能力与推理能力，能够实现对复杂任务的结构化分解以及多步推理。TS-Reasoner通过将复杂的推理任务分解为多个可执行的步骤，并利用预定义的程序模块和用户自定义模块来逐步解决这些任务。

TS-Reasoner模型通过以下几个方面的创新来应对时间序列推理的挑战：

1. 程序化多步推理

传统的时间序列模型通常专注于单一任务推理，难以应对复杂的多任务推理问题。TS-Reasoner通过引入程序化的多步推理，利用LLMs生成的程序来对复杂任务进行分解，并调用时间序列模型与数值方法模块来执行每一步的推理任务。这种方法能够将结构化的推理步骤与时间序列数据的数值计算结合起来，有效提高模型在复杂任务中的表现。

2. 模块化设计

TS-Reasoner框架内置了多个用于时间序列分析的模块，包括趋势检测、波动性检测、预测等。这些模块通过预先训练的时间序列模型和数值方法进行操作，确保任务分解后的每个步骤能够高效执行。此外，TS-Reasoner还允许用户生成自定义模块，以适应外部知识或用户特定的约束需求，极大提升了系统的灵活性和适应性。

3. 自定义模块生成

为了处理用户在复杂推理任务中的特定需求，TS-Reasoner提供了一个自定义模块生成功能。该功能基于LLMs解析用户输入的自然语言要求，将其转化为可执行的代码模块。这些自定义模块能够无缝整合到推理流程中，使得系统能够根据不同领域的外部知识（如物理定律或领域规则）进行调整，满足多样化的任务需求。

4. 多领域数据集与综合评估

为了验证TS-Reasoner的有效性，本文在金融和能源领域构建了多个新数据集，并设置了一系列复杂的推理任务。这些任务涉及金融决策、时间序列预测、因果关系挖掘等。实验结果表明，TS-Reasoner在多个评估指标上都优于现有的先进方法，尤其在多步推理任务中展现了显著的优势。

模型架构与实现

图1：TS-Reasoner的总体架构。大型语言模型（LLM）作为任务分解器，通过学习上下文中的示例来将任务实例分解为程序。然后，程序执行器将调用我们工具箱中的模块，按给定顺序运行相关程序以获得最终结果

TS-Reasoner的模型架构设计围绕程序化多步推理展开，其核心理念是通过将复杂的时间序列任务分解为多个子任务，并逐步调用相应的模型和程序模块来执行每一步的推理任务。架构整体由大型语言模型（LLM）进行任务分解，结合专门设计的时间序列模型模块和数值方法模块，确保复杂推理任务能够被高效处理。

TS-Reasoner的核心架构由三个主要模块组成：时间序列模型模块、数值方法模块和自定义模块生成器。

1. 时间序列模型模块：此模块主要负责时间序列数据的基本处理和分析任务，如预测、趋势分析、异常检测等。这些操作基于预先训练的时间序列模型来完成，能够保证较高的预测精度。每个任务都会调用适当的模型模块以执行特定的推理步骤，例如使用预测模型处理未来时间点的预测，或者调用异常检测模型识别数据中的异常点。

2. 数值方法模块：该模块负责对数据进行定量操作，如波动性计算、趋势检测和统计分析。通过这一模块，模型能够执行定量的时间序列分析任务，使得时间序列动态变化能够被充分理解和表达。此模块对复杂的数值推理任务至关重要，尤其是在多步骤推理中，它能将时间序列数据转化为具体的数值输出，供下一个推理步骤使用。

3. 自定义模块生成器：在遇到用户提供的特定约束或外部知识时，TS-Reasoner会调用自定义模块生成器。该模块基于LLM解析用户的自然语言输入，生成对应的代码模块，将这些个性化的约束和需求转化为可以执行的程序。这一模块赋予了模型较强的灵活性，确保模型可以适应多样化的任务需求。

TS-Reasoner的实现依赖于任务分解和模块化的任务执行。通过LLM的上下文学习能力，模型能够将复杂的任务分解为若干独立的程序步骤。每一步都会调用一个预定义的模块来处理特定的推理任务。整个流程遵循“分解—执行—合成”的逻辑，确保推理任务能够被逐步解决。

1. 任务分解：模型首先通过LLM对输入的自然语言任务进行解析，生成相应的推理步骤。这些步骤以伪代码的形式表示，包括预测、优化、波动检测等操作。然后，模型调用预定义的模块或生成自定义模块来执行这些任务。

2. 模块执行：在推理过程中，每一个推理步骤都会被转化为实际的程序代码，模型根据任务要求执行这些代码。每个模块处理完任务后，输出会作为下一步的输入，依次传递，直至最终任务完成。

3. 约束与自定义模块的整合：对于带有复杂约束的任务，TS-Reasoner能够利用自定义模块生成器，将用户的约束条件转化为代码，并在推理过程中动态调用这些模块。这一实现确保了模型可以根据外部知识或领域规则进行推理，如考虑金融市场的风险控制或能源系统的负载管理。

实验验证与结果分析

为了验证TS-Reasoner的有效性，本文进行了大量的实验，并将其与基于思维链推理的基线模型（如Chain-of-Thought (CoT) 和 CoT + code）进行了对比分析。

在金融决策任务上，TS-Reasoner展现了卓越的表现，尤其是在风险容忍度（Risk Tolerance）和预算分配（Budget Allocation）任务中（见表1）。

表1：TS-Reasoner在决策制定上相较于其他基线模型的成功率和性能。SR代表成功率；AAP代表绝对平均利润。RAP是相对平均利润。在利润百分比和预算分配任务中，我们的目标是提高利润。因此，预期RAP为正值。在风险容忍度任务中，模型需要首先确保风险并最小化利润的减少。因此，预期RAP为负值，但绝对值较低。粗体表示最佳结果

实验结果表明，TS-Reasoner在严格成功率（Success Rate）和相对平均利润（RAP）上显著优于其他模型。

例如，在风险容忍度任务中，TS-Reasoner达到了96%的成功率，并且在控制风险的同时，表现出较低的相对利润损失，而CoT和CoT + code模型的表现远逊于TS-Reasoner，完全无法有效应对风险控制场景。

在预算分配任务中，TS-Reasoner同样表现出色，在保持预算限制的同时实现了正的相对利润，进一步证明了该方法在应对复杂约束条件下的强大能力。

图2：评估TS-Reasoner的框架。在我们的框架当中，任务生成器从指令-程序对中采样指令与对应的测试程序。然后TS-Reasoner根据指令与数据给出回复。最后，一个通用测试框架根据测试程序根据对应的测试程序评估结果

在组合问题问答（Compositional Question Answering）任务中，TS-Reasoner再次超越了其他基线模型（见表2）。随着任务复杂性的增加，TS-Reasoner的优势愈加明显。在涉及能源负载预测的多步推理任务中，TS-Reasoner不仅实现了较高的成功率，还在预测误差（MAPE）上大幅降低了计算误差。在最大负载和最小负载约束下，TS-Reasoner的成功率分别达到了97.83%和97.87%，相比CoT和CoT + code模型的成功率大幅提高，展现了卓越的多步推理能力。

表2：在组合问题回答（compositional QA）上，我们模型相对于其他基线模型的整体成功率和性能。SR代表成功率；MAPE代表平均绝对百分比误差。粗体表示最佳结果。

在因果关系挖掘（Causal Relationship Recognition）任务中，TS-Reasoner也展现了较强的推理能力（见图3）。尽管该任务难度较大，各模型的表现均不尽如人意，但TS-Reasoner在所有测试指标上仍然略胜一筹。在因果关系分类准确率（CRA）和因果图准确率（CGA）上，TS-Reasoner分别实现了相对较高的成功率，进一步证明了其在复杂因果推理任务中的潜力。

此外，本文对错误类型进行了详细分析，揭示了TS-Reasoner在应对时间序列任务中的优势（见图4）。通过引入程序辅助的推理机制，TS-Reasoner大幅降低了数值计算中的错误率，而CoT和CoT + code模型在执行代码时常常会引发执行错误，这表明TS-Reasoner的模块化设计提高了任务执行的稳健性和可靠性。

图4：在因果关系识别上，TS-Reasoner相对于其他基线模型的整体成功率和性能

图5：在最小负载下能源功率问题回答中不同方法的错误分布

在这些实验中，TS-Reasoner模型在多个任务上都取得了突出的结果，表现出极高的泛化能力和适应性。

1. 时序预测任务：在股票价格预测和波动性预测任务中，TS-Reasoner实现了较高的成功率。例如，在股票未来价格预测任务中，TS-Reasoner实现了100%的成功率，并且在误差评估指标（如MAPE）上显著优于基线模型，证明了其在处理时间序列预测任务上的卓越性能。

2. 金融决策任务：在金融投资决策任务中，TS-Reasoner展现了强大的表现，尤其是在风险容忍度和预算分配任务中。相比于CoT和CoT + code模型，TS-Reasoner在严格的约束下依然能保持较高的相对平均利润（RAP）和成功率（SR）。例如，在风险容忍度任务中，TS-Reasoner实现了96%的成功率，并有效控制了风险，同时保持较低的利润损失，展现了其在复杂决策任务中的稳健性。

3. 组合问题问答任务：对于能源预测任务，TS-Reasoner在满足复杂数据约束（如最大负载、最小负载和负载变动率限制）时表现优异。相比于CoT和CoT + code模型，TS-Reasoner在满足这些外部约束的情况下，仍然保持了较低的误差和较高的成功率，显示了其强大的定制模块生成和外部知识整合能力。

4. 因果关系挖掘任务：在多变量时间序列的因果关系挖掘任务中，TS-Reasoner同样展现了出色的表现。尽管该任务难度较大，但TS-Reasoner在因果关系识别任务中表现优于其他模型，展现了其在复杂因果推理中的潜力。

总体而言，实验结果表明，TS-Reasoner在处理复杂的多步推理任务时具有显著的优势，尤其是在金融决策、能源预测和因果推理等场景下，展现了强大的任务分解和约束满足能力。这些结果为未来的多步推理和组合推理研究提供了有力的支持。

模型优势与局限

TS-Reasoner模型的主要优势在于其强大的多步推理能力和灵活的模块化设计。与传统的时间序列模型不同，TS-Reasoner不仅能够处理预测、分类、异常检测等单步任务，还可以通过程序辅助的推理框架，灵活地将复杂任务分解为多个步骤。

它能够结合外部知识和用户自定义的约束条件，使其在金融决策、能源负载预测等复杂场景中表现出卓越的适应性和灵活性。此外，TS-Reasoner在面对不确定性和复杂因果关系挖掘时，通过自定义模块生成的机制，可以有效处理外部信息，提升推理的精确度和稳定性。

实验结果表明，TS-Reasoner在处理决策、组合问题问答和因果关系挖掘等任务时，成功率和误差评估指标显著优于现有的最先进模型。

同时，TS-Reasoner能够在复杂约束条件下保持较低的计算误差，显示出其在应对多维度、多约束任务中的强大鲁棒性。

然而，TS-Reasoner也存在一定的局限性。

首先，尽管模型能够有效处理多步推理任务，但在面对超长推理链时，任务分解的精度和模块执行的效率仍有提升空间。随着任务复杂度的增加，模块化设计可能导致子任务之间的依赖关系增加，从而影响整体推理速度。

其次，TS-Reasoner虽然在合成时间序列推理任务上表现良好，但在极端数据稀缺或噪声数据较多的环境下，其模型鲁棒性仍需进一步验证。

最后，虽然TS-Reasoner能够通过自定义模块生成处理外部约束，但不同类型的外部知识（例如不同领域的领域知识）对模型性能的具体影响还需要更多的实证研究和验证。

总的来说，TS-Reasoner在多步推理和复杂时间序列任务中展现了强大的能力，但在应对极端数据情况和推理链长度优化方面，仍有提升空间。

未来工作展望

未来的工作可以从以下几个方向进一步提升TS-Reasoner的能力：

1. 推理链长度优化：未来的研究可以致力于提高TS-Reasoner在处理更长推理链上的能力，尤其是在面对多步推理和复杂问题分解的场景中。优化模型在分解复杂任务时的效率和准确性，将有助于解决更大规模的任务链，并提升任务执行的速度与精度。

2. 多领域知识融合：研究如何更有效地整合来自不同领域的外部知识，如医学、气候科学等，通过进一步开发自定义模块生成机制，使得TS-Reasoner能够在多领域、多任务中保持高效的推理表现。这将有助于提升模型在多模态推理和复杂场景下的应用潜力。

3. 鲁棒性提升：未来工作还应关注如何提升TS-Reasoner在面对噪声数据或稀缺数据时的鲁棒性。在真实世界的应用场景中，时间序列数据往往存在较高的噪声或不完整，研究如何使模型在这些极端条件下依然保持高精度推理，将是重要的发展方向。

4. 跨任务泛化能力：进一步探索TS-Reasoner在跨任务泛化能力上的提升，使其能够在未见过的任务类型或数据上依然保持良好的推理能力。研究如何让模型在面对不同任务时高效适应，将有助于其在多任务环境中的应用，如金融决策、能源管理等复杂领域。

5. 多模态数据集成：未来还可以研究如何将TS-Reasoner扩展至多模态数据领域，结合如图像、文本等非时间序列数据，从而使其能够在更广泛的应用场景中得到应用。这将进一步提升TS-Reasoner在多任务、多数据源推理中的表现能力。

总之，未来的工作可以围绕推理链优化、多领域知识融合、模型鲁棒性以及多模态数据集成等方向进行探索，以进一步提升TS-Reasoner在复杂时间序列推理任务中的应用潜力和广泛适应性。

结论

本文提出的TS-Reasoner模型通过结合大型语言模型（LLMs）与程序辅助的多步推理框架，为时间序列推理任务提供了一种新颖且有效的解决方案。

与传统的时间序列模型不同，TS-Reasoner不仅能够处理单一的预测和分类任务，还具备强大的多步推理能力，可以灵活地分解复杂任务，并结合外部知识与自定义约束来优化推理过程。模型的模块化设计使其在金融决策、能源负载预测和因果关系挖掘等复杂场景中表现出色。

实验结果表明，TS-Reasoner在多个时间序列任务中优于现有的最先进模型，特别是在多任务推理和复杂决策任务中展示了出色的成功率和预测精度。其在处理带有外部约束的复杂时间序列数据时表现尤为优异，进一步验证了其灵活性和鲁棒性。

总的来说，TS-Reasoner为复杂时间序列推理任务提供了一种创新的解决方案，展示了其在广泛应用场景中的潜力。未来的研究可以进一步提升模型在处理更长推理链、跨领域知识融合以及多模态数据集成方面的能力，使其在更多的实际应用中发挥作用

头条号入驻

新智元智能+中国主平台领航中国新智能时

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

突破时间序列组合推理难题！南加大发布一站式多步推理框架TS-Reasoner

头条号入驻

长视频理解迎来新纪元！

图像伪造照妖镜！北大发布多模态LLM图像篡改检测定位框架FakeShield

Meta最新AI研究——CoTracker3…

财经自媒体联盟更多自媒体作者

热文排行榜