AFAC2025冠军方案解析金融领域中的长思维链压缩

8月27日, 在 上海市科学技术委员会指导 下,由北京大学、清华大学、复旦大学、 香港大学、 蚂蚁集团等近30家海内外顶级院校、头部企业、孵化器等机构联合发起 的 AFAC2025金融智能创新大赛总决赛路演圆满结束 。

自6月3日正式启动以来, 大赛吸引了 来自世界各地的近5000支队伍 、约1.5万名选手参与,经过层层遴选,最终诞生了 冠亚季军队伍,本文将分享冠军方案思路。

关于作者

大家好 ! 我是 AFAC2025挑战组-赛题三:金融领域中的长思维链压缩 的冠军—— 刘吉强 ,来自 东北大学, 我 在研究生阶段的 研究 方向 就是大模型及思维链 。 非常幸运的拿下了这个赛题的冠军, 这不仅是对我们过去一段时间努力的肯定,更是一个宝贵的学习和成长机会。 同时 我 也 非常高兴能将我们在参赛过程中的经验、思考与收获,与各位一同分享 , 如有不足之处还请多多交流指教,共同进步!

感谢 AFAC2025组委会 提供这次宝贵的竞赛机会,以及所有为比赛提供支持和帮助的团队成员和其他合作伙伴。

赛题背景

金融领域的复杂推理任务需要模型执行多步严谨的逻辑推理,综合运用法律、财务、经济等多学科知识。当前大型语言模型虽然具备较强的推理能力,但往往依赖冗长的思维链来保证准确性,导致计算资源消耗大、响应延迟高 。那么 如何在不降低推理准确性的前提下,优化模型推理路径,高效压缩冗余内容,从而降低资源成本、提升执行效率 呢, 因此该赛题孕育而出,

赛题分析

比赛数据 为 金融领域相关推理问题,问题满足以下条件:

1、 问题数量:隐藏测试集100条,公开测试集100条

2、 问题难度:比赛指定的 Qwen3-4B 模型 上 能够在Bo5设置上正确回答。

4、 问题上下文:问题描述中包含解决问题所需要的额外金融知识,包括背景知识,必要概念定义,相应计算规则,具体数据等。确保问题长度不超过2k token 。

5、 问题答案:保证问题拥有明确的唯一答案,能够基于规则客观评估正确性。答案不出现在问题当中,并且难以被随机方法猜测出。

6、 问题种类:金融领域常见类型推理问题,包括表格推理,计算推理,逻辑推理等。

评分规则:

最终以模型在隐藏数据集上的表现作为模型的最终表现。最终评分来源于准确性和高效性两个方面

1) 准确性:方法通过的最低标准为准确率90%。

2) 高效性:对每个问题取正确回答sample中的最短模型原始回复长度作为该问题的cot长度。对于没有正确回答的问题,该问题的cot长度为预设的最大值 12k 。

3) cot可读性(决赛阶段):评估模型cot部分的质量,维度包括结构性,事实性等。

最终方法得分为所有问题cot长度的总和的相反数。

因此我们需要在保证准确率的前提下尽可能的压缩 Qwen3-4B 推理思维链的token。

具体方案

由于仅依赖提示词方法以4B的基础知识能力有部分题哪怕如何思考都无法给出正确答案,因此需要进行蒸馏,而A榜测试集仅100条,直接微调必然会导致强烈过拟合,而对未见的隐藏B榜测试集泛化能力极差,因此显而易见的需要进行数据增强。由此我们提出了基于多阶段压缩与自一致性偏置解码的思维链优化方案。

4.1 整体框架

AFAC2025冠军方案解析金融领域中的长思维链压缩-2

主要 通过数据增强、多阶段压缩 、高效微调和 推理优化 四个 环节,实现了思维链的高效压缩 。

4.2 数据增强

我做 了两步走的数据增强,第一步是通过self-instruct利用大模型自身高效自动化的进行数据生成,首先是把100条测试集作为种子数据放入到数据池中,然后在数据池中随机选择k条数据作为示例,以上下文学习的范式让大模型去生成类似的数据样本,然后再通过ROUGE-L对相似样本进行去重并且通过长度过滤低质量的数据,然后把过滤后的样本添加到我们的数据池,然后再循环往复直到达到我们设定的数据量 。

AFAC2025冠军方案解析金融领域中的长思维链压缩-3

然后第二步的数据增强则是寻找开源的 金融领域的 benchmark数据集,这种 用来评测模型性能的 榜单数据质量肯定比自己合成的要高很多,这里我们找了三个不同的Benchmark,然后通过python和正则表达式将这三份不同数据规范的数据转换成统一格式,而且值得注意的是,FinEval中的验证集已经 为每个答案 提供了 一个 高质量的思维链 解释 ,且平均长度仅为66,这个长度也为我们之后思维链到底要压缩到什么程度提供了一个参考标准 。

4.3 多阶段压缩

token-budget

AFAC2025冠军方案解析金融领域中的长思维链压缩-4

简单来说就是通过对每个问题给出最优的能够解决该问题的Token预算来实现思维链压缩,问题来了,怎么得到这个token-budget预算呢,论文给出的方法是使用二分,比如我们一开始的思维链长度是1024,那提示词就是思考不超过512个token,如果能解决,就继续往下,256,128,时间复杂度是O(logn),完全能接受,然后得到了最好的token预算,则加入到提示词中进行第一阶段的思维链压缩

Token-skip

AFAC2025冠军方案解析金融领域中的长思维链压缩-5

我们将上一阶段token-budget得到的初步压缩后的思维链再通过Token-skip这个方法进行第二阶段的压缩,具体来说通过一个训练的评估器对每个Token进行重要性评分,修剪不重要的冗余Token来实现第二阶段的压缩,值得注意的是,基于压缩后的思维链通过扩写能够进行还原,表明该过程信息损失较小,也就是说压缩后的思维链是高质量的具有可解释性的。并不是说随便裁剪,剪的语义都不通顺了,是可以进行一个还原操作的。

Latent space reasoning

AFAC2025冠军方案解析金融领域中的长思维链压缩-6

然后是第三阶段的思维链压缩,通过Latent space reasoning对第二阶段的进行一个总结,这是压缩效率最高的一个方法,与传统的显式思维链不同,潜空间推理是在模型内部的高维隐藏层中的状态中展开的 ,尽管同样在思考但无需显式思维链token。

4.4 高效微调

然后是高效微调部分,我们把构建好的经过三阶段压缩的数据集去LoRA微调Qwen3-4B,选择LoRA而不是全参的原因有两个,一是防止过拟合,保证B榜有更好的泛化性。二是效率高,几个小时就能微调完,这样就能通过不断的调参lora_rank,lora_alpha,learning_rate等等,选择一个较好的模型然后去刷榜

4.5 推理优化

恰好赛题要求了Bo5且 对每个问题取正确回答sample中的最短模型原始回复长度作为该问题的cot长度 ,因此利用self-consistency方法去随机混合不同的Temperature和Prompt进行交叉推理,保证答案的准确性。此外,我们在推理阶段还通过Logit_Bias进行底层干预,直接修改模型预测的原始logits分数,这样就可以在推理阶段抑制某些Token,尤其是符号类,比如换行符等等,进一步压缩思维链长度。

总结

我们提出的多阶段压缩与自一致性偏置解码框架,在金融领域长思维链压缩任务中表现出色。该方法不仅适用于金融领域,还具有向法律、医疗、工程等高精度需求场景迁移的潜力。代码已经开源在https://github.com/liuliAI/AFAC2025-Challenge-Compression-of-Long-Thinking-Chains-in-the-Financial-Field-Gold-Medal-Solution。

当然我们的方案还有很多不足之处,例如探索更精细的Token重要性评估方法,通过训练获得潜空间推理能力而不是基于提示词,扩展应用到多模态金融推理任务,研究更高效的参数微调策略等等。而且技术是不断发展的,迭代更新特别迅速,例如在比赛结束后,我又刷到了两篇比较高质量的关于思维链压缩的paper,分别是8.5 港中文提出Step Entropy,通过修剪低熵步骤将Token数量减少了40%左右。8.13 微软提出GFPO,基于GRPO的改进,将推理思考的冗长响应缩减了80%。不得不感慨一下 算法这个东西就得一直去follow前沿技术,学无止境。

参考文献

[1]. Wang Y, Kordi Y, Mishra S, et al. Self-instruct: Aligning language models with self-generated instructions[J]. arXiv preprint arXiv:2212.10560, 2022.

[2] Han T, Wang Z, Fang C, et al. Token-budget-aware llm reasoning[J]. arXiv preprint arXiv:2412.18547, 2024.

[3] Xia H, Leong C T, Wang W, et al. Tokenskip: Controllable chain-of-thought compression in llms[J]. arXiv preprint arXiv:2502.12067, 2025.

[4] Zhu R J, Peng T, Cheng T, et al. A survey on latent reasoning[J]. arXiv preprint arXiv:2507.06203, 2025.

[5] Hao S, Sukhbaatar S, Su D J, et al. Training large language models to reason in a continuous latent space[J]. arXiv preprint arXiv:2412.06769, 2024.

[6] Hu E J, Shen Y, Wallis P, et al. Lora: Low-rank adaptation of large language models[J]. ICLR, 2022, 1(2): 3.

[7] Wang X, Wei J, Schuurmans D, et al. Self-consistency improves chain of thought reasoning in language models[J]. arXiv preprint arXiv:2203.11171, 2022.

[ 8 ] Li Z et al. Compressing Chain-of-Thought in LLMs via Step Entropy[J]. arXiv preprint arXiv:2508.03346, 2025.

[ 9 ] Shrivastava V, et al. Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning[J]. arXiv 2508.09726, 2025.

THE END
分享
二维码
< <上一篇
下一篇>>