国家社科基金立项门类与本课题归属示意图
图 1 社科立项门类与本课题归属说明

时间:2025.10 - 至今 | 项目:国家社科基金一般项目 | 角色:ERP沙盘杜邦分析验证 / 智能体架构设计

国家社科基金课题:杜邦分析验证与智能体工程方案

本页整理我在国家社科基金一般项目"人工智能大模型的可持续发展能力评估与提升路径研究"中的两项核心工作。 第一项是ERP沙盘场景中的杜邦分析适用性验证——基于老师提供的横跨8年、115支队伍的校内沙盘数据,系统论证传统财务指标能否作为智能决策训练的参考信号。 第二项是面向智能体决策的沙盘重构工程方案——设计多Agent协同架构(商分/PSS/EPSS/决策/选单五大角色),制定ERPAI接入协议,规划从规则引擎化到人机混合对抗的完整平台路线。

在课题研讨会中,参会的校友高管(化工、机械制造等行业)对AI决策的可解释性、责任归因与真实商业环境复杂度提出了坦诚而深刻的顾虑。 这些一线反馈让我认识到:从校园沙盘智能体到企业级落地,中间隔着规则引擎化、多Agent协同、状态机验证、人机混合对抗等大量工程工作,需要课题组长期、持续的团队投入。 这也恰恰说明,一个真正有价值的研究课题,其落地过程本身就是一场对工程能力、团队协作与学术耐心的综合考验。

下面两份组会报告分别对应上述两项工作。前者以数据验证识别训练信号的边界,后者以系统架构设计支撑智能决策的工程实现——两者共同构成我从数据分析到系统设计的完整参与链条。

关键词:ERP沙盘、杜邦分析、百树规则、多智能体、ERPAI协议 研究定位:数据分析验证 + 智能体系统架构设计

课题组组会报告原文

以下两份 PDF 为本人参与国家社科基金课题组期间提交的正式组会报告原文。 第一份是 2026 年 4 月第 4 周 提交的面向智能体决策的沙盘重构工程方案书; 第二份是杜邦分析适用性验证的完整研究报告。 虽然本人在本科阶段尚未发表学术论文,但这两份组会报告体现了真实的科研参与经历—— 从数据验证到系统架构设计,从文献综述到工程方案撰写,完整经历了课题研究的多个环节。

报告一:面向智能体决策的沙盘重构工程方案书(2026/04/week4)

报告二:ERP沙盘杜邦分析适用性验证

报告一:ERP沙盘场景中的杜邦分析适用性验证

在国家社科基金一般项目中,ERP沙盘数据分析是支撑智能决策研究的基础环节之一。 本人在项目中的工作重点不是直接开发智能体产品,而是去论证一个更前置的问题: 传统财务指标(杜邦指标)是否具备作为训练参考量的稳定价值。 该课题属于社科类研究,对电子信息本科背景而言是一次跨专业切换。 有一个客观条件是,父母均为商科本科背景且长期从事外贸相关工作,家庭讨论中常涉及成本、现金流与风险控制,这也让我面对商科议题时并不发怵。

研究问题

在 ERP 沙盘竞赛中,杜邦分析能否同时用于排名提升与破产风险控制(主要考虑其相关性),并作为策略指导工具。

数据范围

统计样本为 115 支队伍、30 场比赛,分析数据由老师提供,是从2018年到2022年的校内沙盘模拟赛、热身赛等学生操作的详细数据。

验证性质

这是课题中的指标验证步骤,目标是识别可用信号与无效信号,而非单纯成败判断。

输出价值

核心价值是识别此分析方法的有效性,避免后续传统算法或智能算法继续把杜邦指标当作主驱动信号。

研究背景与课题定位

该验证工作属于课题中的前置数据分析环节,目标不是开发智能体产品,而是回答一个更基础的问题: 当后续团队准备用机器学习或强化学习训练智能决策模型时,杜邦指标是否可以作为可靠的训练信号? 如果信号本身不稳定,那么无论算法多么先进,训练方向都可能发生系统性偏移。

数据样本覆盖 2018—2022 年校内沙盘模拟赛与热身赛,共 115 支队伍、30 场比赛的完整经营记录。 分析采用相关性检验、分组对比与分层建模三种方法,从全样本、ROE 分组、破产/未破产分层、局部未破产子样本四个角度逐层深入。

杜邦框架与ERP沙盘规则差异

传统杜邦分析以 ROE = 净利率 × 总资产周转率 × 权益乘数 为核心, 偏向衡量单期相对收益率;而 ERP 沙盘采用百树规则,核心目标是累积财富与综合发展潜力。

杜邦框架:ROE = 净利率 × 总资产周转率 × 权益乘数
ERP沙盘规则:总成绩 = 所有者权益 × (1 + 企业综合发展潜力/100)
对比维度 传统杜邦分析 ERP沙盘百树规则 对建模的影响
目标函数 相对收益率(ROE) 绝对财富值(所有者权益)与发展潜力 直接最大化 ROE 不等价于最大化最终排名
时间尺度 单期经营能力 5-6年累积经营结果 短期高 ROE 可能对应中后期高风险
样本分布 默认企业财务结构稳定 65.2% 队伍破产,异常值密集 需拆分破产/未破产群体进行分层建模

关键验证结果

结果 1:全样本中 ROE 与排名无显著相关

指标 与排名相关系数 统计显著性 解读
ROE r = 0.158 p = 0.092(不显著) ROE 越高排名不一定越好,整体解释力弱
净利率 r = -0.136 p = 0.148(不显著) 全样本层面无稳定相关
总资产周转率 r = 0.114 p = 0.225(不显著) 对排名预测作用有限
破产队伍与正常队伍杜邦指标差异图
图 2 全样本中破产/未破产队伍的杜邦指标差异

结果 2:ROE 最大化策略在中后期存在风险

ROE分组 队伍数 ROE范围 破产率 平均排名
高ROE组 38 0.93 ~ 6.69 68.4% 8.2
中ROE组 39 -0.37 ~ 0.87 64.1% 8.0
低ROE组 38 -5.63 ~ -0.39 63.2% 6.8
不同阶段高低ROE组破产率与排名差异图
图 3 早中后期 ROE 对结果影响存在明显阶段差异

结果 3:局部样本有统计信号,但不足以支持实战策略

杜邦指标(40支未破产队伍) 与排名相关系数 显著性 解读
净利率 r = -0.460 p = 0.003 仅在该子样本呈统计相关,跨样本可迁移性弱,不能直接用于决策
权益乘数 r = -0.239 p = 0.138 趋势存在但不显著
总资产周转率 r = 0.052 p = 0.750 与排名几乎无关
ROE r = 0.275 p = 0.086 仍不构成稳定预测指标
未破产队伍中杜邦指标与排名关系图
图 4 局部样本虽有统计相关,但不足以支撑可迁移的策略结论

结论与研究意义

该验证表明:在 ERP 沙盘场景中,杜邦指标作为排名优化核心几乎不可用。 无论传统算法还是智能算法,只要沿用杜邦逻辑直接驱动策略,都会与百树规则目标发生系统性错位并放大决策风险。 本环节最大的意义是及时止损:明确哪些财务指标不应被继续当作主优化方向。

结论 1:指标边界被明确

ROE 在全样本中无法稳定预测排名,不宜直接作为单目标优化核心指标。

结论 2:分层分析仅用于诊断

破产与未破产队伍分层有助于识别失效原因,但不代表杜邦指标可被直接用于策略优化。

结论 3:局部相关不具实战价值

未破产子样本中的净利率相关难以跨场景泛化,不足以成为可依赖的策略主特征。

结论 4:算法侧应剔除杜邦主驱动

后续建模应把杜邦指标视作失效案例或风险提示,而非核心输入,否则传统/智能算法都可能被误导。

项目反思与落地边界

在项目研讨会议及师生交流中,我更关注"能否被企业真正采用"这个落地问题,而不仅是模型在沙盘中的分数表现。 基于研讨会反馈与个人判断,我认识到该方向的落地周期很长、工程边界清晰——这既是挑战,也是研究价值所在。

研讨会一线反馈

参会的校友高管(化工、机械制造等行业)普遍对智能体落地持审慎态度,核心顾虑不在"模型能不能算",而在"企业敢不敢用";在现阶段,尤其是化工产业,AI决策出了问题谁负责,还是依靠人工操作决策(老师傅经验),更加可靠。这些反馈为课题组指明了后续工程化的关键方向:可解释性与责任归因机制。

黑箱可解释性不足

管理决策强调理性、逻辑与事实证据链;当前智能体算法在理论来源、决策来源与责任归因上仍偏黑箱,难以满足管理层审查要求。这恰恰是课题后续需要重点突破的工程问题,而非否定课题价值的理由。

实验有效不等于业务可用

即使在沙盘对抗或年报分析预测上取得结果,也不自动等价于企业真实场景采纳。真实企业管理中的复杂变量空间、异常且巨大的扰动会显著抬高落地门槛——这意味着从实验室到产业应用,需要更长周期的验证与迭代。

更可能的落地边界

我判断该类产品更适合先用于大学校园内的沙盘比赛:经济风险低、规则约束非常清晰;但从沙盘对抗智能体的开发成功,到企业智能体的落地应用,中间的过程极其漫长,需要团队持续投入。这也正是国家级课题的意义所在——做长周期、有价值的基础工作

个人工作转向

完成杜邦分析验证后,我将工作重心从"指标有效性论证"转向"可验证的系统架构设计"——即本页第二份报告中的智能体工程方案。这段经历让我补足了专业外知识,也更直观看到工程落地与学术包装之间的真实差距;反过来,它强化了我对实打实工程、扎实实验与长期技术打磨的坚持

报告二:面向智能体决策的沙盘重构工程方案

课题组设计的智能体系统采用多Agent协同架构,核心包含五大智能体角色,通过决策后的数据流通,形成完整的决策闭环。 系统架构如图 5 所示,主要智能体及其职能定义如下:

商分Agent

负责解析商业环境,计算并输出当前年度的商分系数(商业环境权重)。输入包括比赛规则、市场详单以及竞争对手信息,是整个决策链路的起点。

决策Agent

接收商分Agent输出的环境权重,结合知识库(RAG)检索优秀历史决策案例,生成若干备选经营方案,并负责在后续阶段进行策略微调。

PSS Agent

面向企业内部的经营单元进行建模与计算。按"产品—市场—生产线"三维识别,负责计算各单元的价值密度(VPD)、运营成本(OE)以及内部耦合系数。

EPSS Agent

在企业全局层面聚合各PSS单元的计算结果,计算企业级的综合耦合指标与方案打分,并调用现金流工具验证方案的可行性。

此外,系统还配备选单Agent(在方案确定后负责广告投放与订单选择)以及一系列外部工具集,包括排产工具、详单工具、现金流工具、报表工具、竞单分析工具等,为各Agent提供数据中转与计算转化能力。

多智能体协同决策系统总架构图
图 5 多智能体协同决策系统总架构图

商分Agent四层设计与个人改进

在多Agent协作框架中,商分Agent承担着整个决策链路的"感知—认知"职能。 课题组为其设计了"四层递进"计算架构:先验分析层、巡盘修正层、权重融合层与反馈更新层,形成"先验—修正—输出—再学习"的完整闭环。

先验分析层:基于历史规律与规则的初始权重生成

先验分析层仅依赖历史详单与静态规则,回答"在不考虑本年度竞争态势的前提下,哪些市场、产品与产线组合先天更值得投入"。该层构建了四类先验评分模型:

(1)产品先验分——综合需求强度、增长趋势、价格强度与账期压力四项子指标:

$$S_p^{\text{prior}}(y) = a_1 \cdot D_p(y) + a_2 \cdot G_p(y) + a_3 \cdot P_p(y) - a_4 \cdot A_p(y)$$

其中,$D_p(y)$为需求强度,$G_p(y)$为增长趋势,$P_p(y)$为价格强度,$A_p(y)$为账期压力。初始参数取 $a_1=0.4, a_2=0.2, a_3=0.3, a_4=0.1$。

(2)市场先验分——衡量各细分市场的投入价值:

$$S_m^{\text{prior}}(y) = b_1 \cdot D_m(y) + b_2 \cdot \text{ROI}_m + b_3 \cdot \text{Fit}_m(y) - b_4 \cdot \text{EntryCost}_m$$

其中 $\text{ROI}_m$ 为市场投入收益,$\text{Fit}_m(y)$ 为市场适配度,$\text{EntryCost}_m$ 为进入成本惩罚。初始参数取 $b_1=0.35, b_2=0.25, b_3=0.25, b_4=0.15$。

(3)产品—市场先验分——直接指导"某产品应投放到哪一市场":

$$S_{pm}^{\text{prior}}(y) = c_1 D_{pm}(y) + c_2 P_{pm}(y) + c_3 \text{Fit}_{pm}(y) - c_4 A_{pm}(y) - c_5 \text{EntryCost}_m$$

初始参数取 $c_1=0.35, c_2=0.25, c_3=0.15, c_4=0.10, c_5=0.15$。

(4)产品—产线先验分——评估"某产品由哪类生产线承接更优":

$$S_{pl}^{\text{prior}}(y) = d_1 \text{Margin}_{pl}(y) + d_2 \text{SpeedFit}_{pl}(y) + d_3 \text{Flex}_l - d_4 \text{InvestBurden}_l - d_5 \text{ConvCost}_l$$

初始参数取 $d_1=0.30, d_2=0.25, d_3=0.15, d_4=0.15, d_5=0.15$。

上述四类先验分经 Softmax 归一化后,得到产品、市场、产线的初始权重向量 $w_p^{\text{prior}}$、$w_m^{\text{prior}}$ 与 $w_l^{\text{prior}}$。

巡盘修正层:基于竞争对手布局的动态修正

巡盘修正层的核心思想是:不在先验分之外重建一套全新评分体系,而是利用年初可获取的竞争对手巡盘数据,对先验权重进行定向修正。 修正机制按数据来源分为两类:ProductLine修正(修正产品权重与产品—产线优先级)和AD修正(修正市场权重与产品—市场优先级)。

ProductLine修正——从竞争供给到产线选择:

竞争烈度识别 $\rightarrow$ 现实偏好评估 $\rightarrow$ 自身匹配叠加,最终收敛为两项修正量:

$$\Delta S_p^{\text{PL}}(y) = -e_1 \cdot \text{SupplyPress}_p(y)$$ $$\Delta S_{pl}^{\text{PL}}(y) = f_1 \cdot \text{LinePref}_{pl}(y) + f_2 \cdot \text{SelfFit}_{pl}(y) - f_3 \cdot \text{ConvRisk}_l(y)$$
ProductLine修正映射流程
图 6 ProductLine修正映射流程

竞争压力到先验分四维权重的映射机制

产品修正量被进一步映射到产品先验分的四个子项权重 $\{a_1,a_2,a_3,a_4\}$ 上,实现"竞争压力 → 策略侧重"的精细调节。核心假设是:竞争越激烈,企业越应从"追量"转向"追质"。

$$a_i^{\text{修正}}(y) = a_i + \lambda_i \cdot \bigl|\Delta S_p^{\text{PL}}(y)\bigr|, \quad i \in \{1,2,3,4\}$$
产品修正量到先验分四维权重的映射流程
图 7 产品修正量到先验分四维权重的映射流程

AD修正——从广告博弈到拿单概率:

遵循"识别广告战烈度 → 判断竞争格局 → 估算拿单概率"三步映射:

$$\Delta S_{pm}^{\text{AD}}(y) = g_1 \cdot \text{OrderProb}_{pm}(y) - g_2 \cdot \text{ADPress}_{pm}(y) - g_3 \cdot \text{ADConc}_{pm}(y)$$

经济学含义:$\text{OrderProb}_{pm}$ 越高正向加权,$\text{ADPress}_{pm}$ 与 $\text{ADConc}_{pm}$ 越高反向惩罚。权重配比 $g_1:g_2:g_3=0.40:0.35:0.25$。

AD修正映射流程
图 8 AD修正映射流程

权重融合层:多源评分到最终权重的聚合

权重融合层的任务是将先验分析层与巡盘修正层产生的多源评分聚合为一套统一的、可执行的权重体系。 融合涉及三类独立权重(产品、市场、产线)和两类组合优先级(产品—市场、产品—产线)。

$$S_p^{\text{final}}(y) = S_p^{\text{prior}}(y) + \Delta S_p^{\text{PL}}(y)$$ $$S_m^{\text{final}}(y) = S_m^{\text{prior}}(y) + \Delta S_m^{\text{AD}}(y)$$ $$S_{pm}^{\text{final}}(y) = \alpha \cdot S_{pm}^{\text{prior}}(y) + (1-\alpha) \cdot \Delta S_{pm}^{\text{AD}}(y)$$ $$S_{pl}^{\text{final}}(y) = \beta \cdot S_{pl}^{\text{prior}}(y) + (1-\beta) \cdot \Delta S_{pl}^{\text{PL}}(y)$$

建议取 $\alpha=0.65, \beta=0.60$:产品—市场投放对实时竞争态势更敏感,先验占比略低;产品—产线产能配置对历史规律依赖更强,先验占比更高。

融合后经 Softmax 归一化,输出五类参数直接供后续抢单与竞单工具调用:

$$w_p^{\text{final}}(y) = \frac{\exp(S_p^{\text{final}}(y))}{\sum_{p'} \exp(S_{p'}^{\text{final}}(y))}$$

反馈更新层:从实际绩效到滚动学习

反馈更新层是商分Agent实现"自我进化"的关键闭环。该层在年末执行完毕后启动,将本年度实际经营结果转化为对下一年度权重的修正信号,形成"预测—执行—评估—再学习"的滚动迭代。

反馈运算分为三条独立更新链路:

$$\hat{w}_m(y+1) = w_m^{\text{final}}(y) + h_1 \cdot \text{WinRate}_m(y) + h_2 \cdot \text{ProfitRate}_m(y) - h_3 \cdot \text{AdWaste}_m(y)$$ $$\hat{w}_p(y+1) = w_p^{\text{final}}(y) + i_1 \cdot \text{Profit}_p(y) + i_2 \cdot \text{Health}_p(y) - i_3 \cdot \text{Loss}_p(y)$$ $$\hat{w}_l(y+1) = w_l^{\text{final}}(y) + j_1 \cdot \text{Util}_l(y) + j_2 \cdot \text{Delivery}_l(y) + j_3 \cdot \text{Health}_l(y) - j_4 \cdot \text{ConvCost}_l(y)$$

为避免权重大起大落,采用指数平滑机制

$$w(y+1) = (1-\mu) \cdot w(y) + \mu \cdot \hat{w}(y+1)$$

归一化后的权重被写入年度权重更新表,作为下一年度先验分析层的初始权重种子,形成跨年度闭环。

商分Agent四层闭环总架构
图 9 商分Agent四层闭环总架构

个人改进建议:从固定学习率到Warm-up衰减策略

当前方案在反馈更新层采用固定学习率 $\mu=0.20$,但与商业沙盘比赛的实际约束存在深层不匹配: 标准沙盘比赛仅 $5\sim6$ 个年度,Agent 至多经历 $4\sim5$ 次权重更新;在 $\mu=0.20$ 下,即使经过 5 年迭代,第 1 年的初始偏见仍残留约 $41\%$ 的影响力。 此外,反馈信号本身是下游各 Agent 共同作用后的混合结果,高学习率易引发过拟合。

笔者建议将固定学习率改进为 Warm-up 衰减控制函数 $\mu(y)$:

$$\mu(y) = \begin{cases} \mu_0 \cdot \dfrac{y}{y_{\text{warm}}}, & y \leq y_{\text{warm}} \\[6pt] \mu_0 \cdot \dfrac{1}{1 + k(y - y_{\text{warm}})}, & y > y_{\text{warm}} \end{cases}$$

建议取 $\mu_0=0.15$,$y_{\text{warm}}=2$。前两年为 Warm-up 期,学习率从 $0.075$ 线性增长至 $0.15$;第三年起进入衰减期,逐步降低更新步长,防止末期过拟合。

更深层的定位思考:三级进化路径

商分Agent究竟是一个即插即用的通用分析工具,还是一个需要在特定环境中持续学习收敛的专用智能体? 笔者建议课题组明确三级进化路径:

Level-0(冻结模式)

所有结构参数固化,适用于与训练环境完全一致的重复比赛,作为纯 Demo 验证。

Level-1(微调模式)

结构参数冻结,但反馈更新层开放 $\mu$ 与平滑窗口供调节,类似迁移学习,具有一定环境适应能力。

Level-2(元训练模式)

结构参数本身开放,支持基于历史沙盘库进行跨环境元学习,使Agent具备"面对新规则时快速收敛"的能力。这是商分Agent的最终实现目标。

PSS与EPSS Agent设计

PSS-Agent:经营单元建模与价值成本核算

PSS-Agent承担"经营单元建模—价值成本核算—协调性校验"的中间层职能。 商分Agent输出外部环境权重后,决策Agent会形成一组候选经营方案;PSS-Agent则把这些方案还原为可计算的PSS单元,逐一计算其 $VPD/OE$、生命周期状态、资产—效率—公平耦合水平。

最小建模单元定义为:

$$PSS_i = (m_i, p_i, l_i), \quad m_i \in M,\ p_i \in P,\ l_i \in L$$

PSS数量由"市场—产品—生产线类型"的有效组合决定。PSS-Agent以 $VPD/OE$ 作为单个PSS的核心健康度指标:

$$R_i = \frac{VPD_i}{OE_i}$$

其中 $VPD_i$ 刻画该PSS在当期创造的价值(净利润 + 原材料采购/运输成本),$OE_i$ 刻画占用的运营资源(折旧、维修、加工、转产、研发、ISO、市场开拓等费用)。 费用分摊遵循"谁受益、谁承担;谁占用、谁分摊"原则。

PSS-Agent当期计算流程
图 10 PSS-Agent当期计算流程图

EPSS-Agent:企业级聚合与耦合协调度评估

EPSS-Agent(Enterprise-level PSS Agent)承担企业全局层面的指标聚合与综合诊断职能。 它在年度、季度、年末三个时间粒度上,接收PSS-Agent输出的细粒度经营单元数据,按"产品—生产线"二维折叠聚合,计算企业级VPD/OE、竞争系数与耦合协调度。

企业级VPD与OE汇总

$$\text{VPD}_{\text{EPSS}} = \sum_{i} \text{VPD}_i^{\text{year-end}}, \quad \text{OE}_{\text{EPSS}} = \sum_{i} \text{OE}_i^{\text{year-end}}$$ $$R_{\text{EPSS}} = \frac{\text{VPD}_{\text{EPSS}}}{\text{OE}_{\text{EPSS}}}$$

耦合协调度评估:资产—效率—公平三维诊断

三类核心指标经标准化到 $[0,1]$ 区间后进入耦合分析:

  • 资产指标 $U_1$:衡量企业总资产及其增速
  • 效率指标 $U_2$:衡量企业发展潜力,包含内部效率与外部效率
  • 公平指标 $U_3$:衡量市场公平与供应商公平

三指标耦合分析:

$$C = \sqrt[3]{\frac{U_1 \cdot U_2 \cdot U_3}{(U_1+U_2+U_3)/3}}, \quad F = \beta_1 U_1 + \beta_2 U_2 + \beta_3 U_3, \quad H = \sqrt{C \cdot F}$$

依据总协调度 $H$ 进行整体诊断:$H > 0.8$ 高度协调;$0.5 < H \leq 0.8$ 中度协调;$H \leq 0.5$ 低度协调或失调。 同时查看两两协调度 $H_{12}, H_{13}, H_{23}$ 进行局部诊断,定位资产—效率、资产—公平或效率—公平的具体矛盾。

执行平台与ERPAI协议

百树沙盘规则引擎化与状态机设计

课题组选择以百树电子沙盘为底层规则基座,对其进行面向智能体决策的系统性重构。 核心设计思想是:任何规则变更只需更新规则表,无需修改Agent代码,实现规则与策略的解耦。 百树沙盘规则已全部参数化为 JSON/YAML 格式的标准化规则表,供Agent直接读取。

平台的控制流设计遵循"状态驱动、事件触发、Agent决策、状态更新"的闭环逻辑。 整个比赛被抽象为一个离散时间状态机,时间粒度为"年度—季度",每个时点上系统维护一份完整的企业状态快照。

ERPAI协议:三层接入规范

为实现不同Agent模块的即插即用与跨团队复用,课题组制定了 ERPAI 协议(ERP Agent Interface Protocol), 对标 OpenAI API 的设计理念,强调输入输出标准化、调用方式统一化、状态持久化规范化

接口抽象层

所有Agent继承统一 BaseAgent 抽象基类,实现 setupdecidefeedbackteardown 四个核心方法,超时机制与默认策略由平台统一管控。

通信协议层

支持本地进程内调用(In-Process,微秒级延迟)与远程服务化调用(Service-Oriented,HTTP/JSON)两种模式,Web前端通过同一API获取状态与决策结果。

数据格式层

状态快照与决策动作均采用 JSON Schema 约束。核心字段包括:meta(元信息)、balance_sheet(资产负债表)、income_statement(利润表)、cashflow_statement(现金流量表)、production(生产状态)、market_status(市场状态)等。

环境版本锁定

Python计算环境通过 Conda environment.yml 锁定(Python 3.10 + pandas 2.1 + numpy 1.24 + scipy 1.11);Web前端通过 package-lock.json 锁定(React 18 + TypeScript 5 + ECharts 5)。

CLI与Web GUI双轨架构

平台面向两类用户群体设计差异化的交互界面: CLI(命令行界面)面向开发者与算法调试人员,强调快速迭代、批量测试与可脚本化; Web GUI面向比赛组织者、观摩者与策略分析师,强调可视化、实时监控与历史回放。

网络架构采用前后端分离 + frp反向隧道:课题组本地高性能服务器运行Python CLI核心引擎,承担全部计算负载; 通过frp与阿里云公网服务器建立反向隧道,将后端API端口映射到公网域名。外部用户通过浏览器即可实时观摩比赛,无需直连课题组内网。

商分Agent完整六步运行示例

第3年度年初商分Agent的完整决策链路为例,展示从数据获取、Agent计算、结果注入平台到反馈闭环的全流程:

步骤1:平台发起调用并传递状态快照

平台规则引擎触发 shangfen_agent.decide(state_snapshot),传入当前年度、季度、历史详单、竞争对手巡盘数据(ProductLine/AD)以及上年反馈权重种子。

步骤2:商分Agent内部运算

按四层架构执行:先验分析层计算需求强度/增长趋势/价格强度;巡盘修正层识别竞争烈度与广告博弈;权重融合层加权融合并经Softmax归一化;反馈更新层暂不参与(年末执行)。

步骤3:Agent返回决策动作

decide() 返回JSON格式决策动作字典,包含产品权重、市场权重、产线权重、产品—市场优先级矩阵及置信度。

步骤4:平台接收权重并驱动下游

规则引擎将商分Agent输出的权重注入全局状态表GST,触发下游决策Agent(生成产能配置方案)与选单Agent(广告投放与订单选择)。

步骤5:年度执行与年末反馈

四季度全部执行完毕后,平台汇总实际经营结果(中标率、利润率、VPD/OE、耦合协调度),封装为 result_dict 调用 feedback()

步骤6:反馈更新与下一次循环

Agent内部执行平滑更新与归一化,写入年度权重更新表,作为第4年年初的初始种子。完成一次"预测—执行—评估—再学习"闭环。

商分Agent接口运行与数据接入流程示意
图 11 商分Agent接口运行与数据接入流程示意

预期五层设计效果

全自动对抗运行

无人干预模式下连续运行完整6年比赛,同一组Agent与同一初始种子多次运行的结果偏差控制在1%以内。

人机混合对抗

支持"Agent vs 人类"混合对战,人类选手通过Web GUI或百树客户端参与,Agent通过CLI或远程API接入。

策略可视化与可解释性

任何一次权重输出、广告投放、选单决策均可追溯至上游输入数据与下游预期收益,Agent不再是黑箱。

数据资产沉淀

每场比赛产生的全局状态表、决策缓存与事件日志自动归档,形成"沙盘决策大数据",支撑Agent持续训练与教学案例库建设。

可迁移的平台底座

平台核心引擎与百树具体规则解耦:规则表独立配置、Agent接口抽象统一、状态机与决策流通用。若未来需要对接其他ERP沙盘(如用友、金蝶)或自定义规则变体,只需替换规则表与少量适配层代码,无需重构整个平台。

返回主页对应模块