崔煜:人工智能推动大数据挖掘在产业研究中的应用

崔煜:人工智能推动大数据挖掘在产业研究中的应用
2022年07月14日 19:22 兰格钢铁网

7月12日,在兰格钢铁网“钢铁智策”——钢铁大数据 AI 辅助决策系统发布会上,北京腾景数字科技发展有限公司经济预测部总经理崔煜博士发表了精彩演讲,以下是其演讲的主要观点:

北京腾景数字科技发展有限责任公司

经济预测部总经理 崔煜博士

腾景在很多年前就已经开始着力于在宏观经济方面自上而下的一个预测性研究,我们也想找一个很好的契机,能够把这样的一套分析系统推向产业。很荣幸我们找到了兰格这样一个在钢铁行业深耕了26年的企业,我们也终于找到了一个突破口,利用人工智能去推动大数据的挖掘技术,在产业当中发挥应有的价值。

1

兰格&腾景特色产品优势解读

我将从四个方面来介绍这款产品的一些特点。

1、海量数据挖掘

首先关于海量数据挖掘,也就是充分利用已知信息的多样化数据,实现海量数据中重要关系挖掘。其实它分别代表了兰格和腾景两方的巨大优势。

兰格集团多年来对钢铁行业数据的积累,形成了对行业内部高频历史信息的精准把握优势;兰格对于钢铁市场精益求精的高质量信息服务能力及专业市场分析能力,使我们具备了在整个钢铁行业的一个充分的经验积累,这是我们产品两个非常突出的优势。

下面三条是腾景的优势。

首先第一部分是关于宏观预测,全行业预测以及区域预测。我们大概花了2~3年的时间,充分的去找对于宏观指标的预测、行业指标的预测有非常好的意义的高频指标。在这样一个海量的高频数据的储备下,用大量的科学的技术去挖掘真正能够影响每一个宏观指标的因素。

目前我们已经储备了一些能够针对于不管是宏观还是行业等,各个指标自己专属的一个高频数据的库。这中间会涉及到很多的算法,所以这里就要强调的是我们对于一些原始数据的有效建模以及集成处理能力。

最后要强调的是这项工作是一个非常多学科交叉的工作,需要一个融合了宏观经济学、统计学、计算机工程等交叉学科的建模研究能力。

这块我展现出来的就是针对于兰格的价格预测,我们所构造的一个特征因子库,能够分析出来到底哪些方面可能会对价格产生影响。

目前我们大致分成了5个维度,分别代表供给、需求,大量的宏观环境的指标,还有金融市场因素,也就是资本市场和期货市场的走势。最终还有一个关于价格联动的问题,可以是上下游之间现货的价格联动,也可以是不同区域之间的价格联动,甚至可以是不同品种之间价格联动,还有一些产业链条上游直至下游整个产业链的价格联动。

所以我们大致从这几个方面收录了大量的指标。比如需求方面,针对于下游的行业,像房地产、汽车、机械、家电、能源、船舶等,目前已经收录了3000余条官方阅读数据。

其实在我们这个数据库里边还有大量的高频数据。什么叫高频数据?我们认为只要是能够比月度更加高效,比如周度或者日度,都算是高频的指标。通过我们的变频处理,也能够发现一些实时发生的数据,能够对一个行业产生非常重要的作用。

像宏观,我们会针对于国内外的一些总量、价格、金融因素等来做一个指标的归纳,遵循宏观的框架,将其分为投资、消费、进出口以及它分项。

关于金融,我们大致收录了有1万多条指标,大多数都是高频性质的指标,基本上每天我们都能监测到。比如像一些资本市场的行业数据,包括大盘的指数,个股收盘价的数据等,然后采用人工智能的方式,去从中去挖掘到底什么数据能够最终进到我们的模型里去,能够实现在价格预测上面的价值。

这里我大概总结了几个关于数据方面的痛点,也是我们目前能够解决的一些问题。

第一个,宏观指标框架不完整,缺数据怎么办。比如统计局公布的很多都是一些片段化的数据,或者说是一些只能代表一部分既定范围的数据。其实我们在大量的宏观背景、宏观知识的积累之下,通过投入产出表将整个宏观数据做了一个框架性的处理,并且能够实现在月度上的补充,也就是会有一个很庞大的宏观数据库,这个数据库可以追溯到2008年,并且会持续每个月针对每一条数据做更新迭代。这也就解决了宏观面缺数据的问题。

第二个问题就是官方月度数据滞后怎么办。很多时候我们做分析只能用已经公布的官方数据,但是官方数据比较滞后。我们目前在收集大量的高频的信息,和我们每一个月发生的信息,去做这样的一个拟合模型的建设,最终通过高频的信息反映出每一天这些月度的官方指标的趋势,实现了月度数据的日度化,缩小信息距离现在时间差。

第三个问题就是关于什么样的数据可以真正有效的去洞察不同的行业走势。我们针对非常多的下游数据,比如说像下游的7大类,还有一些景气指标,总体算下来我们一共有76个指标是带有预测能力的,通过大量这些不同的数据去洞察不同行业的走势。

第四点就是关于上下游行业是如何相互联动影响。这块我们也会通过数据的建模来实现。价格之间的联动反应,能够通过价格之间的相互影响作用到模型当中,让它能够从中复杂的规律当中体现出其中的效益。

2、精准模型计算

关于精准模型计算,有以下几点特性。

首先,人工智能技术第一个优势,就是它在学术上的一个前沿性和科学性。目前不管是在学术界还是在应用界都非常热门。从科学性上来说,它在很多应用场景已经发挥出非常好的效应。

第二点就是关于他的包容能力。那么多的海量的数据,如果用以前的技术,就没有那么容易做了,但是人工智能技术恰恰有海量数据的包容性,它可以建立非常多的一个影响因子的分支,并且通过复杂的网络结构把这样的一些影响因素拟合起来,变成一个复杂模型的学习过程。

第三就是关于数据模型的一个客观性。我们坚持的是用客观发生的数据来推动整个模型的建立,它是一个不断的从数据当中学习规律反衬出结果的过程。

第四点就是关于它的一个迭代优化机制。

最后一点我想强调的是关于模型的一个机理复杂性。它不再是一个简单的过程,比如一个指数有很多个分指数,然后给他设计权重,可以靠专家的一些经验打个分,然后得到一个最终的指数。它中间有非常多的拟合,去找到怎么样能够更好的把这些影响因子整合成一个复杂的函数。这个函数有的时候通过数学的方程都没有办法直接表示出来,但是我们能够通过一些模型,找到一个最优的状态。

关于迭代优化机制怎么理解,我举一个例子,仿佛我们拿一个手枪去打靶。

我这里边有一个靶子,中间有一个靶心,第一次打靶的时候可以看到有一个小叉子,这个代表的就是说模型第一次去识别数据,也就是做一次学习。

所谓的学习就是通过模型数据之间的关系构造了一个函数,可以理解成我们要预测的是y,所有的影响因子是很多个x,中间不管是通过多复杂的关系,它进行了一次学习,得到了一个假的结果。

什么叫做迭代优化,它会识别到小叉子距离靶心的的距离还挺远,所以这个时候机理会有一个认知,他会去把圆心到小叉子的距离记作是它模型的一次损失,他认为损失还足够大,所以他会进行第二次学习。打到第二个点的位置,它路径损失在减小了。当我们认为损失还不够小的时候,他还可以继续学习。这个时候我们的假的y就和真正的靶心越来越近了,那么最终什么是我们能够达到的一个最优状态?就是这样,我们最终会得到的这个函数的实现,能够尽可能的和我们真正要打中的靶心尽量接近。

所以如果在这样一个机理之下,我们去把大量的历史数据去做挖掘,去做拟合,它一定会比我们之前仅仅用几个权重加减得到的会更加精准,这个就是它的一个机制所带来的优势。

3、动态预测产品

首先预测这件事情大家都知道不那么容易。

但是我们为什么想要去把预测做到一个动态化,并且愿意每一周甚至每一个月都更新迭代优化,还是因为我们认为整个的预测首先是有价值的,我们希望能够在不确定性当中抓住更多的确定性。抓住正常的规律之下,到底市场的潜在动力应该怎么走。

所以我们愿意把预测这么一个非常有争议,有矛盾有冲突的事情产品化,也是我们充分意识到了预测这件事情非常的重要,而且我们有信心能够让这个事情做得更准,做得更好。

中间还有两个字叫做动态。我们这个产品的更新频率非常快,之后我们会针对重要的发生时点都会做一次更新,所以这个系统一直都会反映最新信息的状态。随着每个事件的发生,历史数据逐渐往后推移,我们的预测结果也会有微弱的调整,最终我们给到的是一个连续的不断更新的一套预测结果。

下面我给大家展示一下我们测试过程当中的一些小的结果。

这是兰格全国冷轧库存的数据,可以看到图中有一条蓝色的线非常多,虽然看似杂乱,但是趋势又有些一致的红色的线,这些代表的是什么?我们每一个时间点都会给到一条红色的一个长期预测,前期我们预测十几期,后来我们为了保证这个数据的准确都调整为了8期,8期已经达到了两个月的时间长度了。

其实我们结果还蛮有前瞻性的。比如说像前期的低点下行,我们的预测在多期的时候都抓住了,可以看到它和真实的黑色的线基本上是非常贴近的,但是在大的拐点位置上我们会有一个比较清晰的指向,并且这个指向是能够提前来向大家阐释的。

4、多维预测信息协同

关于多维预测信息协同这件事,就要提到的是我们在整个分析框架上的一个完整性。首先这些我所展示出来分析框架在我们的兰格腾景的产品系统当中全部包括。

第一点就是关于宏观这一块。宏观我们现在所展示的都是我们包含预测性能的指标。比如宏观我们有29个指标,这些指标分别从总量、价格、金融等把整个的宏观面全盘包括了,只要看到了这样一个版面,基本上宏观未来12个月的走势一目了然。

这里面包含了GDP、工业增加值、服务业增加值、投资4项、消费2项,还有进出口数据。价格这一块分别包括了 CPI和PPI各4项的数据。金融方面像我们关注的宏观流动性这一块的m2和社融,包括一些短端利率、长端利率,对于汇率也做了一个挑战性的预测,所以整体从宏观来看的话,未来怎么走一目了然。

这个是我们最高的一个架构,也就是我们自上而下最上的那一部分,也就是宏观。往下我们会下沉到钢铁的行业需求和它的供给侧情况,像基建、房地产、机械、家电、能源、船舶,还包括一些景气度的指标,景气度当中也有兰格的一个采购经理人指数。

这里不管是当月值还是当月同比,我们后台一共大大小小有76项指标的预测作为依据,我们还有当月同比的一些数据,这里面全部都是从当下开始,能够对于未来12个月一个趋势和数值给到一个精准的判断。

再往下就是关于供给。我们对产量这一块也会有一些监测,还有关于价格联动方面的一个内容,同样也是在现货的品种间,包括期货,还有一些不同区域价格的一个相互的联动。所以整体来看,我们是从整个的分析框架当中,会对于它所指引出来的就整个的判断做一个协同性的分析,最终去断定我们给出来的价格的预测是否合理,宏观的背景和我们行业的走势是否合理。

还有一个维度的协同,就是关于时间信息维度的协同我们基本打通了在各个时间维度的一个有效信息,已发生的历史数据,我们有兰格钢铁网的大量海量数据和我们已经积累下来的一些各个行业的高频数据作为支撑,再往下我们可以将滞后公布的一些信息做实时化的一个操作,最终我们是想通过历史和已经发生的数据,对于未来的一个规律做一个突破,推演性的预测,这个就是我们所具备的预测能力,所以整个时间维度上面我们同样有这样一个协同的机理。

2

兰格&腾景特色产品

接下来给大家具体展示一下我们目前的一些结论。

1、人工智能对钢材价格预测

首先第一个关于钢材价格,我们目前强调的是两个功能,第一个功能是对于未来的一周在位点上面我们有一个判断,目前来看应该是从3月到当下,我们一直在监测的一个周度的预测结果来看,有70%以上的指数基本上能控制在第一个点的误差,在±2.5这样一个区间范围里。

还有一个功能就是我们可以识别到未来两个月的一个走势,我们能够看到什么时候可能会出现小幅的一个上升,什么时候又会出现一个下跌,这样的一个路径是什么?我大概展示了几个我们给出来的一个结果。

就螺纹钢来说,我们看到的是整个7月底会出现一个短暂的止跌,但是进入8月之后,还会存在一个下行压力的判断。

整体来看下7月15日也就是周五,我们还是给到了一个价格下行的判断。当然这里边也是分成了总指数和分指数来展示的。

2、人工智能上下游行业全息预判

关于下游,我们主要强调的是对于八大下游未来12个月趋势的一个预判,这里主要看到的是未来的长期的一个动向。有了这么多的下游,到底最终的粗钢表观需求会是怎样一个变化,每个行业可能都是参差不齐的。

最终我们又通过一个模型,将下游的、多方位的信息又做了一个综合。最终给到的是整个粗钢表观需求在未来12个月会是一个怎样的趋势走向。

这个部分内容基本上会在我们的月报当中逐一呈现,比如我们可以看到房地产的一个最终的结果,可以看到整个房地产开发投资完成额在年底的时候,我们给到的是一个-2.7的负增长的区间,除了房地产的开发投资额,其实还会有施工面积、竣工面积、新开发面积、销售面积等多项指标,都会在我们的月报当中呈现,作整体的全盘分析。

再往下的是关于整个机械行业的一些判断,这里面所展示出来的更多的一个是机械工业的长期走势,可以看到红线是从2022年7月1一直延续到2023年5月的一个长期趋势,右侧是关于挖掘机产量的一个数据,可以看到挖掘机产量到年底仍然是一个负增长的区间,并且恢复的斜率并没有出现非常明显的回升。

再往下我们还会针对汽车产销量,包括出口做一个判断。整体的判断依然是在六七月的时候汽车的产量出现了一定的回升,但是到年底的时候可能又有一个微弱的回落,整个出口顺应的是整个宏观的大的趋势,呈现的是一个微向下的同比的增速水平。

对于能源,我们发现风电的投资在逐年的增长,那么火电新增发容发电容量会有所放缓,包括还有一些船舶的判断,整个对于手持船舶订单的判断依然是比较乐观的,未来12个月都会是一个需求比较旺盛的状态。

最后还有家电,除了空调、电冰箱,还有冰柜,一些小家电都会有一些涵盖。

腾景AI粗钢需求指数显示,6月粗钢消费量小幅下降,需求指数为147.6,需求指数同比为-8.8%。具体来看,预计近期粗钢需求会小幅反弹,但下半年需求会继续有所下降,且不及去年同期,2022年全年需求指数同比均值为-5.7%。

钢材需求指数(以2012年为基年)月度

刚才说到了这么多不同行业的结论,那么我们最终会把它构造出一个总指数,总指数反映的就是整个粗钢的表观需求量。可以看到现在这张图当中所展示的就是我们拟合出来的需求指数和我们粗钢表观消费量的一个关系图,我们得到的指数是判6周,是一个以100为基点,以2012年为基年的一个指数,可以看到我们在历史的拟合状态是非常的一致的,所以基本上我们这一套系统是能够很好的把行业数据和最终的粗钢表观消费量做一个很好的结合。

这个就是我们能够给出的未来的预测信息。从2022年的7月一直到2023年的5月,整个的钢材需求指数以及它的同比分别都是什么样的走势?如果从需求来看的话,七八月份之后仍然会有一个小幅的回落,也就整体的需求我们没有看到一个稍微景气的一个表现,但是如果我们从同比来看,整个都是围绕在零值附近波动,可能会在三季度的时候,相较于去年有微弱的一个回收。

些都是通过多种行业的影响因子共同组成的,那么我们就能够看到不同的影响因子,在不同的时间对于粗钢表观的一个贡献情况。

这张图所展示的就是从2016年到2023年的5月份多项重要指标对于粗钢表观消费量的一个变化。深蓝色的柱子代表的是机械工业增加值当月同比的一个变化。我们看到从2016年到2023年,整个深蓝色的柱子,略有向下的这么一个表现,也就是说整个机械工业在影响表观消费量的过程当中,它的占比在逐渐变小,那么什么在逐渐变大?我们可以看到是工业机器人的产量,大概从2020年的1月份开始,整个工业机器人的产量对于表观消费量的影响开始逐渐的凸显。

还有一个指标值得关注,就是风电的电源基础设施投资完成额,所以这两个反映的是整个新技术对于我们钢铁行业的一个变革。

3、人工智能宏观背景全息预判

最后我们把宏观背景的一个全息判断给大家做一个展示,这个既是我们最高的判断方向,也是我们整体判断的一个背书。

这里面包括的是宏观对于12个月的一个趋势性的判断,还有我们针对短期的一些官方指标的实时的监测。

下面展示的更多的是对于预测信息的一个判断,比如说针对GDP,针对于服务业,针对于工业增加值,2022年一季度、二季度、三季度、四季度以及全年的判断,我们基本上在现在能够给出,我们认为到2022年全年GDP水平大致是4左右。

再往下关于投资,这里面有非常多跟钢铁行业息息相关的,比如说基建投资、房地产投资。整体来看2022年四季度的累计投资基本上反映的就是全年了,其实还是基建和制造业是我们能能够维持投资增速还比较平稳的分项,房地产投资依然会是一个明显的拖累项目。

再往下关于消费,我们给到的全年判断大致是只有2.9%这样一个水平,那么三四季度会有略微的一个回补。

最后是关于出口和进口,我们也给到的整个的判断,出口会出现一个略微的下行,那么进口会有一个小幅的回升,这也反映的是后期内需有可能会有所提振,但是整个的外部环境依然是一个风险点,所以整体的判断也大概给到了一个全年的增速水平。

以上就是我们所有的产品能够给到的一些结论。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部