锦素智能供应链预测的应用京东.docx

资源描述

《锦素智能供应链预测的应用京东.docx》由会员分享，可在线阅读，更多相关《锦素智能供应链预测的应用京东.docx（20页珍藏版）》请在第一文库网上搜索。

1、智能供应链预测的应用1背景前段时间京东公开了面向第二个十二年的战略规划，表示京东将全面走向技术化，大力发展人工智能和机器人自动化技术，将过去传统方式构筑的优势全面升级。京东Y事业部顺势成立，该事业部将以服务泛零售为核心，着重智能供应能力的打造，核心使命是利用人工智能技术来驱动零售革新。1.1 .京东的供应链京东一直致力于通过互联网电商建立需求侧与供给侧的精准、高效匹配，供应链管理是零售联调中的核心能力，是零售平台能力的关键体现，也是供应商与京东紧密合作的纽带，更是未来京东智能化商业体布局中的核心环节。目前京东在全国范围内的仓库数量已超过700个，按功能可划分为RDC、FDC.大件中

2、心仓、大件卫星仓、图书仓和城市仓等等。RDC ( Regional Distribution Center)即区域分发中心，可理解为一级仓库，向供货商采购的商品会优先送往这里，一般设置在中心城市，覆盖范围大。FDC ( Forward Distribution Center)即区域运转中心,可理解为二级仓库，覆盖一些中、小型城市及边远地区，通常会根据需求将商品从RDC调配过来。结合人工智能、大数据等技术，京东首先从供货商那里合理采购定量的商品到RDC ,再根据实际需求调配到FDC ,然后运往离客户最近的配送站，最后快递员将商品带到客户手中。这只是京东供应链体系中一个普通的场景，但正因为

3、有这样的体系,使得京东对用户的响应速度大大提高，用户体验大大提升。1.1 .京东供应链优化用户体验提升的同时也伴随着大量资金的投入和成本的提高，成本必须得到控制，整个体系才能发挥出最大的价值，于是对供应链的优化就显得至关重要了。京东自打建立供应连体系的那一天起，就不断地进行改进和优化，并且努力深入到供应链的每一个环节。优化其实是一门运筹学问题,需考虑在各种决策目标之间如何平衡以达到最大收益,在这个过程中需要考虑很多问题，把这些考虑清楚，问题就容易解决了。举几个简单的例子：1 .商品补货：考虑在什么时间，给哪个RDC采购什么商品，采购量是多少？2 .商品调拨：考虑在什么时间，给哪个FD

4、C调配什么商品，调配量是多少？3 .仓储运营：在大促来临之际，仓库和配送站要增配多少人手、多少辆货车？虽然看上去这些问题都很容易回答，但仔细想想却又很难给出答案，原因就在于想要做到精确不是那么容易的事情，就拿补货来说，补的太多会增加库存成本，补的太少会增加缺货成本，只有合理的补货量才能做到成本最低。1.1 .预测技术在京东供应链的作用借助机器学习、大数据等相关技术，京东在很多供应链优化问题上都已经实现系统化，由系统自动给出优化建议，并与生产系统相连接，实现全流程自动化。在这里有一项技术起着至关重要的低层支撑作用-预测技术。据粗略估算，1%的预测准确度的提升可以节约数倍的运营成本。怎

5、样理解预测在供应链优化中的作用呢?拿商品补货举例，一家公司为了保证库房不缺货, 可能会频繁的从供货商那里补充大量商品，这样做虽然不会缺货，但可能会造成更多卖不出去的商品积压在仓库中，从而使商品的周转率降低，库存成本增加。反之,这家公司有可能为了追求零库存而补很少的商品，但这就可能出现严重的缺货问题，从而使现货率降低，严重影响用户体验，缺货成本增加。于是问题就来了，要补多少商品才合适,什么时间补货，这就需要权衡考虑了，最终目的是要使库存成本和缺货成本达到一个平衡。考虑一下极端情况，等库存降到零时再去补货，这时供货商接到补货通知后将货物运往仓库。但是这么做有个问题，因为运送过程需要时间，

6、这段时间库房就缺货了。那怎么办呢? 就是利用预测技术。利用预测我们可以计算出未来商品在途的这段时间里销量大概是多少，然后我们让仓库保证这个量，低于这个量就给供货商下达补货通知，于是问题得以解决。总而言之，预测技术在这里发挥了重要的作用，成为关键的一个环。1.京东预测系统预测系统 ! 销量预测单星预测GMV预测预测系统在整个供应链体系中处在最底层并且起到一个支撑的作用,支持上层的多个决策优化系统，而这些决策优化系统利用精准的预测数据结合运筹学技术得出最优的决策，并将结果提供给更上层的业务执行系统或是业务方直接使用。目前，预测系统主要支持三大业务：销量预测、单量预测和GMV预测。其中销量预

7、测主要支持商品补货、商品调拨；单量预测主要支持仓库、站点的运营管理；GMV预测主要支持销售部门计划的定制。销量预测按照不同维度又可以分为RDC采购预测、FDC调拨预测、城市仓调拨预测、大建仓补货预测、全球购销量预测和图书促销预测等；单量预测又可分为库房单量预测、配送中心单量预测和配送站单量预测等（在这里单量并非指用户所下订单的量，而是将订单拆单后流转到仓库中的单量。例如一个用户的订单中包括3件物品，其中两个大件品和一个小件品，在京东的供应链环节中可能会将其中两个大件品组成一个单投放到大件仓中,而将那个小件单独一个单投放到小件仓中，单量指的是拆单后的量）；GMV预测支持到商品粒度

8、。数据源输入层数据仓库Webw统录入文本上传TT:下游系统：IIF下游任务流Web至统其他系统I ；整体架构从上至下依次是：数据源输入层、基础数据加工层、核心业务层、数据输出层和下游系统。首先从外部数据源获取我们所需的业务数据，然后对基础数据进行加工清洗，再通过时间序列、机器学习等人工智能技术对数据进行处理分析，最后计算出预测结果并通过多种途径推送给下游系统使用。1 .数据源输入层：京东数据仓库中存储着我们需要的大部分业务数据，例如订单信息、商品信息、库存信息等等。而对于促销计划数据则大部分来自于采销人员通过Web系统录入的信息。除此之外还有一小部分辘通过文本形式直接上传到HDFS中。2

9、 .基础数据加工层：在这一层主要通过Hive对基础数据进行一些加工清洗，去掉不需要的字段，过滤不需要的维度并清洗有问题的数据。3 .核心业务层：这层是系统的的核心部分，横向看又可分为三层：特征构建、预测算法和预测结果加工。纵向看是由多条业务线组成，彼此之间不发生任何交集。特征构建：将之前清洗过的基础数据通过近一步的处理转化成标准格式的特征数据，提供给后续算法模型使用。核心算法：利用时间序列分析、机器学习等人工智能技术进行销量、单量的预测，是预测系统中最为核心的部分。预测结果加工：预测结果可能在格式和一些特殊性要求上不能满足下游系统，所以还需要根据实际情况对其进行加工处理，比如增

10、加标准差、促销标识等额外信息。1 .预测结果输出层：将最终预测结果同步回京东数据仓库、MySqk HBaSe或制作成 JSF接口供其他系统远程调用。2 .下游系统：包括下游任务流程、下游Web系缅口其他系统。1 .预测系统核心介绍1 .预测系统核心层技术选型HiveDynamicTrend VMAStockDT SimiIarityModej NewProductDecisionTreeCATE-SEASONRNNLOWESS, ，算法层Holt winters ARIMAGBDTLASSO 一一一IJ IJ L .工具层框架层预测系统核心层技术主要分为四层：基础层、框架层、工具层和算法层基

11、础层：HDFS用来做数据存储，Yarn用来做资源调度，BDP ( Big Data Platform )是京东自己研发的大数据平台，我们主要用它来做任务调度。框架层：以Spark RDDx Spark SQL、Hive为主，M叩RedUCe程序占一小部分，是原先遗留下来的，目前正逐步替换成SPark RDD0选择SPark除了对性能的考虑外,还考虑了 SPark程序开发的高效率、多语言特性以及对机器学习算法的支持。在SPark开发语言上我们选择了 Python ,原因有以下三点：1 . Python有很多不错的机器学习算法包可以使用，比起Spark的MLIib ,算法的准确度更高。我们

12、用GBDT做过对比，发现xgboost比MLIib里面提供的提升树模型预测准确度高出大概5%10%虽然直接使用Spark自带的机器学习框架会节省我们的开发成本，但预测准确度对于我们来说至关重要，每提升1%的准确度，就可能会带来成本的成倍降氐。2 .我们的团队中包括开发工程师和算法工程师，对于算法工程师而言他们更擅长使用 Python进行数据分析，使用Java或Scala会有不小的学习成本。3 .对比其他语言，我们发现使用Python的开发效率是最高的，并且对于一个新人, 学习Python比学习其他语言更加容易。工具层：一方面我们会结合自身业务有针对性的开发一些算法，另一方面我们会直接使用

13、业界匕俄成熟的算法和模型，这些算法都封装在第三方Python包中。我们匕瞰常用的包有xgboostx numpyx pandasx sklearnx SCiPy 和 hyperopt 等Xgboost:它是 Gradient Boosting Machine 的一个 C+实现，XgbooSt 最大的特点在于，它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。numpy :是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多（该结构也可以用来表示矩阵）。pandas :是基于NumPy的一种工具,该工具是为了

14、解决数据分析任务而创建的。Pandas纳入了大量画一些标准的数据模型，提供了高效地操作大型数据集所需的工具。SkIearn :是PythOn重要的机器学习库，支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。scipy :是在NUmPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理和稀屣阵等等。算法层：我们用到的算法模型非常多，原因是京东的商品品类齐全、业务复杂，需要根据不同的情况采用不同的算法模型。我们有一个独立的系统来为算法模型与商品之间建立匹配关系，有些比较复杂的预测业务还

15、需要使用多个模型。我们使用的算法总体上可以分为三类：时间序列、机器学习和结合业务开发的一些独有的算法。1.机器学习算法主要包括GBDT、LASSO和RNN :GBDT :是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。我们用它来预测高销量，但历史规律不明显的商品。RNN :这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是,RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如时序预测、语音识别等。LASSO :该方法是一种压缩估计。它通过构造一个罚函数得到一个较为精炼的模型，使得它压缩一些系数，同时设定一些系数为零。因此保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计。用来预测低销量，历史数据平稳的商品效果较好。1.时间序列主要包括ARIMA和Holt winters :ARIMA :全称为自回归积分滑动平均模型,于70年代初提出的一个著名时间序列预测方法，我们用它来主要预测类似库房单量这种平稳的序列。Holt winters :又称三次指数平滑算法，也是一个经典的时间序列算法，我们用它来预测季节性和趋势都很明显的商品。1.结合业务开发的独有算法包括 WMAStOCkDT、SimiIarityModeI NewProduct 等：WMAStockDT

展开阅读全文