楼主: mingdashike22
54 19

[量化金融] 项目组合管理中的对抗式深度强化学习 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

80%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
56.2531
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
25284 点
帖子
4231
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-23 18:51:31 |只看作者 |倒序

+2 论坛币
k人 参与回答

沙巴电竞网址送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

沙巴电竞网址联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

沙巴电竞网址送您两个论坛币!

+2 论坛币
英文标题:
《Adversarial Deep Reinforcement Learning in Portfolio Management》
---
作者:
Zhipeng Liang, Hao Chen, Junhao Zhu, Kangkang Jiang, Yanran Li
---
最新提交年份:
2018
---
英文摘要:
  In this paper, we implement three state-of-art continuous reinforcement learning algorithms, Deep Deterministic Policy Gradient (DDPG), Proximal Policy Optimization (PPO) and Policy Gradient (PG)in portfolio management. All of them are widely-used in game playing and robot control. What\'s more, PPO has appealing theoretical propeties which is hopefully potential in portfolio management. We present the performances of them under different settings, including different learning rates, objective functions, feature combinations, in order to provide insights for parameters tuning, features selection and data preparation. We also conduct intensive experiments in China Stock market and show that PG is more desirable in financial market than DDPG and PPO, although both of them are more advanced. What\'s more, we propose a so called Adversarial Training method and show that it can greatly improve the training efficiency and significantly promote average daily return and sharpe ratio in back test. Based on this new modification, our experiments results show that our agent based on Policy Gradient can outperform UCRP.
---
中文摘要:
在本文中,我们实现了三种最先进的连续强化学习算法,即投资组合管理中的深层确定性策略梯度(DDPG)、近端策略优化(PPO)和策略梯度(PG)。它们都被广泛应用于游戏和机器人控制中。此外,PPO具有诱人的理论特性,有望在投资组合管理中发挥潜力。我们展示了它们在不同设置下的性能,包括不同的学习率、目标函数、特征组合,以便为参数调整、特征选择和数据准备提供见解。我们还对中国股市进行了深入的实验,结果表明,尽管二者都比较先进,但在金融市场上,PG比DDPG和PPO更可取。此外,我们还提出了一种所谓的对抗式训练方法,并表明该方法可以大大提高训练效率,显著提高平均日回报率和回测夏普比。基于这种新的修改,我们的实验结果表明,基于策略梯度的代理可以优于UCRP。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Portfolio Management        项目组合管理
分类描述:Security selection and optimization, capital allocation, investment strategies and performance measurement
证券选择与优化、资本配置、投资策略与绩效评价
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
--> Adversarial_Deep_Reinforcement_Learning_in_Portfolio_Management.pdf (1.01 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:组合管理 项目组 Optimization Quantitative Modification

沙发
可人4 在职认证  发表于 2022-6-23 18:51:36 |只看作者
组合管理中的对抗式深度强化学习梁志鹏*+,陈浩(音译)*+, 朱俊豪(Junhao Zhu)*+, 姜康康*+,李燕然*+*似然科技+中山大学{梁志平6号,陈浩348,朱建华25号,江KK3,李亚尔8号}@mail2。系统单元。埃杜。cnAbstract在本文中,我们在投资组合管理中实现了三种最先进的连续强化学习算法:深度确定性策略梯度(DDPG)、近端策略优化(PPO)和策略梯度(PG)。所有这些都广泛应用于游戏和机器人控制。此外,PPO具有诱人的理论特性,有望在投资组合管理中发挥潜力。我们展示了它们在不同设置下的性能,包括不同的学习率、目标函数、特征组合,以便为参数调整、特征选择和数据准备提供见解。我们还对中国股市进行了深入的实验,结果表明,尽管二者都比较先进,但在金融市场上,PG比DDPG和PPO更受欢迎。此外,我们提出了一种所谓的逆境培训方法,并表明它可以极大地提高培训效率,显著提高日平均回报率和回测中的夏普比率。基于这种新的修改,我们的实验结果表明,基于PolicyGradient的代理可以优于UCRP。索引词强化学习;投资组合管理深度学习;政策梯度;深层确定性政策梯度;近端策略优化。简介在投资组合管理中利用深度强化学习在算法交易领域越来越受欢迎。然而,深度学习因其对神经网络结构、特征工程等的敏感性而臭名昭著。

使用道具

藤椅
mingdashike22 在职认证  发表于 2022-6-23 18:51:39 |只看作者
因此,在我们的实验中,我们利用三种深度强化学习算法,即deepdeterministic policy gradient(DDPG)、proximate policy optimization(PPO)和policy gradient(PG),探索了不同优化器和网络结构对交易代理的影响。我们的实验是在中国股市的数据集上进行的。我们的代码可以在github上查看。二、本文主要由三部分组成。首先,投资组合管理,关注在不同的时间内实现高回报和低风险的最佳资产配置。投资组合管理方法的几个主要类别包括“追随赢家”、“追随输家”、“模式匹配”和“元学习算法”prohttps://github.com/qq303067814/Reinforcement-learning-in-portfoliomanagementposed.深度强化学习实际上是“模式匹配”和“元学习”的结合。强化学习是一种通过与环境交互进行学习,并通过反复试验逐步提高其性能的方法,已被提议作为投资组合管理策略的候选者。Xin Du等在强化学习中进行了QLearning和策略梯度,发现直接强化算法(策略搜索)比基于值函数的搜索算法更能简化问题表示[2]。Saud Almahdi等人扩展了递归强化学习,并在预期的最大提取下构建了最优的可变权重投资组合分配【3】。秀高等。

使用道具

板凳
大多数88 在职认证  发表于 2022-6-23 18:51:42 |只看作者
使用绝对利润和相对风险调整利润作为绩效函数,分别对系统进行培训,并雇佣一个由两个网络组成的委员会,该委员会被发现从外汇市场的交易中产生可观的利润[4]。由于深度学习的发展,人们熟知其在语音识别、图像识别中检测复杂特征的能力,强化学习和深度学习的结合,即所谓的深度强化学习,在机器人控制、游戏方面取得了巨大的成绩,在特征工程方面只需很少努力,就可以实现端到端的实现[5]。函数近似一直是解决大规模动态编程问题的一种方法[6]。深度Q学习,使用神经网络作为Q值函数的近似器,使用replaybuffer进行学习,在不改变网络结构和超参数的情况下,在玩不同游戏时获得了显著的性能[7]。深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)是我们选择用于实验的算法之一,它使用actorcritic框架来稳定训练过程,并实现更高的采样效率[8]。另一种算法是近似策略优化(ProximalPolicy Optimization,PPO),该算法将推导出策略的单调改进[9]。由于金融市场数据中的复杂、非线性模式和低信噪比,深度强化学习被认为具有潜力。蒋正尧等人提出了投资组合管理中深度强化学习的框架,并证明其优于传统的投资组合策略[10]。Yifeng Guo el位于。重新定义日志优化策略,并将其与强化学习相结合【12】。唐丽丽提出了一种不确定环境下基于模型的演员-评论家算法,其中最优值函数是在限制风险范围和有限资金数量的基础上通过迭代获得的[13]。

使用道具

报纸
可人4 在职认证  发表于 2022-6-23 18:51:45 |只看作者
David W.Luimplemented in Long-Short-Term Memory(LSTM)Recurrent Structures with Reinforction Learning or Evolution Strategies as agents。该系统的稳健性和可行性在英镑兑美元交易中得到验证【14】。Steve Y.Yang等人。提出了一种基于投资者情绪回报的交易系统,旨在只提取产生消极或积极市场反应的信号【15】。汉斯·布勒(Hans Buehler)提出了一个利用现代深度强化机器学习方法在存在交易成本、市场影响、流动性约束或风险限制等市场摩擦的情况下对冲衍生品组合的框架[16]。然而,以前的大多数工作都使用美国的股票数据,这无法为我们在波动性更大的中国股市中的实现提供帮助。此外,很少有研究在投资组合规模或不同特征组合的影响范围内进行。为了更深入地了解portfoliomanagement中强化学习的真实性能并发现其缺陷,我们选择了主流算法DDPG、PPOA和PG,并使用不同的超参数、优化器等进行了深入的实验。本文组织如下:在第二部分中,我们将正式建模投资组合管理问题。我们将证明交易费用的存在将使问题从一个纯粹的预测问题(其全局优化策略可以通过贪婪算法获得)变成一个计算昂贵的动态规划问题。大多数强化学习算法侧重于玩游戏的机器人控制,而我们将展示投资组合管理中的一些关键特征需要对算法进行一些修改,并提出我们的新修改,即所谓的对抗性训练。

使用道具

地板
mingdashike22 在职认证  发表于 2022-6-23 18:51:48 |只看作者
第三部分我们将进入我们的实验装置,其中我们将介绍我们的数据处理、算法以及我们对不同超参数对累积投资组合价值影响的研究。第四部分我们将展示我们的实验结果。在第五部分中,我们将得出我们的结论和在投资组合管理中深入强化学习的未来工作。三、 问题定义给定一段时间,例如一年,股票交易者投资于一组资产,并允许重新分配以最大化其收益。在我们的实验中,我们假设市场是连续的,换句话说,收盘价等于次日的开盘价。交易代理人每天通过分析数据观察股市,然后重新分配其投资组合。此外,我们假设代理行在交易日结束时进行重新分配,这表明所有重新分配都可以在收盘价完成。此外,我们在实验中还考虑了交易成本,即交易金额的一部分。形式上,投资组合由m+1资产组成,包括m风险资产和一无风险资产。在没有折旧的情况下,我们选择货币作为无风险资产。t期后ithasset的收盘价为vclosei,t。所有资产的收盘价包括t期的价格向量vcloset。建模为马尔可夫决策过程,表明下一个状态仅取决于当前状态和操作。元组(S,A,P,r,ρ,γ)描述了整个投资组合管理问题,其中S是一组状态,A是一组动作,P:S×A×S→ R是转移概率分布,R:S→ R是奖励函数。

使用道具

7
nandehutu2022 在职认证  发表于 2022-6-23 18:51:51 |只看作者
ρ: S→ R是初始状态砂γ的分布∈ (0,1)是折扣因子。值得注意的是,在马尔可夫决策过程中,大多数目标函数采用贴现率的形式,即isR=PTt=1γtr(st,at)。然而,在投资组合管理领域,由于时间t积累的财富将在时间t+1重新分配,这表明时间t的财富,PT=QTt=1部分是连续的乘积形式,而不是总和。需要进行一个明显的修改,即取收益的对数,将连续乘积形式转换为求和。为了澄清马尔可夫决策过程中的每个项目,我们在这里做了一些标记。定义yt=vtvt-1=(1,v1,tv1,t-1.vm、tvm、t-1) Tas价格波动向量。wt公司-1=(w0,t-1,w1,t-1.wm,t-1) t在时间t结束时显示分配的重量- 1带约束piwi,t-1= 1. 我们假设初始财富为P。投资组合管理中的状态、行动和回报定义如下。o状态:一个状态包括固定窗口中以前的开盘、收盘、高价、低价、成交量或其他一些财务指数动作(a):所需的分配权重,在-1=(a0,t-1、a1、t-1.am,t-1) t周期t的分配向量- 1,受约束Tpni=0ai,t-1= 1.由于一天内的价格变动,权重向量为-1在一天开始的时候会演变成wt-1一天结束时:wt-1=yt-1. 在-1年期-1·at-1图。1、权重向量的演化o报酬(r):财富减去交易成本的天真波动。财富的波动是-1·yt-1、同时,应从中减去交易成本,即uPmi=1 | ai,t-1.- wi,t-1|. 上述等式表明,只有股票交易才有交易成本。

使用道具

8
大多数88 在职认证  发表于 2022-6-23 18:51:55 |只看作者
具体而言,我们设定u=0.25%。总之,时间t-1的即时奖励为:rt(st-1,在-1) =日志(在-1·yt-1.-umXi=1 | ai,t-1.-wi,t-1|).交易成本的引入对一些传统的交易策略来说是一场噩梦,如追随赢家、追随输家等。即使我们能够准确预测未来的所有股票价格,在周期长或投资组合规模大的情况下,推导最优策略仍然很难。在没有交易成本的情况下,贪婪算法可以实现最优利润。具体来说,将所有财富分配到预期增长率最高的资产中是这种天真环境下的最优策略。然而,如果交易成本对即时回报的权重过高,交易成本的存在可能会将之前权重向量变化过大的行为变成次优行为。尽管已有大量文献讨论了马尔可夫决策过程,但由于其性质,投资组合管理仍然具有挑战性。首先,股票数据中包含的大量噪音导致价格扭曲。对股票价格和金融指数的观察很难反映出各州的情况。为算法提供不充分的状态表示将导致其性能的灾难性失败。此外,不同状态的跃迁概率仍然未知。在试图解决如此复杂的动态编程问题之前,我们必须先了解环境。虽然买卖股票必须由人来进行,但这里我们仍然采用了连续假设。事实上,当财富远远超过股票价格时,这种简化不会损失太多的一代人。四、 深度强化学习强化学习,尤其是和最先进的深度学习方法相结合,被认为是解决投资组合问题的一个很好的候选者。

使用道具

9
kedemingshi 在职认证  发表于 2022-6-23 18:51:57 |只看作者
强化学习是一种学习方法,通过这种方法,agent可以使用较少的先验信息与环境进行交互,并通过尝试和错误从环境中学习,同时重新确定其策略。它对建模和特征工程的要求较低,适合处理复杂的金融市场。此外,深度学习在语音识别和图像识别方面取得了快速进展。与传统方法相比,它的性能已经证明它能够捕获复杂的非线性模式。事实上,使用神经网络设计交易算法的不同方法已经被提出。与在项目组合管理中单独使用深度学习或强化学习相比,深度强化学习主要有三个优势。首先,深度强化学习以市场信息为输入,分配向量为输出,是一种全方位的智能交易方法,它避免了预测未来股价的手工策略,能够完全自我改进。第二,深度强化学习并没有明确涉及对股票表现的预测,这一直是非常困难的。因此,较少的挑战会阻碍强化学习绩效的提高。第三,与传统的强化学习相比,深度强化学习通过使用神经网络来逼近策略或价值函数,这不仅可以包括设计特定神经网络结构的灵活性,还可以防止所谓的“维度诅咒”,实现大规模投资组合管理。提出了几种连续强化学习方法,如策略梯度、对偶DQN、深层确定性策略梯度和近端策略优化。我们在实验中使用后两种算法来测试它们在投资组合管理中的潜力。A.

使用道具

10
大多数88 在职认证  发表于 2022-6-23 18:52:00 |只看作者
Deep Deterministic Policy Gradient Deep Deterministic Policy Gradient(DDPG)是Q-learning和Policy Gradient的结合,成功地将神经网络作为基于Deterministic Policy Gradient算法的函数逼近器。为了说明这一想法,我们将简要介绍Q-learning和policygradient,然后介绍DDPG。Q-learning是一种基于Q-valuefunction的强化学习。具体而言,Q值函数在s状态下执行动作a并在未来遵循策略π时,会给出预期的累积回报,即:Qπ(st,at)=Eri≥t、 si>t E,ai>tπ[Rt | st,at]Bellman方程允许我们通过递归计算:Qπ(st,at)=Ert,st+1~E[r(st,at)+γEat+1~π[Qπ(st+1,at+1)]]对于作为函数u:S的确定性策略→ A、 上述方程可以写成:Qπ(st,at)=Ert,st+1~E[r(st,at)+γ[Qu(st+1,u(st+1))])]具体来说,Q-learning采用贪婪策略,即:u(s)=arg maxaQ(s,a)。深度强化学习使用神经网络作为Q函数逼近器,并提出了一些包括replaybuffer在内的方法来提高对最优策略的收敛性。不是使用迭代来推导常规Q值函数,而是通过最小化以下损失函数来推导由θQ参数化的函数近似器:L(θQ)=Est~ρβ,at~β、 rt公司~[(Q(st,在|θQ处)- yt)],其中yt=r(st,at)+γQ(st+1,u(st+1)|θQ)值得注意的是,yti是由在线网络软更新的分离网络计算的。这种简单的改变使学习动作值函数的相对不稳定问题更接近于监督学习的情况,这是一个存在稳健解决方案的问题。这是另一种提高收敛性的方法。在处理连续动作空间时,由于“维度诅咒”,当动作空间很大时,天真地实施Q学习是很难的。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2022-6-26 21:28