基于多智能体强化学习的滑模控制器参数整定
针对永磁同步电机系统中滑模控制器参数多且范围大难以整定,从而导致永磁同步电机控制效果不佳的问题,提出利用多智能体强化学习对滑模控制器参数进行整定的方法。该方法通过多个智能体共享奖赏的方式对控制器每个参数进行独立寻优,有效避免了不同参数选取范围差别较大而导致智能算法多参数同步寻优时产生的维度灾难问题。通过Python与MATLAB联合仿真,并与采用遗传算法整定参数的控制器进行比较,结果表明多智能体的多臂老虎机算法较遗传算法整定的速度滑模控制器在超调量、响应速度、抗干扰能力和鲁棒性方面具有明显的优势,验证了该方法能够有效地解决滑模控制器参数难以整定的问题。
基于强化学习算法的串联液压机械臂运动优化控制研究
串联机械臂是一种融合机电液特征的连杆机构,针对复杂多变运行工况时运动稳定性能下降的缺陷,在串联机械臂运动系统结构和运动动力学模型基础上,对串联机械臂运动控制系统控制拓扑结构进行了重构,设计了基于强化学习算法的运动控制策略,通过在线标定优化相关参数,实现运动控制的稳定性,在构建的变工况运动控制试验台架中验证算法的可行性,实验结果表明,设计的强化学习算法能够有效的提升串联机械臂的运动稳定性。
基于强化学习的航空零件复合材料缠绕机床运动优化方法
大型结构件自动铺缠是航空工业中重要的自动化工艺,这些结构件中存在曲率较大的加工区域,加工过程中产生的剧烈转角变化降低了实际加工速度,增加了加工时间。文中研究了一种针对六轴铺缠机床的优化方法,目的在于保证较大负载转轴运动平稳的前提下,提高加工效率。在刀具路径已经确定的情况下,依据刀具路径和机床运动性能搭建用于强化学习的简单仿真环境,使用PPO策略决策在不同状态下分配转台轴的运动量,进而规划出相应的机床各轴加工轨迹。选用铺缠路径对两种不同分配冗余轴的策略进行比较,验证效果表明,强化学习规划路径能够在保证实际进给速度的前提下有效降低关节的速度波动。
分阶Dyna强化学习算法
针对现有Dyna强化学习体系结构下,“规划”和“学习”在计算资源分配上的不合理问题,提出了一种分阶Dyna体系结构,随着经验知识的不断积累,将学习过程划分为探索阶段、变比重学习阶段和优化阶段,分别进行“规划”和“学习”的协调控制,大大减少了计算资源的浪费。结合传统的Q-学习算法,设计了分阶Dyna—Q强化学习算法,以适应动态不确定环境下的任务。在一个标准强化学习问题中,验证了所设计的分阶Dyna强化学习算法比基本Dyna强化学习算法具有更好的学习性能。
基于强化学习的液动节流阀阀位控制策略
控压钻井是一种复杂的钻井工艺,自动节流管汇上节流阀的控制是实现井底压力精确控制的关键技术。首先,建立控压钻井装置中液动节流阀的动态模型,该节流阀采用比例伺服阀作为液压调节元件,采用控制器控制比例伺服阀的阀芯移动改变液动节流阀液压缸中液压油的流入量,进而实现对液动节流阀阀位的控制。其次,提出一种基于深度强化学习的液动节流阀阀位控制策略,该策略利用DQN(Deep Q-Network)算法,通过液动节流阀和智能体相互交换过程中学习比例伺服阀对液动节流阀阀位的控制。最后,通过仿真和现场试验验证了阀位控制策略的有效性,为成功实施控压钻井提供了保障。
一种视觉机器人抓取控制策略算法研究
针对视觉机器人抓取目标的稳定性和准确性,提出一种关注探索方法的强化学习策略。采用深度关注的确定性策略梯度算法,利用关注区域建议网络来选择预勘探区域消息,并通过自适应探索方法计算该消息,以随着目标的变化调整策略。根据末端执行器与预勘探区域中心之间的距离,定义分层奖励函数,用于减少稀疏奖励矩阵带来的杂项信息。在Bullet3环境下进行了训练,实验结果表明:所提策略能够克服训练过程中可能出现的稳定性差和收敛效率低的问题,能产
带退化效应多态生产系统调度与维护集成优化
为了探索设备退化效应对维护和生产调度耦合关系的影响,对多态单机生产系统调度与预防性维护集成优化进行研究。基于预防性维护费用、工件加工成本以及工件完工回报值,建立了无限阶段平均期望报酬Markov决策模型,并分析和证明了该集成优化模型最优平稳策略的存在性,获得了该模型的最优方程。基于模型最优方程设计了一种无模型强化学习算法用于求解Markov决策模型,可有效解决传统动态规划算法在求解模型时所遭遇的维数灾和模型灾难题。为了评估该无模型强化学习的性能,基于无限阶段平均期望报酬设计了一种启发式求解算法,实验分析结果验证了所引入的无模型强化学习算法的有效性。最后,对该强化学习算法参数进行了敏感性分析,探索各参数对算法性能的影响,为算法设计及其性能提高提供了相应的实验依据。
-
共1页/7条









