1.前言

随着无线网络通信的越发强大，“秀才不出门，便知天下事”已经成为常态，无人机、人工智能在农业上也越发重要，自动监控农田，从而改善农业景观，执行大量图像分类任务，以防止在发生火灾或洪水等事件时对农场造成损害，但以目前的科技来讲，无人机的能量和计算能力有限，可能无法执行所有密集的图像分类任务，如何提高无人机的能力成了重中之重。

2 .相关工作

利用强化学习（RL）来管理无线网络资源以优化性能在许多不同应用中得到广泛研究。调查了AI在5G和6G网络中的挑战和机遇。如能源管理和无线电资源分配。在6G中使用AI实现能源效率将是必不可少的。此外，有人提出了一种深度RL方法，用于通过卸载解决最大化计算和最小化能耗的联合优化问题，用于5G及更高版本的网络。

他们的网络还利用MEC服务器作为处理单元，以协助其网络进行计算密集型任务。同样，有人在工业物联网环境中引入了深度RL算法。只为找到一种最优的虚拟网络功能放置和调度策略，以最小化端到端延迟和成本。

在智能农场中使用无人机的研究上，详细介绍了如何使用无人机捕捉航拍图像，并使用图像分类来识别田地中的作物和杂草。使用无人机喷洒杀虫剂的想法，并讨论了延迟和电池使用之间的权衡。

在5G及更高版本的网络中，同时使用无人机和MEC设备对于应用程序是有益的。针对不同应用程序，如空间-空气-地面网络和紧急搜索和救援任务，提供了关于使用无人机和MEC的广泛调查。此外，也讨论了使用无人机为6G车联网应用程序提供连接的可能性。

优化无人机的能源消耗和延迟的现有方法并不仅限于智能农场场景。例如，通过优化以下参数“用户关联，功率控制，计算能力分配和位置规划”来减少功耗。考虑了由卫星、无人机、地面基站和物联网设备组成的网络。使用深度RL作为任务调度解决方案，以在考虑无人机能量限制的同时最小化处理延迟。或者，使用聚类和轨迹规划来优化能源效率和任务延迟时间。

此外，在无人机群体场景中使用博弈论解决方案来解决任务卸载问题。虽然我们在探索类似的问题，但我们专注于通过DQL共同解决能量和任务延迟优化问题。

3. 系统模型

我们的网络由一组无人机j ∈ J组成。它们可以与物联网设备z ∈ Z、其他无人机和一组MEC服务器l ∈ L进行通信。每个无人机都有一个最大容量为ΥBj的电池。无人机和MEC设备都具有处理能力，j0 ∈ J +，它们可以处理物联网设备的任务。

在时间t ∈ T，物联网设备可以将K种类型的任务卸载到无人机（αBjt）。每种任务类型都有预定义的截止日期αDjt，以及处理单元执行此类任务所需的时间αPjt。目标是为每个无人机找到一个调度算法，以便以一种方式将每个任务分配给处理单元，使得任务能够在其截止日期之前完成，并且最大化无人机的悬停时间。这两个目标合并形成我们的多目标最大化问题，最大化：

其中W代表最大化悬停时间目标的重要性，ΥRj0代表一个无人机的剩余电量，vjt代表已发生的任务截止日期违规次数，Θ是用于归一化v的缩放因子。第一个目标是最大化最低剩余电量，以延长无人机网络的悬停时间。无人机的剩余电量ΥRj0可以计算如下：

其中ΥBj0表示电池容量，ΥHj0表示无人机悬停所需的能量，ΥAj0表示天线传输信号所需的能量，ΥIj0表示处理单元在空闲模式下消耗的能量，T表示模拟时间，ΥCj0表示无人机在完成任务时消耗的能量。

pjtj0t0是一个二进制决策变量，如果处理单元j0处理任务，则等于1。处理单元延迟∆jt是任务必须保留在处理单元队列中的总次数，加上任务的处理延迟αPjt。处理单元延迟由以下公式给出：

p+jtj0t0是一个二进制决策变量，如果它是处理单元j0开始处理任务的时间间隔t0，则等于1，t0是任务在处理单元j0上开始处理的时间间隔，t是任务到达处理单元j的时间间隔。

在时间t发生截止日期违规vjt，当物联网到无人机的传输延迟Δzjt，处理单元延迟Δjt和处理单元之间的传输延迟Δj0t0的总和超过任务的截止日期αDjt时。这可以表示为一个数学公式：

xjtj0用于确定任务是否在处理单元j0上完成。当任务将在处理单元j0上执行时，它被设置为1，否则将设置为0。为了避免乒乓效应，一个任务只能被卸载一次。

在传统的 Q-Learning 中，Q 值存储在 Q 表中。当代理需要做出决策时，它会在 Q 表中查找当前状态，并选择具有最高 Q 值的动作。Q 值衡量了在给定状态下该动作的未来累积折扣奖励。在每个时间步长，代理都会执行一个动作并观察环境的反馈，然后更新 Q 表以反映新的知识。

在深度 Q-Learning 中，我们使用一个深度神经网络来代替 Q 表。神经网络的输入是状态，输出是每个动作的 Q 值估计。代理选择具有最高 Q 值估计的动作。在每个时间步长，代理执行动作并观察环境的反馈，然后使用反馈来训练神经网络。这种方法可以处理更复杂的状态空间，并且不需要显式地维护 Q 表。

在 DQL 中，代理执行选择的动作后，该状态-动作对的 Q 值在 Q 表中更新，代理移动到另一个状态。由于计算机的有限内存，Q-Learning 的状态空间和动作空间是有限的。在 DQL 中，我们使用 DNN 来预测给定状态下每个动作的 Q 值，而不是在 Q 表中查找 Q 值。代理选择并执行动作后，代理的经验被收集。

经验是一个元组，包括代理的当前状态、下一个状态、动作和奖励。经验存储在称为经验回放的缓冲区中，并且该缓冲区用于训练 DNN。随着经验的增加，DNN 变得更准确地预测每个动作的 Q 值。

网络中的每个无人机都将有自己的MDP 框架。在这个问题中，无人机是代理，它们从物联网设备接收任务，并必须决定任务将在哪里处理。在无人机将任务发送到适当的处理单元后，无人机的电池电量会发生变化，处理单元的延迟也会发生变化，并将这些变化报告给无人机。无人机必须选择能够最小化截止日期违规和能量消耗的处理单元，从而获得最高的奖励。MDP 定义如下：

状态：状态包括卸载的任务类型 k，所有处理单元延迟 ∆j0∈J+，每个无人机 ΥLj0∈J 的电池电量和每个无人机与 MEC 设备之间的传输延迟 ∆j1∈J+t∈Tj2∈J+。状态定义为：

奖励函数分为两部分，分别是电池电量奖励(ΥL_ja-1)和截止日期违规惩罚(1-E(vja)+V_L_ja*E(vja))。ΥL_ja奖励代理选择不会导致能量消耗显著增加的行动。其中e指的是能量消耗变化的阈值。V_L_ja惩罚代理选择导致截止日期违规的行动。

如果通过将任务卸载到另一个处理单元可以避免截止日期违规，则惩罚会更严厉。如果截止日期违规是不可避免的，则惩罚会较轻，因为不存在更好的计算位置。

4.基准方法

1.循环调度(RR)：网络中具有处理单元的每个设备j0∈J+都被分配一个从1到J+的顺序。当前无人机将按照有序列表循环，确定任务卸载的位置。

2.最高能量优先（HEF）：无人机定期更新彼此的电池电量。当前无人机首先找到剩余电量最高的设备。如果当前能量水平与最高能量水平之间的差异超过1％，则将任务卸载到具有最高能量水平的无人机上，否则在本地计算任务。

由于MEC设备具有无限电力，我们必须限制任务发送到MEC的次数。每个MEC设备的选择概率为1 / J +。

3.最低队列时间和最高能量优先（QHEF）：无人机定期更新彼此的电池电量和队列时间。首先，该算法找到最短的排队时间。然后，无人机找到具有最高能量水平且队列时间低于或等于最小队列时间的设备。如果最高能量水平比当前能量水平高一个阈值，则当前无人机将任务卸载到该设备上。否则，无人机将在本地计算该任务。

4.Q-Learning：我们使用了提出的Q-Learning算法。Q-Learning算法中定义的动作集，奖励函数和epsilon-greedy策略。 Q-Learning算法的状态相同，但没有传输延迟∆j1∈J +t∈Tj2∈J +。

5.性能评估

我们使用 Simu5G，一个运行在 Omnet++ 上的 5G 网络仿真器，来模拟我们的智能农场网络。在我们的模拟中，有四个无人机（J=4）和一个 MEC 设备（L=1）。有三种任务类型：火灾检测、病虫害检测和生长监测。

任务到达时间间隔被建模为指数分布，每种任务类型都有独特的平均到达速率和处理时间。

剩余电量和延迟违规结果是使用不同的种子值进行十次运行的平均值。对于 Q-Learning 和 Deep Q-Learning，假定学习率为 0.05，折扣值为 0.85。为了与参考文献 [6] 进行比较，我们使用了他们的能量消耗模型和参数。在电池类型和悬停功耗公式方面，我们也做出了相同的假设。

模拟无人机在整个仿真过程中的能量水平，每个能量消耗参数的值（以瓦时为单位）如下：最大电池容量 (ΥBj0) 等于 570，悬停 (ΥHj0) 等于 211，天线等于 17，空闲处理单元等于 4320，活动处理单元等于 12960。

6.结论：

我们提出了一种基于深度强化学习的算法，以提高现有Q-Learning算法的收敛速度。算法的深度学习部分还允许我们将更多的观测值纳入状态中，因此我们的决策算法比Q-Learning具有更多的信息。我们将所提出的算法与四种基准算法RR、HEF、QHEF和Q-Learning进行了比较，结果表明，DQL算法的收敛速度比Q-Learning快13倍。

最后，DQL在剩余能量百分比和截止日期违规百分比方面与Q-Learning具有可比性。因此，它是我们联合优化问题的更优解决方案，能够比Q-Learning更快地达到最优解。未来，我们计划进一步减少收敛时间，并解决可扩展性问题。

标签：

上一篇：家长们注意啦！这伙人盯上孩子的电话手表了

下一篇：最后一页