警报和通知
警报在 Director 中的控制板上以及其他高级别视图中显示,带有警告和严重警报符号。警报适用于获得 Premium 许可的站点。警报每分钟自动更新一次;也可以根据需要更新警报。
警告警报(琥珀色三角形)指示已达到或超过条件的警告阈值。
严重警报(红色圆形)显示已达到或超过条件的严重阈值。
可以查看警报的更多详细信息,方法是从边栏中选择警报,单击边栏底部的转至“警报”链接,或者在 Director 页面顶部选择警报。
在“警报”视图中,可以过滤和导出警报。例如,上个月中针对特定交付组的出现故障的多会话操作系统计算机,或针对特定用户的所有警报。有关详细信息,请参阅导出报告。
Citrix 警报
Citrix 警报是指在 Director 中监视且源自 Citrix 组件的警报。可以在 Director 内部的警报 > Citrix 警报策略中配置 Citrix 警报。作为配置的一部分,可以设置要在警报超出所设置的阈值时通过电子邮件向个人和组发送的通知。有关设置 Citrix 警报的详细信息,请参阅创建警报策略。
注意:
确保您的防火墙、代理或 Microsoft Exchange Server 不会阻止电子邮件警报。
智能警报策略
一组具有预定义阈值的内置警报策略适用于交付组和多会话操作系统 VDA 作用域。此功能需要 Delivery Controller 7.18 版或更高版本。可以在警报 > Citrix 警报策略中修改内置警报策略的阈值参数。 当在站点中至少定义了一个警报目标(一个交付组或一个多会话操作系统 VDA)时,将创建这些策略。此外,这些内置警报会被自动添加到新的交付组或多会话操作系统 VDA。
升级 Director 以及您的站点时,将执行早期 Director 实例中的警报策略。仅当监视数据库中不存在任何相应的警报规则时,才创建内置警报策略。
有关内置警报策略的阈值,请参阅警报策略条件部分。
高级警报策略
Director 的“主动通知和警报”功能得以增强,包括了一个名为高级警报策略的新警报框架。使用此功能,您可以通过包括每个元素或条件的具体细节来创建警报,从而增强对警报作用域的控制。当前,这些策略包括成本节省金额和基础结构警报。
随着高级警报策略(一种数据源驱动的警报)的引入,您可以使用多条件作用域过滤。
此功能可帮助您减少过多的警报,这可能会导致解决重要问题的响应能力或有效性降低。此策略有助于衡量警报策略的有效性和管理员的参与度。
可以从警报 > 高级警报策略 > 创建策略部分中创建高级警报策略。
可以将类别选择为 Power Managed Machines failed to power on(无法打开电源的电源管理计算机)、Power Managed Machines failed to power off(无法关闭电源的电源管理计算机)、Power Managed Machines with high uptime(正常运行时间较长的电源管理计算机),然后为策略选择所需的条件。有关如何创建策略的详细信息,请参阅创建警报策略。创建策略后,可以在“Citrix 警报”页面上编辑、删除或禁用该策略。
可以为上述每个条件选择特定的参数和相应的选项。
Power Managed Machines with high uptime(正常运行时间较长的电源管理计算机)类别检查以下指标:
- 超过正常运行时间阈值的计算机数量
- 重新警报时间间隔(以分钟为单位)时间间隔最短可以为 60 分钟
Power Managed Machines failed to power on(无法打开电源的电源管理计算机)和 Power Managed Machines failed to power off(无法关闭电源的电源管理计算机)类别检查以下指标:
- 超过正常运行时间阈值的计算机数量
- 采样时间间隔(以分钟为单位)时间间隔可以是 30 分钟的倍数
- 重新警报时间间隔(以分钟为单位)重新警报可以是 60 分钟的倍数
可以根据需要设置上述类别的严重性。也可以为这些警报安排重新警报的时间间隔。
定义策略的作用域
可以定义警报的作用域并添加例外。警报仅针对所选作用域生成,使用添加异常排除的子作用域不包含在警报生成中。此功能可帮助您在精细级别上创建警报。
可以通过电子邮件或 Webhook URL 创建通知。还可以选择接收警报时使用的首选语言。还可以选择一个选项,用于通过电子邮件的 .CSV 文件附件或通过 Webhook URL 在 json 有效负载中接收警报参数。附件中包括所需参数的详细信息。有关详细信息,请参阅警报内容的增强功能。
以下数据是通过电子邮件或 Citrix 警报页面作为警报接收的:
字段 | 说明 |
---|---|
客户 ID | 站点的客户 ID。 |
警报级别 | 此值是为每个警报条件设置的预定义值。可能的值为“严重”和“警告”。 |
条件 | 此值是创建策略时设置的条件。例如,未注册的计算机数量等于或大于 20。 |
目标 | 触发警报的交付组或站点的名称。 |
站点 | 站点的名称。 |
Scope(范围) | 策略的作用域。此值还包括子作用域。 |
策略 | 策略的名称。 |
说明 | 触发警报的问题的描述。 |
如何使用 PowerShell 脚本创建高级警报策略?
用于创建警报策略的 PowerShell 脚本:
asnp Citrix.Monitor.*
# Add Parameters
$timeSpan = New-TimeSpan -Seconds 30
$alertThreshold = 1
$alarmThreshold = 2
# Add Target UID's
$targetIds = @()
$targetIds += "e9a211b4-a1f3-4f74-b6c7-85225902e997"
# Add email addresses
$emailaddress = @()
$emailaddress += "loki@abc.com"
# Create new policy
$policy = New-MonitorNotificationPolicy -Name "FailedMachinePercentageAlertCreationViaPowershell" -Description "Policy created to test urm" -Enabled $true
<!--NeedCopy-->
将以下行替换为 FailedMachinePercentage 的正确条件
Add-MonitorNotificationPolicyCondition -Uid $policy.Uid -ConditionType FailedMachinePercentage -AlertThreshold $alertThreshold -AlarmThreshold $alarmThreshold -AlertRenotification $timeSpan -AlarmRenotification $timeSpan
Add-MonitorNotificationPolicyTargets -Uid $policy.Uid -Scope "DG-Multisession" -TargetKind DesktopGroup -TargetIds $targetIds
$policy = Get-MonitorNotificationPolicy -Uid $policy.Uid
$policy
<!--NeedCopy-->
在上图中,您可以看到策略已创建,Uid 为 10。
向配置中添加电子邮件
Set-MonitorNotificationEmailServerConfiguration -ProtocolType SMTP -ServerName NameOfTheSMTPServerOrIPAddress -PortNumber 80 -SenderEmailAddress loki@abc.com -RequiresAuthentication 0
<!--NeedCopy-->
向策略中添加电子邮件
Add-MonitorNotificationPolicyEmailAddresses -Uid $policy.Uid -EmailAddresses $emailaddress -EmailCultureName "en-US"
<!--NeedCopy-->
用于添加电子邮件的示例脚本:
Add-MonitorNotificationPolicyEmailAddresses -Uid 10 -EmailAddresses $emailaddress -EmailCultureName "en-US"
<!--NeedCopy-->
向策略中添加 Webhook URL
Set-MonitorNotificationPolicy –Uid $polcy.Uid –Webhook 'URL'
<!--NeedCopy-->
用于添加 Webhook URL 的示例脚本:
Set-MonitorNotificationPolicy –Uid 10 –Webhook 'https://hooks.slack.com/triggers/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'
<!--NeedCopy-->
获取已创建策略的详细信息
Get-MonitorNotificationPolicy -Uid 10
<!--NeedCopy-->
基础结构策略(预览版)
引入这些策略的目的是创建与支持的 Citrix Virtual Apps and Desktops 组件的运行状况有关的警报。
基础结构监视设置完成后,可以使用 Director 中可用的运行状况数据为任何必需的组件配置警报。管理员可以设置条件、作用域和通知媒介,以通过电子邮件或通过 Webhook 的 json 有效负载接收重要警报。发出的警报也可以在 Citrix 警报部分中找到以供分析和管理。
作为新引入的基础结构策略的一部分,警报条件分为以下四个部分:
- 可访问行
- 依赖服务
- 影响
- 资源利用率
可以根据您的组织优先级将每个类别中的条件设置为严重和警告。也可以为这些警报安排重新警报的时间间隔。
可以从警报 > Citrix 警报策略部分中创建基础结构策略。可以选择所需的类别,然后为该策略选择所需的条件。有关如何创建策略的详细信息,请参阅创建警报策略。创建策略后,可以在 Citrix 警报页面上编辑、删除或禁用该策略。
有关每个类别和组件中支持的条件的更多详细信息,请参阅以下内容:
以下数据是通过电子邮件或“Citrix 警报”页面作为警报接收的:
字段 | 说明 |
---|---|
客户 ID | 站点的客户 ID。 |
警报级别 | 可能的值为“严重”和“警告”。 |
目标 | 触发警报的计算机的名称。 |
Time(时间) | 触发警报的时间。 |
Scope(范围) | 策略的作用域。 |
策略 | 策略的名称。 |
说明 | 触发警报的问题的描述。 |
创建警报策略
创建一条警报策略,例如,在满足一组特定会话计数条件时生成警报:
- 转至警报 > Citrix 警报策略,然后选择策略,例如“多会话操作系统策略”。
- 单击创建。
- 命名并描述该策略,然后设置触发警报时必须满足的条件。例如,指定“最大已连接会话数”、“最大已断开会话数”和“最大并发会话总数”对应的警告和严重警报数。警告值不得大于严重警报值。有关详细信息,请参阅警报策略条件。
- 设置重新发出警报的时间间隔。如果仍满足警报的条件,则在达到此时间间隔时会再次出发警报,如果在警报策略中设置了此时间间隔,则会生成电子邮件通知。已消除的警报在达到重新发出警报的时间间隔时不生成电子邮件通知。
- 设置作用域。例如,为特定交付组进行设置。
-
在“通知”首选项中,指定触发警报时必须通过电子邮件向哪些用户发送通知。必须在电子邮件服务器配置选项卡中指定电子邮件服务器,才能在“警报策略”中设置电子邮件通知首选项。
-
还可以通过 .CSV 附件或通过 json 有效负载接收警报内容。为此,请选中以下复选框:
- 将 json 有效负载作为附件包含在 Webhook 中
- 将 csv 文件作为附件包含在电子邮件中
注意:
要通过 .CSV 附件接收警报内容,json 有效负载选项目前仅适用于少数警报。有关详细信息,请参阅警报内容的增强功能
-
- 单击保存。
创建一条包含在作用域中定义的 20 个或更多交付组的策略大约需要 30 秒才能完成配置。此时将显示一个微调器。
如果为最多 20 个不同的交付组创建 50 多个策略(共 1000 个交付组目标),可能会导致响应时间增加(超过 5 秒)。
将包含活动会话的计算机从一个交付组移至另一个交付组可能会触发使用计算机参数定义的错误交付组警报。
注意:
删除警报策略后,该策略生成的警报通知最多可能需要 30 分钟才能停止。
警报内容的增强功能
Director 的警报功能得以增强,包含了 CSV 附件和 JSON 有效负载。借助此增强功能,您可以通过电子邮件在 CSV 附件中获取警报详细信息,如果有 Webhook,则以 JSON 有效负载的形式获取警报详细信息。使用此 CSV 附件或 JSON 有效负载,您可以接收详细的丰富内容,从而帮助快速识别和解决问题。
目前,此增强功能仅适用于以下警报:
- 计算机正常运行时间
- 开机操作失败
- 操作失败
- 未注册计算机 (%)
要使用此功能,请导航到警报并选中以下复选框:
- 将 json 有效负载作为附件包含在 Webhook 中
- 将 csv 文件作为附件包含在电子邮件中
下面是 Citrix 警报策略部分中的屏幕截图:
下面是高级警报策略部分中的屏幕截图:
CSV 附件
下表提供了所有支持的警报的 .CSV 附件列:
列 | 适用的警报 |
---|---|
计算机名称、IP 地址和交付组名称 | 计算机正常运行时间、电源关闭操作失败和电源打开操作失败以及未注册的计算机 (%) |
当前注册状态、失效日期、故障状态和生命周期状态 | 未注册的计算机 (%) |
上次电源操作失败原因、上次电源操作触发者、上次电源操作类型和上次电源操作完成日期 | 电源关闭操作失败和电源打开操作失败 |
电源状态、打开电源日期和总正常运行时间(以分钟为单位) | 计算机正常运行时间 |
Webhook 有效负载
未注册的计算机百分比警报
Webhook Payload
{
"Address": "<Webhook URL>",
"NotificationId": "<NotificationGUID>",
"NotificationState": "NotificationActive",
"Priority": "<Critical/Warning>",
"Target": "<DeliveryGroupName>",
"Condition": "Unregistered machines (in %)",
"Value": "<Value Set as Threshold>",
"Timestamp": "<Timestamp string Eg: April 25, 2024 9:33 PM (UTC +5)>",
"PolicyName": "<Alert Policy Name>",
"Description": "<Alert Policy Description>",
"Scope": "DeliveryGroup",
"Site": "<Name of the Site>",
"AttachmentData": [{
"Machine Name": "<Name of the Machine>",
"IP Address": “<IP Address>”,
"Delivery Group Name": "<Name of the DeliveryGroup>",
"Current Registration State": "Unregistered",
"Failure Date": “<Date of Failure>”,
"Fault State": "<Fault State of the Machine>",
"Lifecycle State": "<Lifecycle state of the Machine>"
},
{
"Machine Name": "<Name of the Machine>",
"IP Address": “<IP Address>”,
"Delivery Group Name": "<Name of the DeliveryGroup>",
"Current Registration State": "Unregistered",
"Failure Date": “<Date of Failure>”,
"Fault State": "<Fault State of the Machine>",
"Lifecycle State": "<Lifecycle state of the Machine>"
}]
}
<!--NeedCopy-->
打开电源操作失败警报
Webhook Payload Body
{
"Address": "<Webhook URL>",
"NotificationId": "<NotificationGUID>",
"NotificationState": "NotificationActive",
"Priority": "<Critical/Warning>",
"Target": "<DeliveryGroupName>",
"Condition": "Failure To PowerOn Action",
"Value": "<Value Set as Threshold>",
"Timestamp": "<Timestamp string Eg: April 25, 2024 9:33 PM (UTC +5)>",
"PolicyName": "<Alert Policy Name>",
"Description": "<Alert Policy Description>",
"Scope": "DeliveryGroup",
"Site": "<Name of the Site>",
"AttachmentData": [{
"Machine Name": "<Name of the Machine>",
"IP Address": “<IP Address>”,
"Delivery Group Name": "<Name of the DeliveryGroup>",
"Last Power Action Failure Reason": "<HypervisorReportedFailure,HypervisorRateLimitExceeded,UnknownError,Power Action Type>",
"Last Power Action Triggered By": "<End-User,Administrator,Auto-Scale,Schedule>",
"Last Power Action Type": “<PowerOn/PowerOff>”,
"Last Power Action Completed Date": "<Time string Eg: 2024-05-15T15:04:27.723>",
{
"Machine Name": "<Name of the Machine>",
"IP Address": “<IP Address>”,
"Delivery Group Name": "<Name of the DeliveryGroup>",
"Last Power Action Failure Reason": "<HypervisorReportedFailure,HypervisorRateLimitExceeded,UnknownError,Power Action Type>",
"Last Power Action Triggered By": "<End-User,Administrator,Auto-Scale,Schedule>",
"Last Power Action Type": “<PowerOn/PowerOff>”,
"Last Power Action Completed Date": "<Time string Eg: 2024-05-15T15:04:27.723>"
}]
}
<!--NeedCopy-->
关闭电源操作失败警报
{
"Address": "<Webhook URL>",
"NotificationId": "<NotificationGUID>",
"NotificationState": "NotificationActive",
"Priority": "<Critical/Warning>",
"Target": "<DeliveryGroupName>",
"Condition": "Failure To PowerOff Action",
"Value": "<Value Set as Threshold>",
"Timestamp": "<Timestamp string Eg: April 25, 2024 9:33 PM (UTC +5)>",
"PolicyName": "<Alert Policy Name>",
"Description": "<Alert Policy Description>",
"Scope": "DeliveryGroup",
"Site": "<Name of the Site>",
"AttachmentData": [{
"Machine Name": "<Name of the Machine>",
"IP Address": “<IP Address>”,
"Delivery Group Name": "<Name of the DeliveryGroup>",
"IP Address": "<IPV4 Address of the Machine>",
"Last Power Action Failure Reason": "<HypervisorReportedFailure,HypervisorRateLimitExceeded,UnknownError,Power Action Type>",
"Last Power Action Triggered By": "<End-User,Administrator,Auto-Scale,Schedule>",
"Last Power Action Type": “<PowerOn/PowerOff>”,
"Last Power Action Completed Date": "<Time string Eg: 2024-05-15T15:04:27.723>"
},
{
"Machine Name": "<Name of the Machine>",
"IP Address": “<IP Address>”,
"Delivery Group Name": "<Name of the DeliveryGroup>",
"IP Address": "<IPV4 Address of the Machine>",
"Last Power Action Failure Reason": "<HypervisorReportedFailure,HypervisorRateLimitExceeded,UnknownError,Power Action Type>",
"Last Power Action Triggered By": "<End-User,Administrator,Auto-Scale,Schedule>",
"Last Power Action Type": “<PowerOn/PowerOff>”,
"Last Power Action Completed Date": "<Time string Eg: 2024-05-15T15:04:27.723>"
}]
}
<!--NeedCopy-->
计算机正常运行时间警报
{
"Address": "<Webhook URL>",
"NotificationId": "<NotificationGUID>",
"NotificationState": "NotificationActive",
"Priority": "<Critical/Warning>",
"Target": "<DeliveryGroupName>",
"Condition": "Machine Uptime Alert",
"Value": "<Value Set as Threshold>",
"Timestamp": "<Timestamp string Eg: April 25, 2024 9:33 PM (UTC +5)>",
"PolicyName": "<Alert Policy Name>",
"Description": "<Alert Policy Description>",
"Scope": "DeliveryGroup",
"Site": "<Name of the Site>",
"AttachmentData": [{
"Machine Name": "<Name of the Machine>",
"IP Address": “<IP Address>”,
"Delivery Group Name": "<Name of the DeliveryGroup>",
"IP Address": "<IPV4 Address of the Machine>",
"Power State": "<On/Off>",
"Powered On Date": "Time sting Eg: 2024-05-15T15:04:27.723",
"Total Uptime In Minutes": 180
},
{
"Machine Name": "<Name of the Machine>",
"IP Address": “<IP Address>”,
"Delivery Group Name": "<Name of the DeliveryGroup>",
"IP Address": "<IPV4 Address of the Machine>",
"Power State": "<ON/OFF>",
"Powered On Date": "<Time string Eg: 2024-05-15T15:04:27.723>",
"Total Uptime In Minutes": <Uptime Duration>
}]
}
<!--NeedCopy-->
警报策略条件
下文介绍了警报类别、用于缓解警报的建议操作以及内置策略条件(如果已定义)。内置警报策略是针对 60 分钟警报和重新警报时间间隔定义的。
最大已连接会话数
- 查看 Director 的“会话趋势”视图,获取最大已连接会话数。
- 检查以确保容量足以容纳会话负载。
- 根据需要添加新计算机
最大已断开会话数
- 查看 Director 的“会话趋势”视图,获取最大已断开连接会话数。
- 检查以确保容量足以容纳会话负载。
- 根据需要添加新计算机。
- 根据需要注销已断开连接的会话
最大并发会话总数
- 查看 Director 中的 Director“会话趋势”视图,获取最大并发会话总数。
- 检查以确保容量足以容纳会话负载。
- 根据需要添加新计算机。
- 根据需要注销已断开连接的会话
CPU
CPU 使用率百分比指示 VDA 上的整体 CPU 占用量,包括进程的整体 CPU 占用量。可以从相应 VDA 的计算机详细信息页面更加深入地了解各个进程的 CPU 利用率。
- 转至计算机详细信息 > 查看历史利用率 > 排名前 10 的进程,确定占用 CPU 的进程。确保启用进程监视策略以启动进程级别的资源使用情况统计信息的收集。
- 必要时结束进程。
- 结束进程会导致未保存的数据丢失。
-
如果一切均正常工作,请以后再添加其他 CPU 资源。
注意:
在具有 VDA 的计算机上,默认允许使用启用资源监视策略设置,以监视 CPU 和内存性能计数器。如果禁用此策略设置,则不会触发 CPU 和内存状况警报。有关详细信息,请参阅监视策略设置
智能策略条件:
- 作用域:交付组、多会话操作系统作用域
- 阈值: 警告 - 80%、严重 - 90%
内存
内存使用率百分比指示 VDA 上的整体内存消耗量,包括进程的整体内存消耗量。可以从相应 VDA 的计算机详细信息页面更加深入地了解各个进程的内存利用率。
- 转至计算机详细信息 > 查看历史利用率 > 排名前 10 的进程,确定占用内存的进程。确保启用进程监视策略以启动进程级别的资源使用情况统计信息的收集。
- 必要时结束进程。
- 结束进程会导致未保存的数据丢失。
-
如果一切均正常工作,请以后再添加其他内存。
注意:
在具有 VDA 的计算机上,默认允许使用启用资源监视策略设置,以监视 CPU 和内存性能计数器。如果禁用此策略设置,则不会触发 CPU 和内存状况警报。有关详细信息,请参阅监视策略设置
智能策略条件:
- 作用域:交付组、多会话操作系统作用域
- 阈值: 警告 - 80%、严重 - 90%
连接失败率
过去一小时内连接失败的百分比。
- 根据失败总次数除以尝试连接的总次数计算得来。
- 检查 Director 的“连接失败趋势”视图,了解配置日志中记录的事件。
- 确定桌面或应用程序是否可访问。
连接失败次数
过去一小时内连接失败的次数。
- 检查 Director 的“连接失败趋势”视图,了解配置日志中记录的事件。
- 确定桌面或应用程序是否可访问。
ICA RTT(平均值)
平均 ICA 往返时间。
- 检查 Citrix ADM 获取 ICA RTT 中的故障信息以确定根本原因。有关详细信息,请参阅 Citrix ADM 文档。
- 如果 Citrix ADM 不可用,请检查“Director 用户详细信息”视图以获取 ICA RTT 和延迟信息,并确定是网络问题还是应用程序或桌面问题。
ICA RTT(会话数)
超过 ICA 往返时间阈值的会话数。
- 检查 Citrix ADM 以获取具有高 ICA RTT 的会话数。有关详细信息,请参阅 Citrix ADM 文档。
-
如果 Citrix ADM 不可用,请与网络团队协作共同确定根本原因。
智能策略条件:
- 作用域:交付组、多会话操作系统作用域
- 阈值: 警告 - 300 毫秒(5 个或更多会话)、严重 - 400 毫秒(10 个或更多会话)
ICA RTT(会话百分比)
超过平均 ICA 往返时间的会话百分比。
- 检查 Citrix ADM 以获取具有高 ICA RTT 的会话数。有关详细信息,请参阅 Citrix ADM 文档。
- 如果 Citrix ADM 不可用,请与网络团队协作共同确定根本原因。
ICA RTT(用户)
应用于由指定用户启动的会话的 ICA 往返时间。如果 ICA RTT 高于至少一个会话中的阈值,则会触发该警报。
出现故障的计算机(单会话操作系统)
出现故障的单会话操作系统计算机数。可能会因多种原因而出现故障,如在 Director 的“控制板”和“过滤器”视图中所示。
-
请运行 Citrix Scout 诊断以确定根本原因。
智能策略条件:
- 作用域:交付组、多会话操作系统作用域
- 阈值: 警告 - 1、严重 - 2
出现故障的计算机数(多会话操作系统)
出现故障的多会话操作系统计算机数。可能会因多种原因而出现故障,如在 Director 的“控制板”和“过滤器”视图中所示。
-
请运行 Citrix Scout 诊断以确定根本原因。
智能策略条件:
- 作用域:交付组、多会话操作系统作用域
- 阈值: 警告 - 1、严重 - 2
故障计算机 (%)
交付组中出现故障的单会话和多会话操作系统计算机的百分比是根据故障计算机的数量计算的。此警报条件允许您将警报阈值配置为交付组中的故障计算机的百分比,每 30 秒计算一次。 可能会因多种原因而出现故障,如在 Director 的“控制板”和“过滤器”视图中所示。请运行 Citrix Scout 诊断以确定根本原因。有关详细信息,请参阅对用户问题进行故障排除。
打开电源操作失败和关闭电源操作失败
交付组中打开电源操作失败的数量和电源操作失败的数量是根据无法打开或关闭电源的电源管理的计算机的数量计算得出的。此警报条件允许您将警报阈值配置为交付组中未能打开或关闭电源的进行电源管理的计算机的数量,并且每隔 30 分钟计算一次。
管理员可以在“高级警报”策略中为这些警报配置以下参数:
- 触发者:什么触发了电源操作
- 失败原因:操作失败的原因
- 阈值:未能通过电源操作触发策略的计算机的阈值
- 采样时间间隔:必须检查电源操作失败的时间间隔
- 重新警报时间间隔:在多长时间后必须重新发送警报
可能会因多种原因而出现故障,如在 Director 的“控制板”和“过滤器”视图中所示。请运行 Citrix Scout 诊断以确定根本原因。有关详细信息,请参阅对用户问题进行故障排除。
未注册的计算机 (%)
当计算机因重新启动而变得不稳定时,或者当 Delivery Controller 与虚拟机之间出现通信问题时,计算机被视为未注册。未注册的计算机 (%) 是指交付组中未注册的单会话和多会话操作系统计算机的百分比,该百分比是根据未注册的计算机数量计算得出的。此警报条件允许您将警告和严重阈值配置为交付组中未注册的计算机的百分比。可以设置重新警报的时间间隔。您还可以添加一封电子邮件,以便在满足未注册的计算机 (%) 的条件时收到通知。超过严重或警告阈值时,会生成警报和电子邮件。可以在 Citrix 警报下查看警报。可以按未注册的计算机 (%) 类别以及所需的状态和时间对其进行筛选。
如果存在电子邮件,您还可以在 CSV 附件中接收警报详细信息,如果存在 Webhook,则通过 JSON 有效负载接收警报详细信息。
注意:
临界值必须大于警告值。
策略条件:
- 作用域:单会话操作系统和多会话操作系统交付组
- 阈值:警告和严重
计算机正常运行时间警报
交付组中的计算机正常运行时间是根据交付组中开启的计算机的每天小时数、每周小时数或每月小时数计算得出的。此警报条件允许您将警报阈值配置为交付组中计算机的开机时间。在以下情况下,计算机正常运行时间警报的工作原理如下:
- 每天小时数 - 可以指定计算机一天开启的小时数,每 30 分钟计算一次。可以设置的最大每天小时数为 24 小时。
- 每周小时数 - 可以指定计算机一周的开启小时数,每六小时计算一次。可以设置的每周最大小时数为 168 小时。
- 每月小时数 - 可以指定计算机一个月的开启小时数,每天计算一次。每月的最大小时数为 720 小时。 可以设置的最小重新警报时间间隔值为 60 分钟。可以在“警告和严重警报”部分下输入超过计算机正常运行时间阈值的计算机数量。还可以为任何计算机添加例外。
例如,如果为此警报添加了五个交付组,并且如果位于第一个交付组和第四个交付组中,计算机数量超过了警告或严重阈值,则将分别为第一个交付组和第四个交付组触发警报。
此警报可帮助管理员分析计算机的正常运行时间,基于这种分析,管理员可以帮助优化成本。如果存在电子邮件,您还可以在 CSV 附件中接收警报详细信息,如果存在 Webhook,则通过 JSON 有效负载接收警报详细信息。
平均登录持续时间
过去一小时内的平均登录持续时间。
- 查看 Director 的“控制板”,获取与登录持续时间有关的最新指标。许多用户在短时间内登录会延长登录持续时间。
-
请查看登录的基准时间和中断时间,以缩小原因范围。有关详细信息,请参阅诊断用户登录问题
智能策略条件:
- 作用域:交付组、多会话操作系统作用域
- 阈值: 警告 - 45 秒、严重 - 60 秒
登录持续时间(用户)
过去一小时内发生的指定用户的登录的登录持续时间。
负载评估器指数
过去 5 分钟内负载评估器指数的值。
-
查看 Director 中可能具有峰值负载(最大负载)的多会话操作系统计算机。查看“控制板”(失败)和“趋势负载评估器指数”报告。
智能策略条件:
- 作用域:交付组、多会话操作系统作用域
- 阈值: 警告 - 80%、严重 - 90%
使用 Webhook 配置警报策略
除了电子邮件通知外,您还可以使用 Webhook 配置警报策略。
注意: 此功能需要 Delivery Controller 7.11 或更高版本。
可以使用 PowerShell cmdlet 配置采用 HTTP 回调或 HTTP POST 的警报策略。它们已扩展,可以支持 webhook。
有关创建新 Octoblu 工作流和获取对应的 webhook URL 的信息,请参阅 Octoblu Developer Hub。
要为新警报策略或现有策略配置 Webhook URL,请使用以下 PowerShell cmdlet。
使用 webhook URL 创建新警报策略:
$policy = New-MonitorNotificationPolicy -Name <Policy name> -Description <Policy description> -Enabled $true -Webhook <Webhook URL>
<!--NeedCopy-->
将 webhook URL 添加到现有的警报策略:
Set-MonitorNotificationPolicy - Uid <Policy id> -Webhook <Webhook URL>
<!--NeedCopy-->
有关 PowerShell 命令的帮助,请使用 PowerShell 帮助,例如:
Get-Help <Set-MonitorNotificationPolicy>
<!--NeedCopy-->
警报策略生成的通知会触发 webhook,同时向 webhook URL 发出 POST 调用。该 POST 消息包含 JSON 格式的通知消息:
{"NotificationId" : \<Notification Id\>,
"Target" : <Notification Target Id>,
"Condition" : <Condition that was violated>,
"Value" : <Threshold value for the Condition>,
"Timestamp": <Time in UTC when notification was generated>,
"PolicyName": <Name of the Alert policy>,
"Description": <Description of the Alert policy>,
"Scope" : <Scope of the Alert policy>,
"NotificationState": <Notification state critical, warning, healthy or dismissed>,
"Site" : \<Site name\>}
<!--NeedCopy-->
虚拟机管理程序警报监视
Director 会显示警报以监视虚拟机管理程序的运行状况。来自 XenServer 和 VMware vSphere 的警报可以帮助监视虚拟机管理程序参数和状态。还可以监视与虚拟机管理程序的连接状态以在群集或主机池重新启动或不可用时提供警报。
要接收虚拟机管理程序警报,请确保在 Web Studio 中创建宿主连接。有关详细信息,请参阅连接和资源。仅监视这些连接以获取虚拟机管理程序警报。
达到或超过阈值后,将显示这些警报。虚拟机管理程序警报可以为:
- 严重 - 达到或超过虚拟机管理程序警报策略的严重阈值
- 警告 - 达到或超过虚拟机管理程序警报策略的警告阈值
- 消除 - 不再显示为活动警报的警报
此功能需要 Delivery Controller 版本 7 1811 或更高版本。如果将较早版本的 Director 与站点 7 1811 或更高版本结合使用,则仅显示虚拟机管理程序警报计数。要查看警报,必须升级 Director。
下表介绍虚拟机管理程序警报的各种参数和状态。
警报 | 支持的虚拟机管理程序 | 触发者 | 条件 | 配置 |
---|---|---|---|---|
CPU 使用率 | XenServer、VMware vSphere | 虚拟机管理程序 | 已达到或超过 CPU 使用率警报阈值 | 必须在虚拟机管理程序中配置警报阈值。 |
内存使用率 | XenServer、VMware vSphere | 虚拟机管理程序 | 已达到或超过内存使用率警报阈值 | 必须在虚拟机管理程序中配置警报阈值。 |
网络使用情况 | XenServer、VMware vSphere | 虚拟机管理程序 | 已达到或超过网络使用情况警报阈值 | 必须在虚拟机管理程序中配置警报阈值。 |
磁盘使用情况 | VMware vSphere | 虚拟机管理程序 | 已达到或超过磁盘使用情况警报阈值 | 必须在虚拟机管理程序中配置警报阈值。 |
主机连接或电源状态 | VMware vSphere | 虚拟机管理程序 | 虚拟机管理程序主机已重新启动或不可用 | 在 VMware vSphere 中预先生成警报。不需要任何其他配置。 |
虚拟机管理程序连接不可用 | XenServer、VMware vSphere | Delivery Controller | 与虚拟机管理程序(池或群集)的连接已断开或已关闭或重新启动。只要连接不可用,就会每小时生成一次该警报。 | 警报是在 Delivery Controller 中预先生成的。不需要任何其他配置。 |
注意:
有关配置警报的详细信息,请参阅 Citrix XenCenter 警报或者查看“VMware vCenter 警报”文档。
可以在 Citrix 警报策略 > 站点策略 > 虚拟机管理程序运行状况下配置电子邮件通知首选项。只能从虚拟机管理程序而非从 Director 配置、编辑、禁用或删除虚拟机管理程序警报策略的阈值条件。但是,修改电子邮件首选项和消除警报可以通过在 Director 中完成。如果您的职责不涉及基础结构监视,则可以禁用该警报。
重要:
- 由虚拟机管理程序触发的警报将在 Director 中进行提取和显示。但是,对虚拟机管理程序警报的生命周期/状态所做的更改不会反映在 Director 中。
- 在虚拟机管理程序控制台中处于正常状态或被消除或禁用的警报继续显示在 Director 中且必须显式消除。
- 在 Director 中被消除的警报不会在虚拟机管理程序控制台中自动消除。