记一次阿里云服务故障

故障描述

我提交的工单的问题描述:
2018-11-04 09:45:57

我于10月27日开通阿里云智能语音交互服务,使用其中的录音文件识别功能,并且开通的商用版。但是一个星期以来,我均在针对此接口开发项目,使用了一段时长为14分钟的音频,期间仅存在少量次数的接口调用。
11月3日,收到阿里云消费短信,提示我此语音交互服务已产生2115元的消费,语音时长高达4231485分钟。我不知到这么多的转换时长是怎么来的。鉴于该服务每次调用时都会返回一个唯一的task_id,所以我想通过阿里云后台人员查实一下到底产生了多少个task_id,才导致我的接口调用次数。按照该服务按量计费的单价来看,我不可能在一天时间内产生巨量的调用次数。

工程师回复:
2018-11-05 15:40:04

您好,首先很抱歉,这个问题不是您造成的。您的反馈我们已经定位,您的识别计费出现错误,我们会尽快处理这个问题,稍后会有专员跟您联系,再次对您造成的不便致歉!

欠费账单
服务单价
收到的欠费提醒

故障处理

目前欠费的问题已于11月7日上午9时由阿里云通过发放三倍补偿代金券的方式填补。
收到的代金券

故障影响

故障期间由于大量欠费,导致负载均衡、CDN等服务均不可用,方言说、个人博客等项目均收到严重影响。

思考

  1. 收到欠费短信的那个早晨,我心情十分复杂。一度怀疑是我前一晚编码时在循环中反复调用了这个接口,导致针对同一音频文件触发了很多次的转换任务,从而累积了大量的处理时间(商用版支持高并发,有可能在一天时间内产生大量处理时间),进而导致大量的消费。不过后来经过仔细回忆,我只在获取任务处理结果时使用了没有sleep机制的循环,而发起转换任务的接口仅调用过几次。
  2. 阿里云方面并没有给出问题产生的原因。个人猜测是因为部分转换线程异常挂起而没有退出机制,导致时间无限累积。
  3. 我一度怀疑是自己编码的失误,导致损失如此巨大的金额。直到我抱着试一试的心态拨打客服电话,并提交工单。可曾想如果不是两千RMB,而是两万RMB甚至更多,我会怎么做。
  4. 阿里云没有给出故障赔偿的具体准则。网上说的100倍赔偿也没见到先例。我一开始要求的是三倍赔偿,即共六千余元,其中两千用来填补意外的消费。但和那边专人短信沟通时,对方表示会补偿四倍,即一倍用来填补,三倍用来补偿。然而最终还是收到一共三倍代金券补偿。鉴于代金券仅能用来消费语音相关的服务,和我一开始想象得完全“无条件”代金券差远了,因此也没再计较。

发表评论

电子邮件地址不会被公开。 必填项已用*标注