服务器托管优势明显,辨析服务器评测要素

我们无法用简洁的言语概括计算机的性能,其实皆因它的体现必须要借助其他手段。这就如同要要看一个人的品格是否端正必须从观察其平日言行着手一样,要评估一个计算机的性能,我们也必须通过运行应用程序或计算任务的方法来考察。这种考察通常有两种,一是看执行时间,一种是看流量。

揭秘人工智能下的搜狗智能运维实践,揭秘人工智能

搜狗以搜索和输入法为主,技术实现背后有大量的人工智能技术做支撑。搜狗运维在这样一家以人工智能技术为主的公司中,将面临哪些挑战?本文将与大家分享人工智能在运维中的实际应用,以及搜狗在智能运维方面的实践。

数据中心可以为客户的关键服务器提供机柜及带宽出租服务,使服务器可维持每星期七日、全日二十四小时无休止服务。当您有意建设自己的Web、Email、Ftp、SQL服务器,而您的网站的应用很复杂或您网站的访问率很高时,您可以选择自己购买服务器,进行整机托管。

这里所谓的执行时间,是指计算机完成一个计算任务的时间,能以最快速度完成指定任务的系统,我们说它的性能就是最高的。这种以执行时间度量性能的方法,较适用于执行单任务的环境,而要测试像服务器这种几乎时刻都在并行执行多个任务的计算机系统,考察其流量,也就是看系统在单位时间能完成多少计算任务则是必须的,事实上,很多拥有大规模数据中心的管理者,都对提升服务器的工作流量非常在意。

一、运维工程师遭遇的三大痛点

再讲智能运维之前,我们先来看看,运维工程师常见的三大痛点:操心成本、智商不够、烦人成本

图片 1

如何体现服务器性能

1.1、操心成本

所谓操心成本与相声《扔靴子》所表达的主题相似——你并不知道“第二双靴子什么时候扔下来”,同样你并不知道故障什么时候来临,所以你一直提心吊胆,惶惶不安

7×24运维,半夜经常会有收到警报的情况,运维团队负责多个模块、机器、服务、业务等等,如何保障它们的可靠性?并且每个业务都有自己的指标,响应时间、请求量、磁盘容量、网络IO等等,这些指标都可能发生异常。

目前业界一些通用的监控手段,有时会铺天盖地报警,但这些报警不一定能反应真实的情况,真是让人操碎了心

当用户有意拥有自己的Web、Email、 FTP、 SQL等服务器时,可以有两种方法:
一是自建, 二是托管。
自建需要有水平较高的软硬件专业技术人员,要投入较大的资金购置软硬件,
还要支付上不封顶的日常维护和线路通信费,一年365天不间断电源费用,硬件防火墙等费用,建设周期也较长。比较之下,
托管则经济, 快捷而实用。

了解了服务器性能的体现,我们也就明晰了它的概念——它其实并不像其他产品那样侧重功能和质量,而是一种技术能力的反应,而且这种能力的高低,必须要用应用来体现和衡量。

1.2、智商不够

当运维过程中遇到比较复杂的故障需要处理的时候,不能很快的找到出现故障的根源,很好地进行故障定位,感觉智商不够用。

Internet的基本动作机制是用户/服务器(Client/Server),最大的特点是跨时空和跨地域。也就是说,即使是天各一方,只要大家都在网络上,双方就可以直接沟通,
这就为我们提供了一个重要的技术手段:远程控制(RemoteControl)。服务器托管产生的技术基础和所依赖的手段主要是“用户/服务”和“远程控制”等机制。即无论我们的用户在哪里,只要能上网,就可以对远在天涯的服务器进行控制,从而实现对服务器的拥有和维护。

摸清计算机的性能后,进而理解能效也就不再困难。它是系统的性能与功耗的比值,也就是每瓦功耗换得的性能。只不过,这个功耗并不是一个瞬时值,而应该是系统执行单个或多个任务时的平均功耗。

1.3、烦人成本

在搜狗内部有一条明文规定,如果运维工程师不做运维开发,不予升职。所以搜狗的运维经理除了履行保障线上可靠性职责的同时还要做自动化研发。因为职责在身,线上一旦出现问题,无论大小,运维人员是首先被问询的,所以运维人员最容易被打扰。

可做研发大家都知道,是需要整块时间才能够保证效率且减少出错。这样一来,上班时间基本上不会有大块时间来做研发,这样的状况真的很烦人。

服务器托管优势所在:

能效这一概念在最近几年来很受业界及用户追捧,主要是因为能源紧缺以及能源浪费带来的环境危机越来越严重所致,这促使人们也开始用“吃多少草、挤多少奶”,甚至是“少吃草、多挤奶”的原则来指导计算机技术的发展。英特尔的智能服务器处理器在利用全新微架构大幅提升性能的同时,还不忘导入智能节能技术来根据应用负载精细地调节自身的功耗,去尽力实现输出多少性能就消耗多少电能的目标,其实就是受这一量入为出的原则影响。

二、面对痛点 用“智能”来化解

针对这三大做运维最基本的痛点,搜狗运维选择用“智能”来化解:

  • 针对操心成本,是智能熔断

  • 针对智商不够用的情况,是智能故障定位

  • 针对烦人成本,是智能问答机器人“维秘”

一、节约成本

我们在这里重谈服务器或计算机系统的性能和能效概念,其实并不仅仅是要帮助大家温习它们,而是希望说明它们都是时刻处于动态变化中的。暂且不论同一台系统在两次运行同一应用中表现出的细微性能差异,相信在很多媒体朋友评测服务器时,也会经常遇到它在某些理论性能测试中表现出色,但在贴近实用的测试中表现却不尽人意,或是一台系统在不同类型的应用测试中表现不一的情况吧?这种变化确实令人困扰,但对它们进行客观深入的分析,找出造成变化的因素和能推动这种变化向良性发展的方案,则就是对最终用户采购和应用服务器非常有意义的事情了。

2.1、智能熔断的思路

作为运维人员所要面临的问题,往往是一张以时间为横轴的时序图,纵轴是响应时间、CPU占有率、网络IO、磁盘IO等一系列指标,这样的指标每个节点或机器都有一二十个。如果有上万台机器,上万个节点,那么就会有一百万张时序图,工程师需要对每张图做智能监控,
当发生异常,随时上报。

在股票、医学领域,基于时间轴的数据监控已被广泛应用。股市利用数据监控预测股票涨跌,医学可以利用数据监控预测疾病的发生时间,这些特点与运维有高度的相似性。

运维领域也是以时间轴为纬度分析,目前有很多监控和分析的工具,最简单如设定一个固定的阈值或者周同比,但这些工具还不够智能。

智能熔断系统。目前,搜狗运维正在研发智能熔断系统,是为应对操心成本而生,针对故障的根本原因进行分析和故障预测。

故障的原因有二

1、代码变更或上线,这类的故障非常多,而且大多都是人为造成的
,现在基本上可以实现智能上线平台做自动上线,完全自主。

2、就是机房、网络和硬件等。

当面对自主上线的情况,如何保证平台的稳定?

下图是智能熔断的实现原理,搜狗引入熔断机制,当某些指标有发生上线动作、发生异动的时候,系统自动判断并做熔断,比如做停止或者回滚操作。并和一些其他的智能设备相结合,如手机上可操作熔断、停止及回滚等功能。这个系统能解决大部分问题,如环境、代码、人为误操作等等。

还有一个问题,就是一些研发人员水平不高,写出的代码在上线的瞬间,指标出现异常,但重启一段时间就好了。同时研发人员表示,当前没有精力去处理,暂时忽略。面对这种情况,就要引入更深的人工智能话题,要对异常进行判断,是已忽视的正常异常,还是需要处理的异常,这里就涉及到对故障点分类的问题。

线路:企业不必租用昂贵的网通线路,可以共享或独享数据中心高速带宽。

发表评论

电子邮件地址不会被公开。 必填项已用*标注