运维工作从早期的人工运维,到自动化运维,如今走向了智能运维。企业基于已有的运维数据,通过机器学习方式从而解决自动化运维无法解决的问题, AIOps由此诞生。
随着云计算、大数据等技术的快速发展,在“稳敏合一”的双态IT架构下,企业运维在通往智能化的道路上仍然任重道远。擎创科技创始人兼CEO杨辰在接受51CTO采访时表示,智能运维的本质其实是提升运维数据的认知能力。擎创科技研发的夏洛克AIOps,将从智能运维之“术”和运营之“道”两个层面,帮助企业提升运维数据认知能力,从而走向运维智能化之路。
(擎创科技创始人兼CEO 杨辰)
01.智能运维愿景很美好,现实很骨感
智能运维能够帮助企业快速发现异常、有效诊断问题根因、以业务为导向地进行运营分析和决策、持续有力地提升运维数据质量。杨辰表示,智能运维是一种全新的数字化运维能力,也将是数字化转型的必备能力。
既然智能运维是企业数字化转型的必备能力,那么它真的可以达到无人工参与运维工作,实现智能化么?杨辰认为,无人运维的愿景很美好,但现实很骨感。从愿景方面来看,智能运维一定是自洽的,不依赖于人的。在云原生环境下,基础架构和系统的部件都将是基于标准化的,运维工作可以完全基于自主、自动、智能决策的业务系统来完成,从而形成闭环。但是,如今企业在转型过程中,基础架构是多元化的,除了传统架构和应用以外,还会进行分布式演进以及云原生的引入,转型过程中的运维工作复杂度更高,挑战也更大。
杨辰表示,在多元化架构下,企业可以通过人机融合的方式,提升运维水平以及对数据的认知能力。当部分场景未达到有效提升时,就需要迭代反馈,在产品层面建立闭环机制,让算法吸纳人的反馈,从而将运维人员的个人能力变成算法和平台处理的组织能力。这一过程是逐渐演进并且是无限推进的,最终形成闭环,达到高度自洽的状态。
企业要想实现真正的智能化运维,还离不开算法、行业经验以及高超的工程化水准三大要素。企业级智能运维产品需要方便客户基于使用场景来调整算法和模型,从而匹配业务需求;此外,还必须具备支撑算法高效率运行的平台能力,包括大数据处理能力、机器学习平台能力和流式数据处理能力等。杨辰表示,
杨辰表示,“没有一个大神级算法可以包揽天下解决一切问题,企业需要结合行业经验,平台工程化以及合适的算法,才能不断突破不同的场景应用,实现真正的智能运维。”
02.智能运维落地的两大难点
AIOps是基于算法的IT运维(Algorithmic IT Operations),由Gartner在2016年定义的新类别,并于2017年调整为Artficial Intelligence for Operations,是一种将大数据、人工智能或机器学习技术赋能传统IT运维管理的平台(技术)。
有人认为,AIOps市场是风声大雨点小,在杨辰看来,新技术在早期发展过程中,有这样的声音实属正常现象。但是AIOps经过四年的摸索发展,已经有很多客户开始实践,只是技术发展需要稳定的心态,供需双方需要在场景方面耐心找到合适的落地点就会产生更大的价值。
杨辰告诉51CTO,智能运维落地有两大难点:
第一大难点也是最难的一点,是建模,即算法和场景的结合。在不同的场景下,需要根据环境要求来调整算法模型,从而提高准确度和可预测性。杨辰指出,AIOps落地的难点不是在算法方面的突破,而是结合环境要素和行业特性,反哺到算法中,这就要求在研发阶段,算法和运维专家可以有效进行协同工作。
第二大难点在于数据治理,数据条件限制了算法及其模型的有效性。杨辰表示,擎创科技在帮助企业建设智能运维时,会倾向于先进行整体规划,梳理客户现有的运维条件、运维数据状态,然后帮助客户制定一条可持续发展的智能运维路径图,而不是强硬地将算法或者相关应用场景推荐给客户。
03.擎创科技的核心竞争力
擎创科技成立于2016年,是国内首家智能运维AIOps落地解决方案的供应商。公司的核心产品夏洛克AIOps,已在中国银联、交通银行、厦门国际银行、方正证券、郑州商品交易所、东方航空集团等行业标杆企业落地,覆盖银行、保险、证券、制造及交通等多个行业。在AIOps赛道上,不乏很多竞争对手,有老牌的IT厂商,也有新兴厂商。那么擎创科技何以成为智能运维赛道的领跑者,其核心竞争力又有哪些呢?
杨辰告诉51CTO,相比于友商,擎创科技在处理智能运维场景中,更加重视类文本的数据,例如告警数据,日志数据等,擎创科技会对类文本数据方面的算法进行更多的优化。告警是运维人员的眼睛,历史告警就是反映历史现象,运维人员很难从一组告警中找到关联和规律,而擎创科技会将告警数据和日志数据进行关联,从而帮助运维人员及早发现问题,提高解决问题的效率,提高根因判断效能。
擎创科技为何会重视类文本数据呢?杨辰解释道,企业要想找到问题的根因,仅仅依靠业务以及基础架构的指标数据只能进行根因定界初步确定可能的故障范畴,若想知道问题的根因还需要依靠类文本数据了解现实情况。因此,擎创科技会利用类文本数据(告警或者日志)与指标数据的波动变化进行综合排查,从而帮助企业快速找到问题根因。
此外,擎创科技的运维背景相对较强,擎创科技团队成员的运维管理经验基本在15年左右,对行业和场景都有着较强的深入理解,可以通过顾问式咨询方法,帮助企业找到合适的发展之路,树立长期发展的思维基础。
04.夏洛克AIOps 赋予企业“侦探”能力
夏洛克·福尔摩斯是英国侦探小说家柯南·道尔笔下的一位才华横溢的侦探,善于通过观察与演绎推理和法学知识来解决问题。而运维工作就好像侦探顾问,在海量线索中抽丝剥茧,通过在复杂的、浩瀚如烟的线索中进行洞察,提升数据认知能力,这就是一种“侦探”能力。因此,擎创科技的产品便命名为夏洛克,赋予企业“侦探”能力。
在2020第四届双态IT乌镇用户大会上,擎创科技发布了全新的夏洛克AIOps智慧运营平台。据了解,夏洛克AIOps智慧运营平台,能够整合既有的多样化监控工具,监控告警事件、性能指标、日志和容量等多维数据,立体化覆盖到智能运维管理的全生命周期,包括告警辨析中心、指标解析中心、日志精析中心、日智速析专家、运营决策中心和运维数字中台等。
(夏洛克AIOps智慧运营平台产品架构图)
杨辰强调,过去夏洛克专注于运维侧,包括异常发现及根因定位,而产品升级后定位为智慧运营中心,利用运维管理产品从技术和业务运营角度帮助企业提升价值,例如对业务系统进行健康评估,对业务数据和IT基础架构数据以及资源数据之间的配比进行关联性分析等。
此外,新版本的夏洛克AIOps智慧运营中心实现了算法、模型和场景三层面的解耦,允许用户根据不同场景,对算法进行调试,生成不同的模型,进行模型编排,从而实现场景和模型的千人千面,并在不同行业中有效地落地和实施。
05.结语
擎创科技在AIOps领域多年的实践积累,赢得了不同行业客户的信赖,这其中不乏很多行业的头部客户。据业界报道,擎创科技的客户订阅复购率可以达到100%。为此,杨辰解释道,首先,擎创科技确保客户的使用场景和生产运营融为一体。其次,客户不仅使用擎创科技的产品,而且还通过产品实施经验的分享和积累,调整算法模型参数,从而实现企业最佳实践。
“擎创科技将AIOps领域的行业场景做深做透,让客户可以产生真实的收入,这就是客户持续订阅的缘由。”
未来的运维势必是由运维走向运营,擎创科技将会继续提升运维数据的认知能力,打造智能运维产品中最实用的工具,构建实用工具中最智能的产品,帮助企业走上运维智能化道路。
来源:51CTO
作者:张鑫玮