帮助文档>117数据 > 运维工作分类的具体职责

运维工作分类的具体职责

发布时间:2024-06-17 10:28

【一】系统维护

 

系统维护:涉及数据中心(IDC)、网络、内容分发网络(CDN)等基础服务的建设和维护(包括LVS、NTP、DNS),以及资产管理,服务器选型、交付和维修。

具体职责如下:

(1)IDC建设:根据业务需求,预测未来数据中心的发展规模。评估并选择数据中心位置,考虑因素包括骨干网分布、数据中心建筑结构、Internet接入、防御网络攻击能力、扩展能力、空间预留、专线连接能力及现场服务支持能力。负责数据中心的建设及现场维护工作。

(2)网络建设:设计和规划生产网络架构,涵盖数据中心网络架构、传输网络架构及CDN网络架构等,并负责日常网络优化及维护工作。

(3)LVS负载均衡和SNAT建设:管理LVS(Linux虚拟服务器)负载均衡集群,结合网络规模及业务需求,提供高性能、高可用的负载调度及网络层防御能力。SNAT(源网络地址转换)提供数据中心的公网访问服务,采用集群部署以确保高性能和高可用性。

(4)CDN规划和建设:CDN工作分为第三方和自建两部分,主要包括第三方CDN的选型及调度控制;根据业务发展趋势,规划新CDN节点的建设和布局;优化CDN业务及监控,确保CDN系统稳定高效运行;分析加速频道的文件特性及数量,制定最佳加速策略及资源匹配方案;处理日常CDN故障及用户劫持问题。

(5)服务器选型、交付和维护:负责服务器的测试和选型,包括整机及部件的基础测试和业务测试,提升机架部署密度,降低整机功率。结合业务需求,推广新硬件和方案,以减少服务器投入。诊断和定位服务器硬件故障,开发和维护服务器硬件监控及健康检查工具。

(6)操作系统及内核维护:负责整体平台的操作系统选型、定制及内核优化,更新补丁及内部版本发布。建立基础的YUM包管理和分发中心,提供常用包版本库。处理日常操作系统相关故障,并为不同业务类型提供定向优化支持。

(7)资产管理:记录和管理运维相关的基础物理信息,包括数据中心、网络设备、机柜、服务器及访问控制列表(ACL)等资源信息,确保信息的准确性并提供API接口以支持自动化运维。

(8)基础服务建设:设计高可用架构以避免单点故障,确保DNS、NTP、SYSLOG等基础服务的稳定运行。

 

【二】运维研发

 

运维研发:负责通用运维平台的设计和开发工作,包括资产管理、监控系统、运维平台及数据权限管理系统。

具体职责如下:

(1)运维平台设计及开发:设计和开发资产管理、监控系统、运维平台及API接口管理工具,供运维或研发人员使用,并开发自动化运维系统,提升运维效率和降低成本。

(2)监控系统开发:负责设计和开发监控系统,收集、告警、存储、分析和展示服务器及网络设备的资源指标和线上业务运行指标,持续提高告警的及时性、准确性及智能性,优化资源调配。

(3)自动化部署系统开发:参与自动化部署系统的开发,提供所需基础数据和信息,负责权限管理、API及Web端开发。结合云计算技术,开发并提供高可用PaaS平台,提高服务部署速度和用户体验,提升资源利用率。

 

【三】 数据库维护

 

数据库维护:负责设计数据库存储方案、数据库表设计、索引设计及SQL优化等工作,对数据库进行变更、监控、备份及高可用设计。

具体职责如下:

(1)设计评审:在产品研发初期参与设计方案评审,从数据库管理员(DBA)角度提出数据存储方案、库表设计方案、SQL开发标准及索引设计方案,确保数据库的高可用性和高性能。

(2)容量规划:掌握所负责服务的数据库容量上限,及时了解瓶颈点,在达到容量上限前进行优化、分拆或扩容。

(3)数据备份与灾备:制定数据备份与灾难恢复策略,定期进行数据恢复测试,确保数据备份的可用性和完整性。

(4)数据库监控:完善数据库存活及性能监控,及时了解数据库运行状态及故障,负责数据库安全,建立严格的账号权限控制,减少误操作及数据泄露风险,加强离线备份数据管理。

(5)高可用及性能优化:设计相应的切换方案,降低数据库服务的单点风险及故障影响,持续优化数据库性能,包括引入新存储方案、硬件优化、文件系统优化及SQL优化等,在控制成本的前提下满足更多业务需求。

(6)自动化系统建设:设计开发数据库自动化运维系统,包括数据库部署、自动扩容、分库分表、权限管理、备份恢复、SQL审核及上线、故障切换等功能。

                                                                                   【四】 安全维护

安全维护:负责网络、系统和业务的安全加固,包括常规安全扫描、渗透测试、安全工具及系统研发和安全事件应急处理。

具体职责如下:

(1)安全制度建立:根据公司流程制定有效的安全制度,并确保其执行。

(2)安全培训:定期为员工提供有针对性的安全培训和考核,建立安全负责人制度。

(3)风险评估:通过黑盒和白盒测试及检查机制,定期评估物理网络、服务器、业务应用及用户数据的总体风险。

(4)安全建设:根据风险评估结果,加固薄弱环节,包括设计安全防线、部署安全设备、及时更新补丁、防御病毒、自动化源代码扫描及业务产品安全咨询。为降低数据泄露的风险,可采用加密、匿名化、混淆数据及定期删除等技术和流程。

(5)安全合规:确保符合如支付牌照等合规要求,承担安全合规对外接口工作。

(6)应急响应:建立安全报警系统,通过安全中心收集第三方发现的安全问题,组织各部门进行修复、评估影响范围,并追查事后原因。

本文导读

客户热线:13306992629

客户服务中心