刚接手公司网络的时候,老张差点崩溃。路由器不会配,交换机端口灯乱闪,员工一说上不了网就赶紧重启设备。干了半年,才明白光靠“重启大法”撑不了场面,得有一套完整的知识体系打底。
基础网络原理是地基
不懂TCP/IP模型,就像电工不认电线颜色。数据包怎么封装、IP地址和MAC地址怎么配合、子网掩码到底划在哪,这些不是课本里的摆设。比如办公室分两个部门,财务和销售,用VLAN隔开,就是靠三层交换机做路由转发。没搞懂ARP请求过程的人,永远想不通为什么同一网段的机器有时候ping不通。
DNS解析慢?先查本地host文件,再看递归查询路径。抓个包看看是不是卡在根域名服务器那一步,比盲目换DNS快得多。
设备操作要动手练
华为、H3C、思科命令行看着不一样,但逻辑相通。配置静态路由、开启OSPF、设置ACL访问控制列表,关键在理解每条命令背后的意图。别死记display ip routing-table这种命令,要知道什么时候该查路由表,什么时候该看接口状态。
家里买个二手路由器刷OpenWRT,搭个小型实验环境,比背题强。试着让两台虚拟机跨VLAN通信,故障排查的过程比结果更重要。
监控与排错是日常
企业级网络不能等出事才动。Zabbix、Prometheus这类工具得会搭。设定阈值,CPU超过80%发告警,接口流量突增自动记录日志。有次同事发现某交换机端口每小时断一次,查下来是PoE供电带不动新装的摄像头,提前预警就能避免半夜被叫起来修。
排错要有思路。用户上不了外网,先看本机IP是否获取正确,再查网关通不通,接着测试DNS,最后看防火墙策略。一层层剥,别一上来就重置路由器。
安全防护不能少
内网不是保险箱。随便插U盘、弱密码登录设备,都可能成为突破口。ACL限制管理接口访问范围,SSH代替Telnet加密远程连接,定期更新固件修补漏洞,都是基本操作。某公司被挖矿病毒拖垮内网,追查发现是交换机默认密码没改,被从公网反向接入。
access-list 100 deny tcp any any eq 23
access-list 100 permit ip any any
!
上面这段ACL就是禁用Telnet(端口23)的典型配置,虽然简单,但能挡住不少自动化扫描。
自动化提升效率
手动备份二十台设备配置?太耗时间。Python写个脚本,用Paramiko连SSH,批量执行display current-configuration并保存文件,定时跑一遍更安心。配置变更前自动存档,出问题还能快速回滚。
Ansible也可以用来统一推送配置。比如所有接入层交换机都要开启端口安全,写个Playbook,几分钟搞定,不用一台台登录。
文档习惯决定上限
谁也不想接手一个“前任留坑”的网络。IP地址分配表、设备连线图、变更记录,哪怕用Excel记也行。有次迁移机房,靠着一张手绘拓扑图,十分钟定位到核心环路的冗余链路,省了大半天抓瞎。
网络运维不是炫技,而是让系统稳稳当当跑下去。知识体系不是挂在墙上的图表,是你面对告警时的反应速度,是半夜接到电话后三十分钟恢复业务的能力。