NetFlow流量采集与聚合的研究实现

时间：07-10 来源：互联网点击：

2．3 NetFlow流聚合
NetFlow的原始数据数据量非常庞大，保存每一条流数据的原始记录将会使对数据进行查询分析时产生效率低下的问题，在绝大部分应用中也没有必要把数据粒度设计得如此之小。所谓流量聚合，是指对符合NetFlow数据格式的原始流记录根据一定条件进行流量合并，实现多条流合并为一条的过程，以实现原始流的压缩整理。
2．3．1 聚合策略
流量聚合有三个关键要素：聚合条件(F)、时间粒度(T)和聚合项(C)。满足相同聚合条件和时间粒度的流进行流量叠加，并保留聚合项。三元组聚合策略：F，T，c>，其中：

按照实际流量分析的需要，从F，T，C中各取出一个值组成一个聚合策略。对于T的粒度要根据实际监控的时间长短和监测精度来设置，一般来说T＝3 min适合于当天实时流量的监测；T＝30 min用于一周流量的分析；T＝3 h用于一月内流量的分析。
2．3．2 聚合的实现
对于一个新采集的原始流，必须能根据其所携带的聚合条件信息快速匹配是否已存在与其相同聚合条件的聚合流，若有则做流量叠加，若没有则创建一条新的聚合流。Hash表具有从Key快速映射到Value的特点，这种特点对于实时性较高的聚合非常有意义。图3为流量聚合的}Iash表设计。
在图3中聚合条件(F)作为Key，聚合项(C)作为Hash函数的映射值，时间粒度(T)作为Hash表导出到数据库的时间。这样可以满足实时流量监测的需要，同时也压缩数据减少存储空间，提高数据的查询效率。
3 实际NetFlow流采集与流量监测
在本系统设计的数据采集器的支持下，系统数据库为前端分析提供了充足且多样化的数据准备，前端程序只需通过简单的查询语句即可得到所需的数据集，简化了查询的工作量。利用该系统采集NetFlow数据包50 000个，时间持续约7 h，时间粒度为3 min，主要检验丢包情况，以及聚合后压缩效率。这次采集无丢包发生，表1为该系统采集的数据结果。
图4是系统由所采集的数据生成的该时段的流量监测图。
4 结语
NetFlow数据流的海量特征使得服务器程序的效率至关重要，因此基于NetFlow的流量监测的主要任务是如何根据应用保存最重要的网络流特征以及如何更高效地实现数据检索。基于NetFlow特点，提出了一套适用于大流量网络的流量采集与聚合存储方案。流量采集通过多线程和缓冲区机制实现，有效提高了流量采集的可靠性。采集的原始流经聚合，并通过合理的分级存储策略进行存储组织，为前端的数据分析提供了全面支持。本系统在实际应用中取得了良好效果。下一步还将对采集和多级聚合存储方案进行改进，以丰富系统对网络流量统计分析功能，并力争为异常流量分析提供较为完善的数据支持。

上一篇：降压型变换器的分叉及其混沌行为的研究
下一篇：低电压调频接收器MC3367的原理及应用

NetFlow 流量采集相关文章：

栏目分类