如何管理模拟世界的大规模测量数据
收集更多的数据已经不能让您脱引而出,更重要的是谁能够迅速分清所收集到的数据。在过去,硬件采样率由于受模数转换发生速度的限制,在物理上局限了采集数据的数量。而如今,硬件已不再是采集应用的限制因素。如何管理采集到的数据才是未来的挑战。
计算技术的不断进步,包括了微处理器速度和硬盘驱动器存储容量的提高,加之软硬件成本的降低,引发了惊人速度的数据爆炸。特别是在测量应用中,工程师和科学家们每分每秒都能收集大量的数据。欧洲核子研究中心的大型强子对撞机的运行实验每秒钟能产生40TB的数据。而波音喷气发动机运行时,每隔30分钟系就统会创建10TB的操作信息(Gantz,2011)。这就是"大规模数据"。
大规模数据现象为数据分析、搜索、集成、报告和系统维护带来了新的挑战,只有满足这些挑战才能跟上数据飞速增长的步伐。数据的来源是多方面的,而工程师和科学家认为最为有趣的是来自真实世界的数据,即捕获和数字化的测量数据。因此,它也被称作"大规模测量数据",可以通过测量振动、射频信号、温度、压力、声音、图象、光、磁、电压等现象获得这些数据。大规模测量数据TM在广泛的数据采集领域激起了三大技术趋势。
上下文数据挖掘
真实现象的物理特性能够防止在采集速率不够高的时候采集数据,让小规模数据集变得不再可行。即使测量现象的特性允许更多的信息采集,小规模数据集往往一开始就限制了结论和预测的准确性。
以挖掘一个金矿为例,其中只有20%的黄金是可见的。其余的80%是存在于您看不见的泥土中。矿业的目的就是充分挖掘矿井的全部价值。这就引出了术语"数字尘土",意思为数字化数据带有隐藏价值。因此,需要通过数据分析和数据挖掘来发掘前所未有的见解。
数据挖掘的过程就是使用与数据一同保存的上下文信息,搜索并削减大规模数据集,使其变得更容易管理及利用。将原始数据与背景,或"元数据"共同保存下来,数据采集、定位、过后的处理和理解就会变得更为方便。例如,查看一系列看似随机的整数:5126838937。乍看之下,该原始信息的含义不得而知。然而,当它变为(512)683-8937时,我们就能知道清楚地识别出它是一个电话号码。
测量数据上下文的描述性信息提供了类似的益处,它能够详细描述指定测量通道的传感器类型、制造商与校准日期,或是整体待测组件的修订记录、设计师或型号。事实上,原始数据存储的上下文越多,在整个设计生命周期中数据追踪、搜索或定位,以及通过专用数据后处理软件在今后与其他测量关联才会更为有效。
- 测量数据的无线采集与传送(02-27)
- 无需专业知识即可对刀具进行全自动测量(02-27)
- 测量数据舍入算法(01-12)
- LabVIEW中测试测量数据的存储(3)(01-06)
- 电磁流量计测量数据输出晃动检查及相应采取的措施(12-27)
- 旋转粘度计使用注意的几个问题(02-15)