作者:张旋 本文字数:2470
[摘 要] 随着互联网技术的快速发展,将会有更多智能设备通过校园WiFi设备接入互联网。了解智能设备的准确信息可以进一步提高网络运营商的网络服务质量以及服务提供商的安全性,并为高校智慧图书馆建设提供数据分析依据。提出一种基于Hadoop平台和用户自定义功能的校园WiFi网络智能设备信息提取方案。用户自定义函数是根据高校图书馆日常服务中的常见参数开发的,用于处理大量非标准化数据。提出的信息提取方案的核心是将处理后的输入数据与预先构建的智能设备规则数据库进行字符串匹配。测试是基于高校图书馆日常师生登陆平台检索数据集进行的。测试结果表明,提出的方法能准确地从校园WiFi网络中提取设备信息。
[关 键 词] 高校图书馆;智能设备;信息提取;无线网络
[中图分类号] G647 [文献标志码] A [文章编号] 2096-0603(2019)25-0224-02
在校园网络中,读者用戶使用各种智能设备(如手机、平板电脑、智能手表等),通过校园无线网络接入互联网。随着智慧图书馆的发展,更多的智能设备将通过无线网络接入互联网。为了向服务订阅者提供更好的网络服务质量和业务体验,高校图书馆服务人员将收集大量的测量数据,包括安全性和用户行为信息。然后进一步执行数据处理,如测试网络管理的瓶颈,并提高用户的体验质量。智能设备的提取是上述数据处理过程中的关键任务之一。本文通过高等院校图书馆在校园网络环境下提取数据流量以此建立分析智能设备信息的方案。传统蜂窝网络的运营商可以通过分析信息流量获取大部分设备信息,如国际移动设备标识通常嵌入信息通信量中。然而,这些信息在默认情况下不包含在WiFi条件下的数据流量信息。为了获得校园无线网络中智能设备等此类信息,一种可能的方法是收集和解析智能设备与云之间交换的超文本传输协议(HTTP)消息中的用户代理(UA)字符串。图1显示了UA的一个例子。如图所示,可以通过解析过程提取浏览器类型、操作系统、字符集等信息。
尽管有两个公共标准可用于格式化设备标签,但大多数制造商都忽略了这些标准,从而使信息提取更加困难。对这个问题,现有两种解决方案。一种是无线通用资源文件(WURFL),这是一种基于唯一内容的UA识别方法,如设备信息。通过将唯一标识的内容与预定义的文件进行匹配,可以从Web服务器中提取设备信息。然而,由于新设备的出现和现有设备的频繁升级,WURFL不能保证长期的高精度。另一种解决方案基于UA字符串匹配。应用UA字符串匹配,需要使用包含UA字符串和设备模型的匹配规则预先设置数据库。提取设备信息的方法是将捕获的字符串映射到数据库中的预置值。虽然实现起来很简单,但是这种方法效率很低,尤其是在大数据背景的今天,我们提出的方案旨在克服现有两种方法的缺点,特别是我们在方案中实现Hadoop以快速高效地处理大量数据。此外,,Hive UDF以统一数据格式对数据进行预处理。
本文的其余部分组织如下:给出智能设备信息提取方案的框架;介绍基于Hadoop的数据处理技术,并描述了如何实现UDF函数;给出实验结果;总结这项实验工作。
一、方案概述
图2显示了所提议的信息提取方案的概述。总体而言,该方案包括4个部分,即流量采集、数据预处理、智能设备信息提取和智能设备信息记录(SDIR)。
流量收集是指从目标网络中收集原始数据流量。流量收集点可以部署在通信网络的不同位置,如核心网络、聚合层、基于远程服务器的访问节点和网络网关。
数据预处理是对采集到的交通数据进行净化和过滤,因为采集到的交通数据可能存在噪声。经过数据预处理后,核心函数(即基于DPI9的核心函数)只处理采集数据的一小部分,大大降低了方案的计算开销。研究发现,大多数移动应用程序使用HTTP与服务器通信。在本文中,我们将使用HTTP演示所提出的信息提取方案。我们提出的方案可以很容易地扩展,如应用报头/消息字段以更好地兼容其他专有协议。在大量实验基础上设计该方案的滤波策略,使近98%的原始数据能够被准确地清洗和滤波。策略包括用户类型、位置、通信协议等。
智能设备信息提取是本方案的核心功能。此函数用于匹配从预定义库中捕获的、经常维护和更新的UA字符串。
SDIR是提取方案的汇总。在此步骤中,从原始数据流量中成功地提取了所需的信息,如设备类型、品牌、模型等。收集SDIRs以进行进一步的数据统计、分析和挖掘。SDIR的详细应用超出了信息提取方案的范围。
二、基于UDF的智能设备信息提取方案
经过数据预处理后,可以获得包含接入网络用户账户、用户访问统一资源定位器(URL)和UA字符串的有用数据流,用于基于UDF-方案的信息提取。为了处理大量的UA字符串,实现基于Hadoop的MapReduce支持并行处理。Hadoop需要处理的5个步骤如下:
1.在Hive数据库中收集和预处理原始流量。
2.从预处理中清除和过滤UA字符串数据。
3.使用在MapReduce上实现的UDF函数解析和正则化UA字符串数据。
4.通过WebMagic.11创建和管理一个智能设备规则数据库。
- 《新课程》杂志征稿通知
- 论文发表中的DOI是什么意思
- 《新课程》杂志论文知网收截图
- 新课程杂志主管单位主办单位说明
- 如何提高发表论文的“命中率”
- 《现代职业教育》杂志每版字数调整为2000字
- 现代职业教育杂志中国知网全文收录截图
- 中国知网期刊大全检索《现代职业教育》杂志
- 编辑在论文发表工作中的重要性
新课程杂志社提示:
本文标题:高校图书馆智能设备的信息提取
当前网址:http://www.xinkecheng.cn/laigao/15724.html