将近两个月,2018年春节召来了。“今年我得早于杀掉,抢张回家的低价机票。
”在北京打零工的小王对科技日报记者说道,由于老家在云南,春节机票太贵,他都自由选择跪两天两夜的火车回来,长途跋涉,苦不堪言。然而,就在小王摩拳擦掌,打算施展“洪荒之力”抢张低廉机票时,看见网上曝出这样一则消息:航空公司释放出的低价机票,80%以上被票务公司的“爬虫”偷走,普通用户很少能购买。小王傻眼了,“爬虫”到底是什么鬼?它又是怎么抢走机票的?怎么会就没办法管理吗?利用超链接信息捕捉网页“‘爬虫’技术是构建网页信息采集的关键技术之一,通俗来说,‘爬虫’就是一段用来批量、自动化收集网站数据的程序,完全不必须人工干预。
”北京理工大学网络科学与技术研究院副教授闫怀志告诉他科技日报记者。闫怀志讲解,“爬虫”又称网页“蜘蛛”、网络机器人(18.850, 0.09, 0.48%),它是一种按照一定规则自动捕捉网页信息的程序或者脚本,一般来说待命在服务器上。
在Web网页中,既包括可可供用户读者的文字、图片等信息,还包括一些超链接信息。网络“爬虫”正是利用这些超链接信息来大大捕捉网络上的其他网页。“这种信息采集过程很像一个爬虫或蜘蛛在网络上漫游,网络‘爬虫’或网页‘蜘蛛’因此故名。
”闫怀志说道,“爬虫”最先应用于在搜索引擎领域,比如谷歌、百度、搜狗等搜索引擎工具每天必须捕捉互联网上数百亿的网页,它们必须利用可观的“爬虫”集群来构建搜寻功能。当前,“爬虫”已被普遍用作电子商务、互联网金融等诸多领域。比如,“爬虫”可以捕捉航空公司官网的机票价格,找到低价或紧俏机票后,“爬虫”可以利用欺诈客源的现实身份信息构建先行预约。
再有,很多互联网浏览器都发售了自己的抢票插件,以低订票成功率来推展浏览器。根据捕捉任务和目标的有所不同,网络“爬虫”可大体分成批量型、增量型和横向型。
批量型“爬虫”的捕捉范围和目标更为具体,可以是网页的原作数量,也可以是消耗时间的原作。增量型“爬虫”主要用作持续捕捉改版的网页,以适应环境网页的大大变化。
横向型“爬虫”主要是用作特定主题内容或特定行业的网页。“爬虫”到底是如何抢票的此前,在线票务服务公司携程的“反爬虫”专家在技术共享中透漏,某网站的一个页面,每分钟的浏览量是1.2万,现实用户只有500个,“爬虫”流量占比为95.8%。
专访中,很多业内人士也回应,即使在“爬虫”活动的淡季,欺诈流量也占订票网站总流量的50%,高峰期堪称在90%以上。那么,“爬虫”到底是如何构建抢票的呢?回应,闫怀志说明,主要是机票代理公司利用“爬虫”技术,大大捕捉航空公司售票官网网页信息,如果找到该航空公司有低价票释放出,“爬虫”立即利用欺诈客源身份展开批量预计但不实际缴纳,以超过守住低价票源的目的。
由于“爬虫”的效率相比之下多达长时间的手动操作者,造成通过长时间操作者完全无法抢走票。随后,机票代理公司不会通过其自身销售渠道(还包括公司网站、在线旅行社、客户电话采购等)寻找确实的客源,在航空公司容许的账期内,退订此前用于欺诈客源身份预计的低价票,然后用于现实身份信息展开采购,最后构建该低价票的调高出售。
如果并未在航空公司规定的账期内寻找确实客源,机票代理公司不会在订单过热前再行新增欺诈身份订单,之后“抢走”该低价票,如此重复,以后寻找确实客源卖出为止。“上面的操作者流程就包含了原始的机票销售链条。在这个过程中,航空公司售票系统容许在账期内重复订立、购票的规定为机票代理公司利用‘爬虫’抢票并调高利润获取便捷。
这种抢票方式,被称作技术‘黄牛’。”闫怀志特别强调。的确,有业内人士回应,这些“爬虫”流量消耗了大量的机器资源,却不产生任何消费,这是每个公司最鄙视的东西。但是,因为害怕射杀现实用户,各家公司的“反爬虫”策略做到得十分慎重。
使用一定手段 “爬虫”可以防高效率任何事情都有两面,“爬虫”技术也不值得注意。在闫怀志显然,“爬虫”既可为长时间的数据批量提供获取有效地的技术手段,也可被蓄意用于以提供失当利益。如果“爬虫”技术被不不顾一切利用,就不会带给一定的危害。
首先,威胁数据安全。航空公司售票网站数据被蓄意爬取,数据可能会被机票代理公司蓄意利用,而且还不存在被同业竞争对手提供的风险。其次,导致系统性能上升,影响用户体验。“爬虫”大量的捕捉催促不会造成航空公司售票网站服务器资源阻抗下降、性能上升,网站号召减慢甚至无法获取服务,对用户搜寻和交易体验导致负面影响。
但由于不存在极大的灰色利益空间,同时“反爬虫”技术在与“爬虫”对付中起到受限,使得这种显失公平的“作弊”方式沦为妨碍机票市场秩序的技术“顽疾”。“从技术角度来看,围歼‘爬虫’可以通过网站流量统计资料系统和服务器采访日志分析系统。”闫怀志说道,通过流量统计资料和日志分析,如果找到单个IP采访、单个session采访、User-Agent信息远超过原作的长时间频度阈值,则判断该采访为蓄意“爬虫”所为,将该“爬虫”的IP列为黑名单以拒绝接受其先前采访。再就是设置各种采访检验环节。
比如,在怀疑IP采访时,回到检验页面,拒绝访问者通过填上验证码、挑选检验图片或者字符等方式构建检验。如果是蓄意“爬虫”爬取,似乎很难已完成上述检验操作者,进而可以封锁该“爬虫”的采访,避免其蓄意爬取信息。
互联网空间无法有“灰色地带”当前,云计算、大数据等为代表的新一代信息技术处在高速发展阶段。“上述新技术如果被非法或者失当应用于,则不会产生相当严重的危害。
互联网空间安全性必须建立健全完备的维护体系,绝不‘打架’。”闫怀志说道。2017年6月1日,我国《网络安全法》月实行,具体了各方在网络安全确保中的权利与责任。这是网空间管理和法制建设从常态到异化的最重要里程碑,这部法律作为依法治网、消弭网络风险的法律重器,沦为我国互联网在法治轨道上身体健康运营的最重要确保。
然而,目前对于高科技“黄牛”倒票不道德,仍未有明确规定,使得蓄意爬取信息并不当利润不道德处在法律法规监管的“灰色地带”。闫怀志讲解,国际上,针对“爬虫”应用于,专门制定了Robots协议(即“爬虫”协议、网络机器人协议等)。该协议仅有称作“网络爬虫回避标准”,网站可通过该协议告诉“爬虫”可以爬取哪些页面及其信息,无法爬取哪些页面及其信息。
该协议作为网站和“爬虫”的交流方式,用来规范“爬虫”不道德,容许不正当竞争。作为国际互联网界通行的道德规范,该协议的原则是:“爬虫”及搜寻技术不应服务于人类,同时认同信息提供者的意愿,并确保其隐私权;网站有义务维护其使用者的个人信息和隐私不被侵害。
这就规定了爬取者和被爬取者双方的权利和义务。一位不愿明示的法律专家也回应,“反爬虫”不仅要依赖技术防止和业界自律,还应当通过完备管理和法律法规手段来约束这种不道德,特别是在是法律手段才能突显严惩力和震慑力。
航空公司也要完备账期管理,不给“爬虫”抢票获取机会。
本文关键词:ky开元官网,2018,年春节,要来,了,将近,两个月,2018,年春节
本文来源:ky开元官网-www.brownbagtv.com