联系我们 - 广告服务 - 联系电话:
您的当前位置: > 综合 > > 正文

焦点观察:【取证分析】Flashcookie的基础知识与应用

来源:CSDN 时间:2023-02-15 13:49:07

Flash cookie


(资料图片仅供参考)

由于隐私问题,Flash cookie近来成为一个热点安全话题。不过从另一个角度讲,Flash cookie(即本地共享对象)却是一个很好的法庭证据——因为凡是在个人隐私上有问题的东西,都在取证调查上都很有用。本文首先详细介绍Flash cookie的有关基础知识,然后阐述了它在取证分析中的应用,最后给出一个操作Flash cookie的小工具。

一、Flash cookie基础知识

首先,介绍一些Flash cookie方面的基础知识:

Flash在互联网上已经非常普及,它不仅提供流式视频,同时还提供富客户端体验。目前,许多流行的站点都依赖于Flash,因此,Flash插件在Internet用户中的安装率极高。

Flash标准的本地共享对象本地共享对象允许在用户电脑上的本地Flash实例中存储数据。?

本地共享对象是作为一些单独的文件来存储的,它们的文件扩展名为.SOL。默认时,它们的尺寸为不超过100kB,并且不会过期——这一点与传统的HTTP Cookie不同。?

我已经在本地系统上的两处位置发现了.SOL文件,分别是%user profile%\Application Data\Macromedia\Flash Player 和 %user profile%\Application Data\Macromedia\Flash Player\#SharedObjects\\,这里的%user profile%表示用户文件夹目录,在XP 系统上一般为C:\Documents and Settings\\ 。对于Vista系统来说,可能还有留意%user profile%目录下的Roaming文件夹。?

本地共享对象并不是基于浏览器的,所以普通的用户不容易删除它们。如果要删掉它们的话,首先要知道这些文件所在的具体位置。这使得本地共享对象能够长时间的保留在本地系统上。

二、取证分析

在进行计算机调查取证时,将本地共享对象描述为Flash cookie是比较恰当的,因为它们提供了类似于传统的HTTP Cookie的各种信息。一般情况下,Flash cookie可以提供下列信息:

已访问过的网站

Flash要求按照域名的体系结构分层存储本地共享对象。这样做能够强制每个域名只能在本地系统上最多存放100k数据。从我们的角度来说,这给调查取证工作打开了一扇迅速检查已访问站点的方便之门。

要注意的是,基于Flash的广告也能够保存本地共享对象,这一点很重要,因为在一些情况下我们要考虑这些站点是不是用户特意去访问的。本地共享对象的来源是非常明显的,但是更进一步地测试或者额外的证据可能必须要进行必要的推断。

访问站点时所登录的本地用户帐户

我们知道,.SOL文件位于%user profile%文件夹中,而它正好指出了保存该文件时用户所登录的帐户。

访问站点的起止时间

因为.SOL文件是单独存放的,所以我们能够利用文件系统的时间戳来确定该文件的建立和最后一次修改时间。在Windows XP 系统上,我们可以使用访问时间来确定最近读取该文件的时间。通过它,我们可以了解最近一次访问该站点的时间,但是我们必须小心,因为我们尚不明了要求站点读取该本地共享对象的标准。但是大部分情况下,每当访问这些站点的时候,它们就会访问它们存放在用户端的本地共享对象;不过,如果由于某种原因站点没有读取该本地共享对象的话,访问时间就不会改变。

SOL文件的创建时间有可能告诉我们第一次访问该站点的时间。再一次强调,我们无法保证该在第一次访问该站点时必定创建该本地共享对象,所以断定起来有些难度。最佳的说法应该是已知的最初访问该站点的时间。在系统上的其他证据可能印证这确实是第一次访问时间,或者表明还有更早的访问时间。

所以,放回头去在看看图1,我们可以看到已知的访问mg3.mail.yahoo.com的最早时间是11/27/2008上午1:38,已知的最后一次访问时间为8/17/2009下午5:27,这里的时间都是本地计算机时间。

网站存储的数据

Flash试图通过控制格式并迫使所有的数据都存放成二进制序列来对本地共享对象数据进行混淆处理。也就是说,如果您发现了一个相关文件,那么就不要忽视这个数据区域。我也发现有趣的明文消息,例如天气网站存储的基于文本的位置信息。

三、Flash cookie工具

虽然不推荐作为取证工具使用,因为它要求在一个工作的系统上安装运行,但是Better Privacy Firefox扩展用于在本地系统上发现和清除本地共享对象还是非常不错的。了解法庭证据来最好手段之一是在一个已经知道其行为的系统上做检查,例如在自己的系统上。插件Better Privacy允许您轻松地查看和管理在一个运行中的系统中的本地共享对象。

四、小结

由于隐私问题,Flash cookie近来成为一个热点安全话题。不过从另一个角度讲,Flash cookie(即本地共享对象)却是一个很好的法庭证据——因为凡是在个人隐私上有问题的东西,都在取证调查上都很有用。本文首先详细介绍了Flash cookie的有关基础知识,然后阐述了它在取证分析中的应用,最后给出了一个操作Flash cookie的小工具。

=========================================================================Flash cookies:网络隐私新威胁

对于网站和广告商来说,通过HTTP下的cookies获取信息并不是受到欢迎的方式。现在的用户已经找到方法回避它们了。根据布鲁斯·施奈尔的消息,网站开发人员现在有了一种更好的方法。尽管它仍然被视为一个Cookie,但却是不同的。

LSO,一种更大更好的cookie

类似HTTP下的cookie,本地共享对象(LSO)或者叫Flash cookie是一种存储关于我们的信息和跟踪在互联网上活动情况的方式。关于这个项目,我了解到的信息有:

· Flash cookie可以容纳最多100千字节的数据,而一个标准的HTTP Cookie只有4千字节。

· Flash cookie没有默认的过期时间。

· Flash cookie将被存储在不同的地点,这使得它们很难被找到。

YouTube上的测试

LSO也非常难于清除。这里就有一个例子可以证明。访问YouTube网站,打开一个视频,调节音量。删除所有cookies并关闭网络浏览器。重新打开网络浏览器并播放同一视频。请注意,声音并没有恢复到默认设置。这证明Flash cookie并没有被清除,还在发挥作用。

很少有人知道Flash cookies的存在,因此,这是一个问题。它让那些对网络浏览器的cookies进行控制的用户获得了一种虚假的安全感。正如上面提到的,隐私控制不会Flash cookies造成影响。

它们保存在什么地方

Flash cookies采用.sol的扩展名。但即使知道了这一点,我仍然无法在我的计算机上找到任何存在的迹象。多谢谷歌(使用Flash cookies),我发现了解有关Flash cookies信息的唯一途径就是Flash播放器的网站。

下面的图片来自Flash播放器的网站,显示了存储方面的设置。标签中显示的就是访问过的网站(总共200个)中,所有保存的Flash cookies的位置。如果希望删除的话,该标签也是进行这种操作的位置。

Flash cookies相当流行

谷歌的另一次搜索结果给我带来了一份加利福尼亚大学伯克利分校的研究报告。研究人员对最大的100个网站中的Flash cookies应用和隐私情况进行了调查。结果显示:

· 100大网站中有54家采用了Flash cookies。

· 这54家网站使用了157条Flash cookies,产生了281条个人Flash cookies记录。

· 100大网站中有98家采用了HTTP cookies。这98家网站产生了3602条HTTP cookies记录。

· 这些网站中的31家采用了TRUSTe隐私标志计划。31家中的14家应用了Flash cookies。

· 100大网站中只有4家利用Flash作为跟踪机制。

看起来,很多网站都同时使用HTTP和Flash cookies。这让研究人员感到非常迷惑。经过深入分析,他们找出了原因,重生(respawning)。

Flash cookie重生

加利福尼亚大学伯克利分校的研究人员发现在关闭浏览器的时间被删除的HTTP cookies可以利用Flash cookie中的信息重写(重生):

“我们在几家网站上发现了HTTP cookie被重写的情况。在About.com上,一条SpecificClick Flash cookie重写了一条被删除的SpecificClick HTTP cookie。同样的情况出现在Hulu.com上,一条QuantCast Flash cookie重写了一条被删除的QuantCast HTTP cookie。”

研究人员还发现Flash cookies能够恢复的,不仅限于同一网站域名的HTTP cookies:

“我们还发现HTTP Cookie可以跨域重写。举例来说,第三方ClearSpring的Flash cookie可以重写符合Answers.com要求的HTTP cookie。ClearSpring还可以直接重写符合Aol.com和Mapquest.com要求的HTTP cookies。”

它的功能变得更强大

不久之前,就谷歌开始使用它们宣称不会使用的行为定位(BT)技术时,我曾经写过一篇文章。在文章中,我曾经提到网络广告促进协会(NAI)。大约有30家公司采用了BT技术。迫于压力,该协会创建了一个选择退出页面,让避免被跟踪变得十分简单。

研究人员发现,cookie退出的设置是不全面的。属于NAI的网站都创建了Flash cookies 。报告中提到了一个具体事件:

“我们发现当NAI上设置QuantCast的cookie退出后,Flash cookies还是处于使用状态。在cookies被删除后,Flash cookie还容许重写QuantCast HTML cookie。它没有选择重写退出的Cookie。因此,用户在选择退出后跟踪仍然存在。”

一些解决方案

为了避免保存Flash cookies,就需要利用设置管理器进入全局存储设置选项,移除如下图所示的“允许第三方Flash内容存储在你的计算机上”的选项。

这样的话,就可以避免Flash cookies被安装到系统中。具有讽刺意味的是,我们必须在Flash网站完成这样的操作。

在测试中,研究人员采用的是谋智火狐浏览器。在报告中,他们提到了火狐的一个插件BetterPrivacy,可以在关闭的时间删除所有的flash cookies。而另一个插件Ghostery可以对网络中的隐藏脚本进行跟踪,并发出警告。

结 论

我认为在互联网上被匿名追踪的时代已经过去了。如果这样的技术确实是无害的话,请加入是否同意的选择功能。

======================================================================你在网上被“卖”了 互联网新热门生意:监视用户

在互联网时代,“雁过无痕”只是神话。

只要你上网,哪怕动动鼠标都能被记录下来。于是,你在网络世界留下的重重叠叠的痕迹,逐渐勾勒出你的轮廓。

《华尔街日报》近日调查显示,美国最大的50家网站都在使用追踪技术,平均安装了64种追踪软件。这意味着,当你访问这些网站时,自己的一举一动都在被监视和记录。

只有非营利机构维基百科,没有安装任何一种追踪技术。

目前在互联网上,成长最快的生意之一就是监视用户,建立丰富的消费者数据库,然后将用户资料兜售给寻找潜在消费群的广告商或企业。

“收集客户的信息和行为方式,是很多互联网公司都在做的事情。即使现在没做,将来也会做。”对互联网技术很有研究的专家说,新型的网络追踪技术正在让个人隐私无所遁形,而出卖客户信息则成为互联网新的生财之道。

你上网时被一五一十地记录着

美国人卡丽·伊萨克可能不知道有一家名叫[x+1]的公司,但这家公司知道她的很多事情。

卡丽·伊萨克曾点击过这家公司的网站,[x+1]公司便对她的基本信息了如指掌:住在科罗拉多州的斯普林斯市,是个年轻的母亲,年收入约5万美元,习惯在沃尔玛超市购物,经常去租片店租一些小孩看的碟……

[x+1]公司利用时下互联网上非常流行的追踪技术,来收集访问者的浏览记录,形成一个记录人们上网行为的庞大数据库。

它不记录访问者的姓名,但会将个人的住房情况、家庭收入、婚姻状况和常去的餐厅等众多信息进行交叉比对和汇集,然后通过统计分析,推测上网者的个人喜好和习惯。

当信用卡公司买下这些信息后,就会分别向不同目标人群,推荐不同类别的信用卡产品。当然,信用卡公司只是数据中间商[x+1]公司的客户之一。

除了真实姓名 其他都暴露无遗

纽约的Lotame公司则通过一种名为“灯塔”(beacons)的复杂追踪软件来实现对用户的监控。

“ 灯塔”也被称做“网络爬虫”,是一种很小的在网页上运行的软件,可以记录用户在网页上的操作,比如他们打了什么字,鼠标移动到了什么地方等。

Lotame公司通过捕捉人们在网站上输入的文字,比如对电影的评论,或者他们参与的话题讨论等,来分析用户的特征,随后打包归类。

另一个美国人贝蒂,就这样被“打包归类”了,划分到“电影爱好者”的包裹,她的信息以0.1美分的价格出售给别人。代表贝蒂的是一组代码:4c812db292272995e5416a323e79bd37。这个代码把贝蒂标识为一个住在田纳西州首府纳什维尔市的26岁女性。

代码并不显示贝蒂的真实姓名,但是可以迅速地显示贝蒂最喜欢的电影有《公主新娘》和《初恋50次》,也知道她喜欢电视连续剧《欲望都市》,喜欢浏览娱乐新闻,喜欢玩问答游戏。

追踪文件的开发者Targus公司就透露,微软旗下的网站MSN.com上植入了追踪文件,通过追踪上网者,微软可以得到用户的年龄、邮政编码、性别,还有大概的个人收入、婚姻状况、有无子女、住宅情况等信息。

人们在网络上除了姓名不公开,其他隐私一概暴露无遗。

删除自己的上网记录 也没用

网络公司依赖的追踪技术分为三类:最基本的是cookies(一种用来追踪使用者上网习惯的小档案,由网站服务器储存在客户端的计算机上)、相对强大的Flash cookies、引入了一定软件成分的“灯塔”(web beacons )。

追踪公司使用cookies通常是为了构筑一份特定电脑访问网页的浏览记录;Flash cookies甚至可以重装用户删除的常规cookies,这就意味着他们可以在用户试图避开线上追踪时打开后门;而最新的技术“灯塔”能够通过记录更为细微的网上行为,如所打文字等,得到更多的用户信息。

令人郁闷的是,这种可怕的网络追踪技术正在泛滥,让人防不胜防。

《华尔街日报》近日对各种可用于监视互联网用户的技术进行评估和分析,结果显示,消费者追踪行为的广度和侵入程度,已远超出人们的认知,只有这一行业的少数前沿人士才知道实情。

调查发现,全美最大的50家网站在每个访问者的电脑上平均安装了64种追踪技术,而且通常都不给任何提示。十多家其他网站安装的追踪技术甚至超过上百种。

被“定向”

监视网络用户 是笔大生意

目前在互联网上,成长最快的生意之一就是监视互联网用户,建立丰富的消费者数据库,并将用户资料出卖给寻找潜在消费群的广告商或企业。

互联网用户和广告投放者之间,存在着100多家中间机构,包括追踪公司、数据中间商和广告投放者网络等。它们彼此竞争,以满足企业对消费者行为和偏好的日益增长的数据需求。

据统计,消费者追踪现在已经成为了在线广告的基础。一位业内人士介绍,像一些大型搜索网站,都在追求这样的精准营销的模式:根据用户的信息判断其需求,进而投放相应的广告。

根据消费者特征投放的定向广告,价值远远高于非定向广告。一份广告行业3月份发布的调查报告显示,去年,美国定向广告的平均价格是每1000个浏览量4.12美元,而非定向广告只有1.98美元。

美国甚至出现了一种新型的定制化网站。它能够根据对访客的判断,对版面、内容和产品价格等进行调整。

中国的网络公司也在“追踪”

在中国,互联网公司也大都使用了cookies技术,进行诸如保存浏览记录、在Web页上保存密 码、针对不同用户进行广告投放等行为。不过,还没有出现类似[x+1]公司这样的专业数据分析商。

让人担忧的是,规模小一点的网站,所记录的上网者密码,没有任何加密的措施,很容易被窃取。有人曾经做过测试,利用一个旅游网站的技术漏洞,轻易就从它的数据库中取走了几万个用户的信息和密码。

首都师范大学政法学院石国亮教授说:“通过互联网追踪技术获取消费者数据应该是一种比较新的趋势,数据中间商出售经过分析整理后的用户信息,(在中国)目前还没有法律明文规定这一行为是违法的,也不能把它简单认定为侵犯了用户的隐私权。”

他认为:“网络追踪技术这种手段本身并没有问题,关键是要看数据中间商把数据出售给了谁。如果客户信息被不法分子利用,那就会引发一系列社会问题。加强信息利用的监控是十分必要的。”

针对追踪技术 还没有“法界”

“当一个广告的定位足够准确时,广告就不再是广告,而是重要的信息。”一位广告业人士说。

一些用户则很担心隐私泄露的安全问题。

对此,追踪公司解释,所获资料是匿名的,因为互联网用户的身份,是通过一个分配给其电脑的号码来进行标识的,而不是具体姓名,所以不涉及个人隐私。比如,Lotame公司就表示,他们并不知道贝蒂这样用户的真实姓名,只是通过一个标识号码来了解他们的行为方式和偏好特征。

按照美国法律,当用户访问一家网站,电脑被植入最简单的cookies是合法的。不过,对于那些更复杂的追踪技术,目前还没有判例。

==

Web beacon

Also called a Web bug or a pixel tag or a clear GIF. Used in combination with cookies, a Web beacon is an often-transparent graphic image, usually no larger than 1 pixel x 1 pixel, that is placed on a Web site or in an e-mail that is used to monitor the behavior of the user visiting the Web site or sending the e-mail. When the HTML code for the Web beacon points to a site to retrieve the image, at the same time it can pass along information such as the IP address of the computer that retrieved the image, the time the Web beacon was viewed and for how long, the type of browser that retrieved the image and previously set cookie values. Web beacons are typically used by a third-party to monitor the activity of a site. A Web beacon can be detected by viewing the source code of a Web page and looking for any IMG tags that load from a different server than the rest of the site. Turning off the browser"s cookies will prevent Web beacons from tracking the user"s activity. The Web beacon will still account for an anonymous visit, but the user"s unique information will not be recorded.

HP 如何使用自动数据收集工具: 以下部分就普遍使用的网络技术工具提供了更多的信息。

Cookie Cookie 是一种由网站传输到您计算机硬盘上的小型数据文件。 当您浏览我们的网站或刊登有我们广告的网站、或当您进行购买、索取信息或将信息个人化,或者注册某些服务时,HP 或其服务提供商就会发送 Cookie 到您的计算机上。 若您接受我们的网站或刊登有我们广告的网站上所使用的 Cookie, 就可让我们访问有关您浏览行为的信息,我们可能利用这些信息来个人化您的体验。Cookie 通常分为“阶段性” Cookie 和永久性” Cookie。

“阶段性” Cookie 在您关掉浏览器之后,不会保留在您的计算机上。 “永久性” Cookie 会一直保留在您的计算机上,直到您将它们删除或它们过期。 大部份浏览器是默认自动接受 Cookie,但是您通常还是可以通过调整浏览器的偏好选项来拒绝 Cookie,或是选择性地接受 Cookie。 如果关掉 Cookie,您可能就无法使用我们网站的某些功能,而且有些网页也可能将无法正常显示。 您可以在下列网站找到有关常用浏览器以及如何调整 Cookie 偏好选项的信息:

Microsoft Internet Explorer: http://www.microsoft.com/info/cookies.htm Mozilla Firefox: http://www.mozilla.org/projects/security/pki/psm/help_21/using_priv_help.html 网络信标 (Web beacons) 有些 HP.com 网页和第三方网页,以及 HTML 格式的电子邮件,会只使用网络信标 (Web beacons) 或用网络信标 (Web beacons) 与 Cookie 结合的方式,收集有关您网站使用情况的信息以及您使用电子邮件情况的信息。 网络信标 (Web beacons) 是一种称为单一像素 (1x1) 或清晰 GIF 的电子图像。 网络信标 (Web beacons) 可以标识您计算机上的某些信息类型,例如 Cookie、页面浏览的时间和日期,以及网络信标 (Web beacons) 所在页面的描述。 您可以通过不下载电子邮件中所附的图像(这项功能会因您个人计算机所使用的电子邮件软件而异),来禁用电子邮件中的网络信标 (Web beacons) 。 但是,由于不同的电子邮件软件有着不同的功能,这样做不见得一定会禁用电子邮件中的网络信标 (Web beacons) 或是其它自动数据收集工具。 有关详细信息,请参阅您的电子邮件软件或服务提供商所提供的信息。如果您按照您的选择与选择您的隐私权偏好中所述,选择接受 HP 的市场营销电子邮件或电子新闻,HP 可能会自动收集有关您的个人信息。 例如,通过内嵌于这些电子邮件或电子新闻中的网络信标 (Web beacons) 和个人化的 URL,HP 可以跟踪您是否打开过这些信息,以及您是否曾经点击了这些信息中所包含的链接。 有关内嵌式网络链接的详细信息,请看下面的说明。

内嵌式网络链接 由 HP 发送的电子邮件、经 HP 预先设置好的因特网键盘键、或是预先安装在您计算机桌面上的促销图标,通常都使用设计好的链接,在经由 HP 服务器的重新导向之后,将您引导到网络上的相关区域。 重新导向系统在必要时可以让 HP 改变这些链接的目的地 URL,也可以知道我们市场营销活动的有效性。

在电子邮件中,这样的网络链接也可以让 HP 知道您是否曾经点击电子邮件中的链接,而我们可能会将这样的互动信息与您的个人身份相链接。 如果您不想让 HP 收集有关您所点击链接的信息,您可以:

改变您从 HP 接收通信的方式(即,如果可能,选择文本版本的信息)或选择不点击 HP 所发送电子邮件中的链接 删除 HP 预先安装在您计算机桌面上的促销图标,或选择不要点击那些图标 按照您计算机所附的指示,可以在某些型号计算机上重新设置因特网键盘键,设置一个您自己选择的目的地 URL。 刊登于第三方网站的 HP 广告 HP 与服务提供商签约,将广告刊登在属于第三方拥有的网站上。 服务提供商经由第三方网站送出 Cookie,并在这些网站上使用网络信标 (Web beacons)。 这些 Cookie 和网络信标 (Web beacons) 可以让 HP 收集到有关您浏览网页与点击链接的信息。

信息收集工具 HP 可能使用某些工具,来收集您在某些 HP 网站所浏览过的信息。 这些工具与网络信标 (Web beacons) 或 Cookie 的使用无关,而是由 HP 服务器记录下您与 HP 网站的互动。 在某些国家所使用的一些工具,可让 HP 回放客户浏览网络的过程。 这些工具的主要用途在于故障排除;这些工具所收集的信息将被存储一小段时间。

保护您的隐私权 “隐私权偏好选项平台” (Platform for Privacy Preferences,P3P) 技术是由”全球信息网协会” (World Wide Web Consortium,W3C) 所开发的新隐私权技术。 Microsoft Internet Explorer 6 (IE6) 浏览器中具备 P3P 技术,这种技术让您在获得更多信息的情况下,来决定如何在线使用您的个人信息。 将此新技术运用在我们网站的某些区域,是 HP 以尖端科技保护您隐私权的另一种方式。

Microsoft Internet Explorer 6 (IE6) 是第一个支持这项新隐私权标准的浏览器。 采用 P3P 之后,您可以设置浏览器自动侦测网站是否:收集个人标识信息、使用这些信息创建用户档案、或允许到访者拒绝数据收集。

具备 P3P 能力的浏览器具有一些可供您选择的默认选项。 或者您也可以通过回答问题的方式(例如您愿意分享哪些数据、愿意接受哪些类型的 Cookie 文件)自定义您的设置。 当您在 Web 浏览时,这个软件会判断您的隐私权偏好选项是否与网站的数据收集做法匹配。

具备 P3P 能力的浏览器会特别注意 Cookie。 Cookie 是留存在您计算机硬盘上的一段文本,它可以让 Web 应用程序以个体方式对您响应。 通过收集和记忆您的偏好选项信息,Web 应用程序可以根据您的需求、喜欢什么、不喜欢什么等来修改它的运作模式。 使用具备 P3P 能力的浏览器,您可以选择是否接受各种类型的 Cookie,例如阶段性(暂时性)、永久性、在指定的网域之内或之外(第三方),以及有没有特殊的 ”P3P 精简政策” (P3P compact policy) 文件。 精简 P3P 政策描述了给定 Cookie 的属性。

======================================================

数据收集有几种手段:web日志、web Beacons、javascript标记、包嗅探器。

web日志

这个容易理解,现在很多网站利用开源软件如awstats等第三方软件分析网站的apache access web日志

书上写了它的很多好处,chao个人认为它主要有下面几个好处:

web 日志本天成,许多web服务器可以自动生成web日志,只要找个第三方软件来统计一下就可以了,工作量少。 对比其他的统计方式,web日志可以记录搜索引擎(爬虫)的访问。 没有完美的姑娘,web日志也一样,它的弊病在于:

日志的内容大都是技术信息,把它用于捕获商业信息是不好的。这里的商业信息应该指的是比如访问地区等。这也是一方面,由于基于日志的第三方统计软件,没有结合中国国情本地化,而造成。 不能准确统计流量,由于页面缓存等的存在。 结论,用书上的一句话来说,web日志的采集,只能作为其他数据方式的补充。

下面要叙述的web beacons,非常有意思的,它的设计原理简单,但可以借鉴应用于其他的许多方面

web beacons

google了一下,web beacons这个东西中文名叫单像素GIF文件,另外一个名字有趣,“网络信标”。

web beacons主要用于广告的点击和统计。

web beacons是web页面上1×1像素的透明图片,在img src的html标记之内。这个透明图像放在第三方服务器上(相对于存放web的服务器)

web beacons的好处在于:

收集多个web 服务器、多个web应用、多个域的数据。从某方面来说,和soa一致,特色是“分布式应用、集中式服务处理” 不会得到没有用的数据,因为爬虫机器人不会访问img。不过这点chao认为只是特色,不是优点。 弊病:

捕获的数据少,没javascript标记多。 收到客户端cookie的限制,不过cookie被删除,则被收集的数据少。 javascript标记

这个不用图解了,很简单和常见的流量统计和分析方式,比如51la、google analytics、yahoo stat等

好处:

易于自己实现的一种方式。 即使有页面缓存,也不会阻碍。 它可以适用于特定页面的特殊定制的标记,如(订单、产品名称等)。这个很重要,可以抛开传统的编程思维,有点aop的味道。 弊病:虽然书上列出了一些,不过chao认为这些不重要。

包嗅探器

“从技术上来讲,包嗅探器是收集web数据最先进的方式之一”,看了这句话,就知道应用不好。

责任编辑:

标签:

相关推荐:

精彩放送:

新闻聚焦
Top