A Large-Scale Study of the Evolution of Web Pages - Microsoft

Extrait du fichier (au format texte) :

A Large-Scale Study of the Evolution of Web Pages
Dennis Fetterly
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
dennis.fetterly@hp.com

Mark Manasse

Marc Najork

Microsoft Research
Microsoft Research
1065 La Avenida
1065 La Avenida
Mountain View, CA 94043 Mountain View, CA 94043
manasse@microsoft.com najork@microsoft.com

Janet Wiener
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
janet.wiener@hp.com

ABSTRACT

1. INTRODUCTION

How fast does the web change? Does most of the content remain unchanged once it has been authored, or are the documents continuously updated? Do pages change a little or a lot? Is the extent of change correlated to any other property of the page? All of these questions are of interest to those who mine the web, including all the popular search engines, but few studies have been performed to date to answer them.
One notable exception is a study by Cho and Garcia-Molina,
who crawled a set of 720,000 pages on a daily basis over four months, and counted pages as having changed if their MD5 checksum changed. They found that 40% of all web pages in their set changed within a week, and 23% of those pages that fell into the
.com domain changed daily.
This paper expands on Cho and Garcia-Molina s study, both in terms of coverage and in terms of sensitivity to change. We crawled a set of 150,836,209 HTML pages once every week, over a span of
11 weeks. For each page, we recorded a checksum of the page, and a feature vector of the words on the page, plus various other data such as the page length, the HTTP status code, etc. Moreover, we pseudo-randomly selected 0.1% of all of our URLs, and saved the full text of each download of the corresponding pages.
After completion of the crawl, we analyzed the degree of change of each page, and investigated which factors are correlated with

Les promotions



L'économie de la sécurité - Microsoft
L'économie de la sécurité - Microsoft
16/11/2016 - www.microsoft.com
nl y se Lect L économie de la sécurité Ces dernières années, la sécurité est devenue une priorité pour les pouvoirs publics et les entreprises. Crime organisé, terrorisme, interruption des chaînes d approvisionnement mondiales, virus informatiques  autant de menaces avec lesquelles il faut compter dans le monde d aujourd hui. D où l émergence d un marché des équipements et des services de sécurité de 100 milliards de dollars. Ce marché est alimenté par la demande croissante émanant...

MSR Quantum applications - Microsoft
MSR Quantum applications - Microsoft
23/08/2018 - www.microsoft.com
( What Can We Do with a Quantum Computer? ( Matthias Troyer  Station Q, ETH Zurich | 1 Classical computers have come a long way Antikythera mechanism ENIAC astronomical positions (1946) (100 BC) Kelvin s harmonic analyzer prediction of tides (1878) Difference Engine (1822) Is there anything that we cannot solve on future supercomputers? Titan, ORNL (2013) Matthias Troyer | | 2 How long will Moore s law continue? Do we see signs of the end of Moore s law? Can we go below 7nm...

Microsoft K State Whitepaper 2021 08 17
Microsoft K State Whitepaper 2021 08 17
23/09/2024 - www.microsoft.com
Cloud enclave for academic research Streamlining security and compliance at your institution August 2021 Contents Introduction........................................................................................................ 3 1. Assess where you are today........................................................................ 4 Work directly with researchers to identify challenges............................................................................... 4 Identify existing compliance...

MatrixExplorer: Un système pour l'analyse exploratoire de ... - Microsoft
MatrixExplorer: Un système pour l'analyse exploratoire de ... - Microsoft
22/05/2017 - www.microsoft.com
MatrixExplorer: Un système pour l analyse exploratoire de réseaux sociaux Nathalie Henry Jean-Daniel Fekete INRIA Futurs/LRI/University of Sydney Bât 490, Université Paris-Sud 91405 Orsay Cedex Nathalie.Henry@lri.fr INRIA Futurs/LRI Bât 490, Université Paris-Sud 91405 Orsay Cedex Jean-Daniel.Fekete@inria.fr RESUME ABSTRACT Dans cet article, nous présentons le système MatrixExplorer destiné à explorer des réseaux sociaux. Il a été conçu pour des chercheurs en sciences sociales...

1 Introduction - Microsoft
1 Introduction - Microsoft
11/04/2018 - www.microsoft.com
One-Way Accumulators: A Decentralized Alternative to Digital Signatures (Extended Abstract) Josh Benaloh Clarkson University Michael de Mare Giordano Automation Abstract This paper describes a simple candidate one-way hash function which satis es a quasi-commutative property that allows it to be used as an accumulator. This property allows protocols to be developed in which the need for a trusted central authority can be eliminated. Space-e cient distributed protocols are given for document time...

Microsoft Modern Work Plan Comparison Education 11 2021
Microsoft Modern Work Plan Comparison Education 11 2021
14/09/2024 - www.microsoft.com
Add-on licenses Endpoint and app management Microsoft Product Terms Desktop client apps1 %? %? %? %? %? Office Mobile apps2 %? %? %? %? %? %? Install apps on up to 5 PCs/Mac + 5 tablets + 5 smartphones %?3 %? %? %?3 %? %? Office for the web %? %?

A Large-Scale Study of the Evolution of Web Pages - Microsoft
A Large-Scale Study of the Evolution of Web Pages - Microsoft
23/08/2018 - www.microsoft.com
A Large-Scale Study of the Evolution of Web Pages Dennis Fetterly Hewlett Packard Labs 1501 Page Mill Road Palo Alto, CA 94304 dennis.fetterly@hp.com Mark Manasse Marc Najork Microsoft Research Microsoft Research 1065 La Avenida 1065 La Avenida Mountain View, CA 94043 Mountain View, CA 94043 manasse@microsoft.com najork@microsoft.com Janet Wiener Hewlett Packard Labs 1501 Page Mill Road Palo Alto, CA 94304 janet.wiener@hp.com ABSTRACT 1. INTRODUCTION How fast does the web change? Does most...

Vers une approche simplifiée pour introduire le caractère ... - Microsoft
Vers une approche simplifiée pour introduire le caractère ... - Microsoft
23/11/2017 - www.microsoft.com
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262881208 Vers une approche simplifiée pour introduire le caractère incrémental dans les systèmes de dialogue Conference Paper · July 2014 CITATION READS 1 26 3 authors, including: Hatim Khouzaimi Romain Laroche Orange Labs / Laboratoire Informatique d'Avi & Microsoft Maluuba 12 PUBLICATIONS 42 CITATIONS 58 PUBLICATIONS 185 CITATIONS SEE PROFILE All content following this page was uploaded by Hatim Khouzaimi on 28 April 2015. The user has requested enhancement of the downloaded file. SEE PROFILE 21ème...
 
 

© 2012 VTech
© 2012 VTech
03/04/2012 - www.vtech-jouets.com
© 2012 VTech 91-002686-001 Imprimé en Chine Chers parents, Chez VTech®, nous sommes conscients que les enfants sont notre avenir. C'est pourquoi tous nos jeux sont conçus de manière à inciter Bébé à découvrir le monde qui l'entoure. Toute la technologie et le sens de la pédagogie VTech® sont mis au service du développement de l'enfant : la découverte de son corps, sa relation au monde, le plaisir d'apprendre en jouant. Chez VTech®, nous nous engageons à tout faire pour que les...

Loewe klang 5 - Loewe TV
Loewe klang 5 - Loewe TV
20/11/2017 - www.loewe.tv
Informations produit Loewe klang 5 Août 2016 Loewe klang 5 Compris dans la livraison : Loewe klang 5 L 11,8 / H 135,8 / PP 11,8 / S 28 2 pièces Informations techniques Loewe klang 5 Ebénisterie Coloris Caractéristiques générales Principe Etages de sortie Puissance nominale/musicale admissible (sinus/maxi) Bande passante Pression sonore (Medium / Peak) Equipement actif, 3 voies, fermé, montage D Appolito 4 étages de sortie numériques (classe D) 135 W / 270 W 55 Hz  22 kHz (...

100217279nBarr7200.7
100217279nBarr7200.7
29/09/2024 - www.seagate.com
Barracuda 7200.7 Plus ST3200822A ST3200021A Barracuda 7200.7 ST3160023A ST3160021A ST3120026A ST3120022A ST380013A ST380011A ST340014A Barracuda 7200.7 Plus ST3200822A ST3200021A Barracuda 7200.7 ST3160023A ST3160021A ST3120026A ST3120022A ST380013A ST380011A ST340014A ?2003, 2004, 2005 Seagate Technology LLC All rights reserved Publication number: 100217279, Rev. N September 2005 Seagate and Seagate Technology are registered trademarks of Seagate Technology LLC. SeaTools, SeaFONE, SeaBOARD,...

NAVIGON 72 Easy: grand par le format, petit par le prix.
NAVIGON 72 Easy: grand par le format, petit par le prix.
09/05/2012 - www.navigon.com
NAVIGON 72 Easy: grand par le format, petit par le prix. Avec le NAVIGON 72 Easy et son écran 5,0'' extra large vous avez toujours une vue d'ensemble. Livret de réductio Info Trafic Premium -50 % NAVIGON FreshMaps -80 % ns inclus pour : Info zone dangereuse -50 % Le guide vert MICHELIN -50 % 5,0 " Lelogicielrévolutionnaire. NAVIGON Flow. NAVIGON 72 Easy ­ Fonctions. 5,0" Ecran (12,7 cm) | Europe 23 NAVIGON Flow NAVGION MyRoutes NAVIGON Clever Parking et dernière mètre Info zone dangereuse...

Getting started with Première utilisation Logitech® Wireless ...
Getting started with Première utilisation Logitech® Wireless ...
16/02/2012 - www.logitech.com
Getting started with Première utilisation Logitech® Wireless Keyboard K360 K360 Getting started with ith te w Première d ion g star utilisation se M185 Gettinière utilisatless MouKeyboard K360 Logitech® Wireless Prem ch® Wire Logite 1 2 1 2 Fn + F4 = Abre el reproductor de medios Fn + F5 = Voltear2 Fn + F6 = Muestra el escritorio Fn + F7 = Minimiza la ventana Fn + F8 = Restaura las ventanas minimizadas Fn + F9 = Mi PC Fn + F10 = Bloquea la PC Fn + F11 = Activa el modo de espera de la...

programme 2012 - Smeg
programme 2012 - Smeg
14/06/2017 - www.smeg.fr
03/2012 Smeg France SAS 9, rue Linus Carl Pauling - BP 548 - 76824 Mont Saint Aignan Cedex Tel. 02 35 12 14 14 - Fax 02 35 60 70 77 e-mail: smeg@smeg.fr Renseignements produits pour particuliers Tel. 02 35 12 14 27 www.smeg.fr Ser vice Technique/Pièces Détachées Fax 04 72 50 00 14 Inter vention Sav Agréé Tel. 04 72 21 51 61 Tous les prix figurant dans ce catalogue sont donnés à titre indicatif TTC. Reproduction, même partielle, interdite. Ne pas jeter sur la voie publique. F PROGRAMME...