A Large-Scale Study of the Evolution of Web Pages - Microsoft

Extrait du fichier (au format texte) :

A Large-Scale Study of the Evolution of Web Pages
Dennis Fetterly
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
dennis.fetterly@hp.com

Mark Manasse

Marc Najork

Microsoft Research
Microsoft Research
1065 La Avenida
1065 La Avenida
Mountain View, CA 94043 Mountain View, CA 94043
manasse@microsoft.com najork@microsoft.com

Janet Wiener
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
janet.wiener@hp.com

ABSTRACT

1. INTRODUCTION

How fast does the web change? Does most of the content remain unchanged once it has been authored, or are the documents continuously updated? Do pages change a little or a lot? Is the extent of change correlated to any other property of the page? All of these questions are of interest to those who mine the web, including all the popular search engines, but few studies have been performed to date to answer them.
One notable exception is a study by Cho and Garcia-Molina,
who crawled a set of 720,000 pages on a daily basis over four months, and counted pages as having changed if their MD5 checksum changed. They found that 40% of all web pages in their set changed within a week, and 23% of those pages that fell into the
.com domain changed daily.
This paper expands on Cho and Garcia-Molina s study, both in terms of coverage and in terms of sensitivity to change. We crawled a set of 150,836,209 HTML pages once every week, over a span of
11 weeks. For each page, we recorded a checksum of the page, and a feature vector of the words on the page, plus various other data such as the page length, the HTTP status code, etc. Moreover, we pseudo-randomly selected 0.1% of all of our URLs, and saved the full text of each download of the corresponding pages.
After completion of the crawl, we analyzed the degree of change of each page, and investigated which factors are correlated with

Les promotions



User-Driven Access Control: Rethinking Permission ... - CiteSeerX
User-Driven Access Control: Rethinking Permission ... - CiteSeerX
23/08/2018 - www.microsoft.com
User-Driven Access Control: Rethinking Permission Granting in Modern Operating Systems Franziska Roesner, Tadayoshi Kohno {franzi, yoshi}@cs.washington.edu University of Washington Alexander Moshchuk, Bryan Parno, Helen J. Wang {alexmos, parno, helenw}@microsoft.com Microsoft Research, Redmond Crispin Cowan crispin@microsoft.com Microsoft Abstract tionality and security for access to the user s data and resources. From a functionality standpoint, isolation inhibits the client-side manipulation...

DictaNum : système de dialogue incrémental pour la dictée ... - Microsoft
DictaNum : système de dialogue incrémental pour la dictée ... - Microsoft
23/11/2017 - www.microsoft.com
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262881756 DictaNum : système de dialogue incrémental pour la dictée de numéros. Conference Paper · July 2014 CITATIONS READS 0 57 3 authors, including: Hatim Khouzaimi Romain Laroche Orange Labs / Laboratoire Informatique d'Avi & Microsoft Maluuba 12 PUBLICATIONS 42 CITATIONS 58 PUBLICATIONS 185 CITATIONS SEE PROFILE SEE PROFILE All content following this page was uploaded by Hatim Khouzaimi on 06 June 2014. The user has requested enhancement of the downloaded file. 21ème...

MSFT SurfaceLaptopIntel Fact Sheet
MSFT SurfaceLaptopIntel Fact Sheet
02/10/2025 - www.microsoft.com
Windows Hello for Business with facial recognition and Enhanced Sign-In Security Surface Laptop for Business Near-edgeless display and Surface's signature 3:2 ratio for more screen in a compact footprint Premium experiences drive AI advantage NPUs delivering 40 or 48 TOPS of on-device AI performance to support today's capabilities and tomorrow's innovations5 Anti-reflective technology reduces reflections up to 50% Optional smart card reader16 Exceptional AI-enabled collaboration and Copilot+...

MSR Quantum applications - Microsoft
MSR Quantum applications - Microsoft
23/08/2018 - www.microsoft.com
( What Can We Do with a Quantum Computer? ( Matthias Troyer  Station Q, ETH Zurich | 1 Classical computers have come a long way Antikythera mechanism ENIAC astronomical positions (1946) (100 BC) Kelvin s harmonic analyzer prediction of tides (1878) Difference Engine (1822) Is there anything that we cannot solve on future supercomputers? Titan, ORNL (2013) Matthias Troyer | | 2 How long will Moore s law continue? Do we see signs of the end of Moore s law? Can we go below 7nm...

Vers une approche simplifiée pour introduire le caractère ... - Microsoft
Vers une approche simplifiée pour introduire le caractère ... - Microsoft
23/11/2017 - www.microsoft.com
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262881208 Vers une approche simplifiée pour introduire le caractère incrémental dans les systèmes de dialogue Conference Paper · July 2014 CITATION READS 1 26 3 authors, including: Hatim Khouzaimi Romain Laroche Orange Labs / Laboratoire Informatique d'Avi & Microsoft Maluuba 12 PUBLICATIONS 42 CITATIONS 58 PUBLICATIONS 185 CITATIONS SEE PROFILE All content following this page was uploaded by Hatim Khouzaimi on 28 April 2015. The user has requested enhancement of the downloaded file. SEE PROFILE 21ème...

DSCOVR: Randomized Primal-Dual Block Coordinate ... - Microsoft
DSCOVR: Randomized Primal-Dual Block Coordinate ... - Microsoft
23/08/2018 - www.microsoft.com
DSCOVR: Randomized Primal-Dual Block Coordinate Algorithms for Asynchronous Distributed Optimization lin.xiao@microsoft.com Lin Xiao Microsoft Research AI Redmond, WA 98052, USA weiyu@cs.cmu.edu Adams Wei Yu Machine Learning Department, Carnegie Mellon University Pittsburgh, PA 15213, USA qihang-lin@uiowa.edu Qihang Lin Tippie College of Business, The University of Iowa Iowa City, IA 52245, USA wzchen@microsoft.com Weizhu Chen Microsoft AI and Research Redmond, WA 98052, USA October 13,...

L'économie de la sécurité - Microsoft
L'économie de la sécurité - Microsoft
16/11/2016 - www.microsoft.com
nl y se Lect L économie de la sécurité Ces dernières années, la sécurité est devenue une priorité pour les pouvoirs publics et les entreprises. Crime organisé, terrorisme, interruption des chaînes d approvisionnement mondiales, virus informatiques  autant de menaces avec lesquelles il faut compter dans le monde d aujourd hui. D où l émergence d un marché des équipements et des services de sécurité de 100 milliards de dollars. Ce marché est alimenté par la demande croissante émanant...

Microsoft K State Whitepaper 2021 08 17
Microsoft K State Whitepaper 2021 08 17
23/09/2024 - www.microsoft.com
Cloud enclave for academic research Streamlining security and compliance at your institution August 2021 Contents Introduction........................................................................................................ 3 1. Assess where you are today........................................................................ 4 Work directly with researchers to identify challenges............................................................................... 4 Identify existing compliance...
 
 

Express Gate - Asus
Express Gate - Asus
08/07/2016 - www.asus.fr
 Carte Mère ASUS P6T Deluxe avec le Super Hybrid Engine Turbo V : Over Clocking extrême EPU : Consommation optimale Express Gate : Accès à internet en 5 sec. CATALOGUE COMPOSANTS JANVIER - MARS 2009 Cartes mères | Cartes graphiques Lecteurs optiques | Barebones | Multimédia Wifi | Réseau | Ventilateurs www.asus.fr CARTES MÈRES  OC PALM Un overclocking facile en temps réel ! " Overclockez en temps réel, sans interruption. " Enregistrez un profil d overclocking en...

Torti Caméléon
Torti Caméléon
03/04/2012 - www.vtech-jouets.com
Manuel d'utilisation Torti Caméléon © 2011 VTech Imprimé en Chine 91-002549-000-000 INTRODUCTION Vous venez d'acquérir Torti Caméléon de VTech®. Félicitations ! Grâce à Torti Caméléon, Bébé développe sa motricité en actionnant la queue, la tête ou les pattes du caméléon et en appuyant sur les boutons. Il déclenche des phrases et des sons amusants et découvre les formes, les couleurs et les chiffres ! Son exploration est rythmée par une chanson et 6 mélodies. Tête...

Mode d'emploi - Hotpoint.eu
Mode d'emploi - Hotpoint.eu
21/12/2017 - www.hotpoint.fr
Mode d emploi LAVE-VAISSELLE FR Français, 1 Sommaire Fiche de produit, 2 Précautions et conseils, 3 Sécurité générale Mise au rebut Economies et respect de l environnement Installation, 4-5 Mise en place et mise à niveau Raccordements eau et électricité Caractéristiques techniques Conseils pour le premier lavage Description de l appareil, 6 LFB 5B019 Vue d ensemble Tableau de bord Charger les paniers, 7-8 Panier inférieur Panier supérieur Panier à couverts Plateau range-couverts Réglage...

ARCHOS : encore plus de vidéo et de musique sur ses baladeurs ...
ARCHOS : encore plus de vidéo et de musique sur ses baladeurs ...
16/03/2012 - www.archos.com
Information Presse Igny, le 22 avril 2008 ARCHOS : encore plus de vidéo et de musique sur ses baladeurs partout dans le monde ! ARCHOS, leader sur le marché des baladeurs multimédia, enrichit son offre de contenu et annonce la disponibilité de plus de 8 000 films ou documentaires ainsi que plus de 5 millions de titres musicaux, grâce à l'arrivée de nouveaux partenaires dans son Portail Média (ARCHOS Content Portal), tels que Paramount et NRJ. Le Portail Média d'ARCHOS : encore plus de...

iPad Guide de l'utilisateur - Support - Apple
iPad Guide de l'utilisateur - Support - Apple
27/11/2014 - manuals.info.apple.com
iPad Guide de l utilisateur Pour le logiciel iOS 6.1 Table des matières 7 7 8 9 11 12 Chapitre 1 : /Vue d ensemble de l iPad 13 13 13 14 14 14 15 16 17 18 Chapitre 2 : /Démarrage 19 19 22 24 28 29 30 31 33 33 35 35 36 37 Chapitre 3 : /Notions élémentaires 38 38 39 42 42

10517 Affiche 60x80 Conso Bonus Malus Tvs 03 Mars 2024 Print
10517 Affiche 60x80 Conso Bonus Malus Tvs 03 Mars 2024 Print
23/06/2024 - www.citroen.fr
10517_Affiche_60x80_Conso_Bonus-malus_TVS_03_Mars-2024.indd 1 23/02/2024 16:09