A Large-Scale Study of the Evolution of Web Pages - Microsoft

Extrait du fichier (au format texte) :

A Large-Scale Study of the Evolution of Web Pages
Dennis Fetterly
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
dennis.fetterly@hp.com

Mark Manasse

Marc Najork

Microsoft Research
Microsoft Research
1065 La Avenida
1065 La Avenida
Mountain View, CA 94043 Mountain View, CA 94043
manasse@microsoft.com najork@microsoft.com

Janet Wiener
Hewlett Packard Labs
1501 Page Mill Road
Palo Alto, CA 94304
janet.wiener@hp.com

ABSTRACT

1. INTRODUCTION

How fast does the web change? Does most of the content remain unchanged once it has been authored, or are the documents continuously updated? Do pages change a little or a lot? Is the extent of change correlated to any other property of the page? All of these questions are of interest to those who mine the web, including all the popular search engines, but few studies have been performed to date to answer them.
One notable exception is a study by Cho and Garcia-Molina,
who crawled a set of 720,000 pages on a daily basis over four months, and counted pages as having changed if their MD5 checksum changed. They found that 40% of all web pages in their set changed within a week, and 23% of those pages that fell into the
.com domain changed daily.
This paper expands on Cho and Garcia-Molina s study, both in terms of coverage and in terms of sensitivity to change. We crawled a set of 150,836,209 HTML pages once every week, over a span of
11 weeks. For each page, we recorded a checksum of the page, and a feature vector of the words on the page, plus various other data such as the page length, the HTTP status code, etc. Moreover, we pseudo-randomly selected 0.1% of all of our URLs, and saved the full text of each download of the corresponding pages.
After completion of the crawl, we analyzed the degree of change of each page, and investigated which factors are correlated with

Les promotions



Vers une approche simplifiée pour introduire le caractère ... - Microsoft
Vers une approche simplifiée pour introduire le caractère ... - Microsoft
23/11/2017 - www.microsoft.com
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262881208 Vers une approche simplifiée pour introduire le caractère incrémental dans les systèmes de dialogue Conference Paper · July 2014 CITATION READS 1 26 3 authors, including: Hatim Khouzaimi Romain Laroche Orange Labs / Laboratoire Informatique d'Avi & Microsoft Maluuba 12 PUBLICATIONS 42 CITATIONS 58 PUBLICATIONS 185 CITATIONS SEE PROFILE All content following this page was uploaded by Hatim Khouzaimi on 28 April 2015. The user has requested enhancement of the downloaded file. SEE PROFILE 21ème...

Architectures reconfigurables et traitement de proble`mes ... - Microsoft
Architectures reconfigurables et traitement de proble`mes ... - Microsoft
16/11/2016 - www.microsoft.com
RECHERCHE Architectures reconfigurables et traitement de proble`mes NP-difficiles : un nouveau domaine d application Youssef Hamadi    David Merceron  '  ' LIRMM, UMR 5506 CNRS/Universite´ Montpellier II 161, Rue Ada, 34392 Montpellier Cedex 5 hamadi@lirmm.fr ''' EURIWARE, 12-14 rue du fort de St-Cyr 78067 St Quentin-en-Yvelines Cedex damercer@euriware.fr RE´SUME´. L algorithme GSAT est un algorithme de recherche locale. Cette me´thode recherche la premie`re instanciation...

MSFT Echo Microsoft Surface Pro 11th Edition Fact Sheet
MSFT Echo Microsoft Surface Pro 11th Edition Fact Sheet
12/02/2026 - www.microsoft.com
Surface Pro for Business Pioneering versatility matched by intelligent power Unlock high performance in a form factor that redefines what a laptop can do. The brilliant display with touch and inking, combined with an adjustable kickstand make work comfortable in more places. Choose from Wi-Fi+5G or Wi-Fi only. Snapdragon? X Elite and Plus processors deliver speed and efficiency with CPUs and industry-defining NPU driving up to 45 TOPS for seamless on-device AI Adapts to changing workstyles Exceptional...

User-Driven Access Control: Rethinking Permission ... - CiteSeerX
User-Driven Access Control: Rethinking Permission ... - CiteSeerX
23/08/2018 - www.microsoft.com
User-Driven Access Control: Rethinking Permission Granting in Modern Operating Systems Franziska Roesner, Tadayoshi Kohno {franzi, yoshi}@cs.washington.edu University of Washington Alexander Moshchuk, Bryan Parno, Helen J. Wang {alexmos, parno, helenw}@microsoft.com Microsoft Research, Redmond Crispin Cowan crispin@microsoft.com Microsoft Abstract tionality and security for access to the user s data and resources. From a functionality standpoint, isolation inhibits the client-side manipulation...

MSFT SurfaceLaptopIntel 5g Fact Sheet
MSFT SurfaceLaptopIntel 5g Fact Sheet
02/10/2025 - www.microsoft.com
Windows Hello for Business with facial recognition and Enhanced Sign-In Security Surface Laptop 5G for Business Near-edgeless display and Surface's signature 3:2 ratio for more screen in a compact footprint Premium experiences drive AI advantage anywhere NPUs delivering 40 or 48 TOPS of on-device AI performance to support today's capabilities and tomorrow's innovations5 Anti-reflective technology reduces reflections up to 50% Exceptional AI-enabled collaboration and Copilot+ PC1 productivity...

1 Introduction - Microsoft
1 Introduction - Microsoft
11/04/2018 - www.microsoft.com
One-Way Accumulators: A Decentralized Alternative to Digital Signatures (Extended Abstract) Josh Benaloh Clarkson University Michael de Mare Giordano Automation Abstract This paper describes a simple candidate one-way hash function which satis es a quasi-commutative property that allows it to be used as an accumulator. This property allows protocols to be developed in which the need for a trusted central authority can be eliminated. Space-e cient distributed protocols are given for document time...

MSR Quantum applications - Microsoft
MSR Quantum applications - Microsoft
23/08/2018 - www.microsoft.com
( What Can We Do with a Quantum Computer? ( Matthias Troyer  Station Q, ETH Zurich | 1 Classical computers have come a long way Antikythera mechanism ENIAC astronomical positions (1946) (100 BC) Kelvin s harmonic analyzer prediction of tides (1878) Difference Engine (1822) Is there anything that we cannot solve on future supercomputers? Titan, ORNL (2013) Matthias Troyer | | 2 How long will Moore s law continue? Do we see signs of the end of Moore s law? Can we go below 7nm...

DictaNum : système de dialogue incrémental pour la dictée ... - Microsoft
DictaNum : système de dialogue incrémental pour la dictée ... - Microsoft
23/11/2017 - www.microsoft.com
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/262881756 DictaNum : système de dialogue incrémental pour la dictée de numéros. Conference Paper · July 2014 CITATIONS READS 0 57 3 authors, including: Hatim Khouzaimi Romain Laroche Orange Labs / Laboratoire Informatique d'Avi & Microsoft Maluuba 12 PUBLICATIONS 42 CITATIONS 58 PUBLICATIONS 185 CITATIONS SEE PROFILE SEE PROFILE All content following this page was uploaded by Hatim Khouzaimi on 06 June 2014. The user has requested enhancement of the downloaded file. 21ème...
 
 

PDF (1.1 MB) - Sharp
PDF (1.1 MB) - Sharp
10/03/2017 - www.sharp.fr
PN-60TW3 TABLEAU BLANC BIG PAD À COLLABORATION SANS FIL INTÉGRÉE ÉCRAN DE DIAGONALE 60" (152,2CM) (1920 X 1080 PIXELS) PANNEAU TACTILE 10 POINTS INFRAROUGE (IR) RAPIDE ET RÉACTIF - JUSQU'À 4 UTILISATEURS FAMEUX LOGICIEL DE STYLET SHARP PEN SOFTWARE POUR ÉCRIRE, DESSINER ET ANNOTER DE MANIÈRE INTUITIVE. LOGICIEL SHARP DISPLAY CONNECT POUR UNE INTERCONNECTIVITÉ PAP DE POINTE NOUVEAU DRIVER WINDOWS DE STYLET NUMÉRISEUR POUR UN BASCULEMENT INTUITIF ET AUTOMATIQUE ENTRE UTILISATION DU STYLET...

Sharpdesk R2.7 Operation-Manual FR
Sharpdesk R2.7 Operation-Manual FR
11/03/2012 - www.sharp.fr
Sharpdesk R2.7 TM Guide de l'utilisateur Guide de l'utilisateur Sharpdesk i Copyright © 2000-2003 par Sharp Corporation. Tous droits réservés. Toute reproduction, adaptation ou traduction sans autorisation écrite préalable est interdite, excepté dans le cadre des lois sur les droits d'auteurs. Marques de commerce Sharp® est une marque déposée de Sharp Corporation. SharpdeskTM est une marque commerciale de Sharp Corporation. Microsoft® et Windows® sont des marques déposées de...

Návod pre Whirlpool AWE 89611
Návod pre Whirlpool AWE 89611
20/03/2015 - docs.whirlpool.eu
IFU-TL HR SK.fm Page 1 Friday, November 7, 2008 2:38 PM OBSAH NÁVOD NA OBSLUHU PRED PRVÝM POU}ITÍM SPOTREBI A BEZPE NOSd PRI PRÁCI A V`EOBECNÉ RADY POPIS PRÁ KY PRED PRVÝM CYKLOM PRANIA PRÍPRAVA CYKLU PRANIA PRACÍ PROSTRIEDOK A AVIVÁ}NE PROSTRIEDKY  ISTENIE FILTRA/ VYPUSTENIE ZVY`KOVEJ VODY STAROSTLIVOSd A ÚDR}BA PRÍRU KA NA ODSTRAGOVANIE PROBLÉMOV SERVIS PREPRAVA A MANIPULÁCIA SO SPOTREBI OM IN`TALÁCIA Black process 45.0° 100.0 LPI IFU-TL HR SK.fm Page 2 Friday,...

MARMITES ELECTRIQUES
MARMITES ELECTRIQUES
16/04/2012 - tools.professional.electrolux.com
COMPOSITION DE LA GAMME Rentabilité, sécurité de l'utilisateur, fonctionnalité, facilité de nettoyage et fabrication robuste, autant d'arguments qui distinguent ces nouvelles marmites. Idéales pour cuisiner tous les types d'aliments ou liquides plus ou moins denses (viande, poissons, légumes, pâtes, soupes, lait, potages, ...). Le basculement est garanti par un dispositif d'inclinaison automatique standard approuvé par les organismes les plus strictes en matière de sécurité. Les modèles...

20070423 - CP ARCHOS Cinemanow-1
20070423 - CP ARCHOS Cinemanow-1
16/03/2012 - www.archos.com
ACCORD DE PARTENARIAT ENTRE ARCHOS ET CINEMANOW Une nouvelle offre de contenus et de services sera dévoilée lors du lancement de la Génération 5 Igny ­ 23 avril 2007 ­ ARCHOSTM, leader sur le marché des baladeurs multimédia, et CinemaNow, leader sur le marché de la VOD aux Etats-Unis et à l'international, avec les plus grands films d'Hollywood et des programmes télévisés disponibles en téléchargement, ont signé un accord de partenariat pour offrir des contenus vidéo et des services...

TX-RZ830 Ampli-tuner A/V réseau 9.2 canaux - Onkyo
TX-RZ830 Ampli-tuner A/V réseau 9.2 canaux - Onkyo
06/08/2018 - www.fr.onkyo.com
NOUVEAU PRODUIT 2018 TX-RZ830 Ampli-tuner A/V réseau 9.2 canaux NOIR NOIR ARGENT Un système de divertissement à la qualité inégalée Offrez à vos enceintes le son qu'elles ont toujours recherché avec l ampli-tuner TX-RZ830 - un récepteur A/V de qualité Onkyo milieu de gamme, et déployez toutes les capacités d une couverture audio étendue à 7.2.4. canaux basée sur les objets (amplificateur stéréo externe nécessaire), du mode pass-through universel 4K HDR et d une technologie...