Échantillonnage de grandes données et applications :
Shakespeare, le Web, et les réseaux

 
 

Ce sujet demande la réalisation d’une boîte à outils pour l’analyse de grandes quantités de données textuelles.

 

INF 431 - Projet Informatique

  1. Bullet Le sujet (version 1.2, inchangée depuis l’origine).

  2. Bullet Données de grande taille utilisables :

  1. Bullet Références bibliographiques :

  1. Les oeuvres complètes de Shakespeare : en un fichier, en fichiers distincts;

  2. de grandes quantités de logs de table de routage (plus dur à exploiter);

  3. d’autres grands textes : la bible dans de nombreuses langues; le Mahabharata en plusieurs langues aussi.

  1. Broder, A. Z., Glassman, S. C., Manasse, M. S., and Zweig, G. Syntactic clustering of the web. In 6th International World Wide Web Conference (1997).

  2. Datar, M., Gionis, A., Indyk, P., and Motwani, R. Maintaining Stream Statistics over Sliding Windows. SIAM Journal on Computing 31, 6 (2002), 1794–1813.

  3. Flajolet, P. On Adaptative Sampling. Computing 43, (1990), 391–400.

  4. Flajolet, P., Fusy, Éric., Gandouet, O., and Meunier, F. Hyperloglog : the analysis of a near-optimal cardinality estimation algorithm. In Analysis of Algorithms 2007 (AofA07) (2007), P. Jacquet, Ed., Discrete Mathematics and Theoretical Computer Science Proceedings, pp. 127–146.

  5. Karp, R. M., Shenker, S., and Papadimitriou, C. H. A Simple Algorithm for Finding Frequent Elements in Streams and Bags. ACM Transactions on Database Systems. 28 (March 2003), 51–55.