El poder de buscar
15May08Hoy he estado en el Institut d’Estudis Catalans en una charla que ha dado Ricardo Baeza-Yates sobre buscadores titulada “El poder de buscar”.
Ricardo es el vicepresidente de Yahoo! Research Europe y además de un excelente investigador es un gran comunicador y docente.
Durante la charla he ido tomando algunas notas que voy a publicar en el Blog en dos partes. A continuación os dejo la primera.
—
“Lo que encontramos cambia lo que seremos”. Esta gran frase nos resalta la importancia de los buscadores hoy en dia, que tienen el poder de darnos aquella información que nos hará tomar una decisión u otra.
Estático/Dinámico: Lo estático existe antes de que lo busquemos, a diferencia de lo dinámico, que són paginas que se crean expresamente para nosotros. Hoy en dia el 100% de las páginas son dinámicas. La parte estática es grande, pero ¿que es grande comparado con el infinito?
Algunos datos
- 166 millones de servidores web.
- 1 de cada 3.3 computadores de internet.
- Apache (50%) y Microsoft (35%).
- Inglés es el idioma mayoritario en internet, seguido del Japonés, Alemán y Castellano.
- Web es heterogénea, redundante y desorganizada.
- En España (2005): 300.000 sitios web @ www.catedratelefonica.upc.es
Paginas de la web
- Entrada: Paginas sin enlaces entrantes. En el momento en que una pagina enlaza a una pagina de entrada esta se convierte en pagina del núcleo.
- Núcleo: Són las páginas mayoritarias. Pagina desde la cual se puede ir a cualquier otra dentro del núcleo. Entre cualquier par de paginas dentro del núcleo hay un camino.
- Salida: No contienen enlaces salientes. Son paginas egoístas.
- Tentáculos: Caminos por los que se puede entrar pero no salir.
- Islas: Paginas que se enlazan pero que no se relacionan con ninguna otra fuera de la isla.
Como conocer nuevos sitios? (por ejemplo las paginas de entrada) No existe ninguna manera. El único modo es que el propio webmaster se de de alta manualmente en el buscador.
En 2003/2004 Internet sobrepasó el primer medio de comunicación tradicional, la radio.
El principal models de negocio de los buscadores es la venta de publicidad dirigida y focalizada (pay-per-ranking, pay-per-click).
Tecnología
Robots: Capturan las páginas.
Índice: Directorio con todas las paginas que el robot ha encontrado hasta la fecha.
Motor de búsqueda: Con el uso únicamente del índice va a realizar la búsqueda.
Problemas actuales en la web
El tamaño del índice.
El crecimiento y el cambio permanente de las páginas.
Duplicidad y diversidad (spam web).
Crawling (como vamos a recorrer la web).
Ranking (como vamos a ordenar los resultados obtenidos).
- Arquitectura: Ser
- Ubicuidad: Estar
- Usabilidad: Servir
Sitios impenetrables: En 2005 había un 30% (90.000) sitios en los que el buscador no puede entrar. Los sitios son impenetrables por ignorancia (no se cumplen los estándares).
[...]
Nota: El martes pasado empecé una asignatura que imparte GeorgiaTech llamada Barcelona Leap. Parece interesante … business plan, market gap analysis, start-ups, etc.







SlideShare”>
