Josh Jones ha publicado una entrada en el blog oficial de Dreamhost
llamado The Internet is not for
People.
Cabe mencionar que las entradas de dicho blog son de todo menos
normales. Josh suele decir verdades como puños... pero escondidas
detrás de juegos de palabras raros, mucho frikismo e imágenes dignas de
cualquier WTF!?.
Según Josh Internet quizá en el pasado era para personas, ahora no.
Ahora existe para los robots. La entrada viene a raíz de su más
reciente servicio llamado Private Server y comenta que la única
razón para tener un servidor privado es quedarse aislado de otros
sitios que suelen habitar en un servidor compartido.
La única razón para querer quedarse aislado de otros es que nadie
excepto nosotros pueda tirar nuestro servidor. Y la
razón por la que un sitio cae es porque su servidor está recibiendo más
visitas de las que puede manejar.
Para algunos sitios (nota: es una
página que genera gráficos en un bucle intentando colgar el sitio,
pulsad Ctrl+W u os colgará el navegador si tenéis JS), una visita ya es
"demasiado" y para otros, una página HTML estática no tiene
prácticamente limites.
Muchos sitios están en sus servidores compartidos, incluso los mal
hechos realmente pueden manejar "sin problemas" unos pocos cientos
de visitas al día. Sólo hay problemas cuando un sitio completamente
dinámico recibe decenas de cientos de visitas al día.
De hecho, uno de los sitios que han usado para probar Dreamhost PS cae
exactamente en esta categoría. Es un blog popular frecuentemente
actualizado (y por alguna razón los blogs no pueden ser HTML
estático: ¿Pueden serlo? ¡Anda ya! ¡Blasfemo!) y en un día de media
genera 10.000 páginas vistas únicas (sin contar imágenes, css, etcétera...).
Ése blog está generando constantemente problemas en su servidor
compartido (Mmm... ¿10.000 páginas vistas/día? Espero que no se les
ocurra mirar estadísticas de SigT o me fulminan }:P)...
La entrada se alarga pero llega a dar unos datos interesantes: del 100%
de tráfico, sólo el 5.6% es de humanos. Y los divide así:
- El 70.4% proviene de bots: Google, Yahoo, MSN, Ask y un 20% de bots
"misteriosos" (Josh asume que para nada bueno).
- El 17% de spammers que quieren dejar comentarios.
- Un 7% de agregadores y lectores RSS.
- Un 5.6% de "Actual Humans©".
Llegando al final a la conclusión de que gente como él, tú que lees
esto o yo que lo escribo somos una minoría. El Internet del 2007 está
hecho de robots, por robots, para robots. Extrapolando llega a la
conclusión de que el 95% de páginas vistas de todo Internet son hechas
por máquinas (chiste fácil-a-huevo: ¿el 5% que usa? ¿fibre2brain?).
En 1994 se sabia que el 99.99% de las páginas de Internet no recibían absolutamente nada de tráfico. Esa es la clave para entender de que manera hacen dinero las empresas de hosting web.
Pero eso ahora ha cambiado, ahora todos los sitios reciben tráfico y no sólo un 1%, pero el 99.99% de ese tráfico no es de humanos, no se puede tener todo. Josh acaba terminando con un tema que genero polémica en mayo: pedir a sus clientes el bloquear los bots de Google.
Y genero polémica por una simple cuestión: es Google. Sin sus
servidores indexando páginas no hay (buena parte del) tráfico, no hay
anuncios contextualizados de Adsense y no hay $$$CASH$$$. Pero
el analizar, comprender y filtrar (si se hace necesario) el tráfico es
algo que todo buen administrador debería saber.
En el 2003 en Dive Into
Mark
publicaron una entrada de cómo bloquear bots indeseados, los bots se van
renovando con el tiempo, siempre salen nuevos y este tipo de listas se
hacen inútiles: hay que monitorizar cada servidor a lo largo del
tiempo y cuando hay una IP que genera problemas contrarrestar sus
efectos lo mejor posible.
La lista, como decía, es inútil pero sirve como ejemplo de lo que hay por ahí: bots que te consumen gigas y gigas de ancho para revisar todo tu sitio y ver "si plagias" a los clientes del bot, ladrones de contenido (scrappers), ataques DDoS, bots mal configurados y un larguísimo etcétera.


Comentarios