Comment transformer un site dynamique en un site statique qui peut être démo à partir d'un CD?
j'ai besoin de trouver un moyen de ramper une des applications web de notre entreprise et de créer un site statique à partir de celui-ci qui peut être gravé sur un cd et utilisé par les vendeurs voyageant pour démo le site web. Le magasin de données back end est réparti sur beaucoup, beaucoup de systèmes de sorte que le simple fonctionnement du site sur une VM sur l'ordinateur portable du vendeur ne fonctionnera pas. Et ils n'auront pas accès à internet chez certains clients (pas d'internet, de portable)....primitive, je sais).
est-ce que quelqu'un a bonnes recommandations pour les chenilles qui peuvent gérer des choses comme le nettoyage de lien, flash, un peu d'ajax, css, etc? Je sais que les chances sont minces, mais j'ai pensé jeter la question ici avant de sauter dans l'écriture de mon propre outil.
5 réponses
wget ou curl peut à la fois suivre récursivement des liens et miroir un site entier, de sorte que pourrait être un bon pari. Vous ne serez pas en mesure d'utiliser des parties vraiment interactives du site, comme les moteurs de recherche, ou tout ce qui modifie les données, thoguh.
est - il possible de créer des services d'arrière-plan fictifs qui peuvent fonctionner à partir des ordinateurs portables des vendeurs, que l'application peut interfacer avec?
en utilisant un WebCrawler , p.ex. l'un de ceux-ci:
- DataparkSearch est un moteur de recherche sous licence GNU GPL.
- GNU Wget est un crawler en ligne de commande écrit en C et publié sous GPL. Il est généralement utilisé pour créer un miroir des sites Web et FTP.
- HTTrack utilise un web crawler pour créer un miroir d'un site web pour une visualisation hors ligne. Il est écrit en C et libéré sous GPL.
- ICDL Crawler est un crawler web multiplateformes écrit en C++ et destiné à parcourir les sites web basés sur des gabarits D'analyse de site Web en utilisant les ressources CPU gratuites de l'ordinateur seulement.
- JSpider est un moteur d'araignée web hautement configurable et personnalisable sorti sous GPL.
- Larbin par Sébastien Ailleret
- Webtools4larbin by Andreas Beder
- Methabot est un utilitaire de ligne de commande et de web crawler optimisé en fonction de la vitesse écrit en C et publié sous une licence BSD à 2 clauses. Il dispose d'un système de configuration large, un système de module et a le soutien pour ramper ciblé par le système de fichier local, HTTP ou FTP.
- Jaeksoft WebSearch est un crawler web et un indexeur construit sur Apache Lucene. Il est publié sous la licence GPL v3.
- Hutch est un crawler écrit en Java et publié sous licence Apache. Il peut être utilisé en conjonction avec le paquet d'indexation de texte de Lucene.
- Pavuk est un outil de Miroir web en ligne de commande avec option X11 GUI crawler et publié sous la GPL. Il a un tas de fonctionnalités avancées par rapport à wget et httrack, par exemple. règles de filtrage et de création de fichiers basées sur l'expression régulière.
- WebVac est un crawler utilisé par le Stanford WebBase Project.
- WebSPHINX (Miller et Bharat, 1998) est composé d'une bibliothèque de classe Java qui implémente la récupération de page Web multi-threadée et L'analyse HTML, et une interface utilisateur graphique pour définir les URLs de départ, pour extraire les données téléchargées et pour implémenter un moteur de recherche de base basé sur le texte.
- WIRE - Web Information Retrieval Environment [15] est un crawler web écrit en C++ et publié sous la GPL, y compris plusieurs politiques pour programmer les téléchargements de page et un module pour générer des rapports et des statistiques sur les pages téléchargées il a été utilisé pour web caractérisation.
- LWP::RobotUA (Langheinrich, 2004) est une classe Perl pour mettre en œuvre des robots web parallèles bien comportés distribués sous licence Perl 5.
- Web Crawler web Open source robot de classe .NET (écrit en C#).
- Sherlock Holmes Sherlock Holmes rassemble et indexe des données textuelles (fichiers texte, pages web, ...), tant au niveau local que sur le réseau. Holmes est parrainé et utilisé commercialement par le web tchèque portal Centrum. Il est également utilisé par Onet.pl.
- YaCy, un moteur de recherche distribué gratuitement, construit sur les principes des réseaux peer-to-peer (sous licence GPL).
- Ruya Ruya est un Open Source, de haute performance en largeur d'abord, le niveau basé sur le web crawler. Il est utilisé pour parcourir les sites Web Anglais et japonais d'une manière correcte. Il est publié sous GPL et est entièrement écrit en Python. Une mise en œuvre Monomaindelaycrawler obéit robots.txt avec un retard de rampe.
- Universel de l'Information Robot développement Rapide de web crawler. Les analyses Enregistre et analyse les données.
- Agent Kernel un framework Java pour la gestion de la programmation, du thread et du stockage lors d'un crawling.
- Araignée des Nouvelles, des Informations concernant la construction d'une araignée en perl.
- Arachnode.NET, est un moteur de recherche libre sur le Web pour le téléchargement, l'indexation et le stockage de contenu Internet y compris les adresses de courriel, les fichiers, les hyperliens, les images et les pages web. Arachnode.net est écrit en C# en utilisant SQL Server 2005 et est publié sous GPL.
- dine est un client/crawler HTTP Java multithreadable qui peut être programmé en JavaScript publié sous la LGPL.
- Crawljax est un crawler Ajax basé sur une méthode qui construit dynamiquement un `État-graphique de flux' de modélisation des différents chemins de navigation et des États au sein d'une application Ajax. Crawljax est écrit en Java et publié sous la licence BSD.
juste parce que personne n'a copié une commande... Je suis en train d'essayer ... dix ans plus tard. : D
wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org
ça a fonctionné comme un charme pour moi.
vous n'allez pas être en mesure de gérer des choses comme les requêtes AJAX sans graver un serveur web sur le CD, ce que je comprends que vous avez déjà dit est impossible.
wget va télécharger le site pour vous (utilisez le paramètre-r pour "recursive"), mais tout Contenu dynamique comme des rapports et ainsi de suite bien sûr ne fonctionnera pas correctement, vous aurez juste un instantané unique.
Si vous finissez par avoir à courir d'un serveur web, vous voudrez peut-être jeter un oeil à:
vous permet d'exécuter une pile WAMPP d'un CD, complète avec le support mysql/php/apache. Les db sont copiés sur le répertoire courant temp users lors du lancement, et peuvent être exécutés entièrement sans que l'utilisateur n'installe quoi que ce soit!