<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>ACR Ingénierie</title>
	<atom:link href="http://astuces-de-pro.com/acringenierie/feed" rel="self" type="application/rss+xml" />
	<link>http://astuces-de-pro.com/acringenierie</link>
	<description>Trucs et Astuces en Informatique</description>
	<lastBuildDate>Mon, 26 Oct 2009 16:41:56 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.4</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Comment référencer ses produits dans Euro-Spider Shopping ?</title>
		<link>http://astuces-de-pro.com/acringenierie/comment-referencer-ses-articles-dans-euro-spider-shopping.html</link>
		<comments>http://astuces-de-pro.com/acringenierie/comment-referencer-ses-articles-dans-euro-spider-shopping.html#comments</comments>
		<pubDate>Mon, 26 Oct 2009 16:41:37 +0000</pubDate>
		<dc:creator>bertrand</dc:creator>
				<category><![CDATA[Moteur de recherche]]></category>
		<category><![CDATA[Référencement]]></category>
		<category><![CDATA[Boutique]]></category>
		<category><![CDATA[crawler]]></category>
		<category><![CDATA[Euro-Spider Shopping]]></category>
		<category><![CDATA[Spider France]]></category>

		<guid isPermaLink="false">http://astuces-de-pro.com/acringenierie/?p=19</guid>
		<description><![CDATA[			
				
			
		
Euro-Spider Shopping est un moteur de recherche d&#8217;articles vendus sur Internet. Comme beaucoup de moteur de ce type, Euro-Spider Shopping avait choisi de mettre en avant des produits via des affiliations. A une époque, l&#8217;index de ce moteur avait dépassé le million de produits. Il est apparu qu&#8217;il n&#8217;y avait pas d&#8217;intérêt à tenter de [...]]]></description>
			<content:encoded><![CDATA[<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fcomment-referencer-ses-articles-dans-euro-spider-shopping.html"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fcomment-referencer-ses-articles-dans-euro-spider-shopping.html&amp;source=acringenierie&amp;style=normal" height="61" width="50" title="Comment référencer ses produits dans Euro Spider Shopping ?" alt=" Comment référencer ses produits dans Euro Spider Shopping ?" /><br />
			</a>
		</div>
<div class="wp-caption alignleft" style="width: 250px"><img src="http://www.spider-fr.com/vignette.php?url=http://shopping.euro-spider.com/&amp;width=240" alt="Euro-Spider Shopping" width="240" height="180" title="Comment référencer ses produits dans Euro Spider Shopping ?" /><p class="wp-caption-text">Euro-Spider Shopping</p></div>
<p><a title="Moteur de recherche d'articles vendus sur Internet" href="http://shopping.spider-eu.com/" target="_blank">Euro-Spider Shopping</a> est un moteur de recherche d&#8217;articles vendus sur Internet. Comme beaucoup de moteur de ce type, <strong>Euro-Spider Shopping </strong>avait choisi de mettre en avant des produits via des affiliations. A une époque, l&#8217;index de ce moteur avait dépassé le million de produits. Il est apparu qu&#8217;il n&#8217;y avait pas d&#8217;intérêt à tenter de concurrencer des moteurs du type <a title="LeGuide.com - Comparateur de prix" href="http://www.leguide.com/" target="_blank">Le Guide</a> et ses 12 millions de produit. Le site s&#8217;est donc tourné vers une mécanique de double crawler. Le premier n&#8217;est autre que le crawler du site <a title="Moteur de recherche France" href="http://www.spider-fr.com/" target="_blank">Spider France</a> qui a pour mission de détecter les boutiques. Le second crawler va passer sur les boutiques pour tenter de trouver de manière automatique les articles vendus sur celle-ci.<span id="more-19"></span> Cette méthode n&#8217;est pas infaillible et demande un suivi hebdomadaire. C&#8217;est donc le défi que nous nous sommes fixés. L&#8217;astuce consiste donc à <a title="Soumettre votre site sur Spider France" href="http://www.spider-fr.com/inscription-action-soumettre.html" target="_blank">soumettre votre site sur Spider France</a> pour qu&#8217;ensuite toute la mécanique se mette en place et que les crawlers puissent passer sur votre site. Pour information, les produits qui sont détectés vont être visibles via la barre produit de <strong>Euro-Spider Shopping</strong> sur des sites partenaires comme <a title="Moteur de recherche France" href="http://www.spider-fr.com/" target="_blank">Spider France</a>, <a title="Testez votre référencement Web 2.0" href="http://www.testez-votre-referencement.com/" target="_blank">Testez-votre-referencement.com</a>, <a title="Tous les produits du bâtiment" href="http://www.produit-batiment.com/" target="_blank">Produit-bâtiment.com</a>, &#8230;</p>
<div id="crp_related"><h3>Related Posts:</h3><ul><li><a href="http://astuces-de-pro.com/acringenierie/indexer-des-fichiers-pdf-avec-swish-e.html" rel="bookmark" class="crp_title">Indexer des fichiers pdf avec swish-e</a></li><li><a href="http://astuces-de-pro.com/acringenierie/le-referencement-evolue-les-outils-doivent-en-faire-autant.html" rel="bookmark" class="crp_title">Le référencement évolue, les outils doivent en faire autant&#8230;</a></li><li><a href="http://astuces-de-pro.com/acringenierie/probleme-dupload-dimages-sous-wordpress.html" rel="bookmark" class="crp_title">Problème d&#8217;upload d&#8217;images sous Wordpress</a></li><li><a href="http://astuces-de-pro.com/acringenierie/bonjour-tout-le-monde.html" rel="bookmark" class="crp_title">Bonjour tout le monde&nbsp;!</a></li><li>Powered by <a href="http://ajaydsouza.com/wordpress/plugins/contextual-related-posts/">Contextual Related Posts</a></li></ul></div><a class="a2a_dd addtoany_share_save" href="http://www.addtoany.com/share_save?linkurl=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fcomment-referencer-ses-articles-dans-euro-spider-shopping.html&amp;linkname=Comment%20r%C3%A9f%C3%A9rencer%20ses%20produits%20dans%20Euro-Spider%20Shopping%20%3F"><img src="http://astuces-de-pro.com/acringenierie/wp-content/plugins/add-to-any/share_save_171_16.png" width="171" height="16" alt="Share/Bookmark"/></a>]]></content:encoded>
			<wfw:commentRss>http://astuces-de-pro.com/acringenierie/comment-referencer-ses-articles-dans-euro-spider-shopping.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Le référencement évolue, les outils doivent en faire autant&#8230;</title>
		<link>http://astuces-de-pro.com/acringenierie/le-referencement-evolue-les-outils-doivent-en-faire-autant.html</link>
		<comments>http://astuces-de-pro.com/acringenierie/le-referencement-evolue-les-outils-doivent-en-faire-autant.html#comments</comments>
		<pubDate>Fri, 16 Oct 2009 14:53:02 +0000</pubDate>
		<dc:creator>bertrand</dc:creator>
				<category><![CDATA[Référencement]]></category>
		<category><![CDATA[annuaire]]></category>
		<category><![CDATA[backlink]]></category>
		<category><![CDATA[blog]]></category>
		<category><![CDATA[buzz]]></category>
		<category><![CDATA[crawler]]></category>
		<category><![CDATA[forum]]></category>
		<category><![CDATA[outil]]></category>
		<category><![CDATA[rapport]]></category>
		<category><![CDATA[soumission]]></category>

		<guid isPermaLink="false">http://astuces-de-pro.com/acringenierie/?p=15</guid>
		<description><![CDATA[			
				
			
		
Le site Testez-votre-référencement.com permet d&#8217;obtenir le rapport de référencement d&#8217;un site Internet. Comment ça marche ? Et bien, en précisant l&#8217;url dans le formulaire, on obtient un rapport comportant deux volets: &#8220;Le site en détail&#8221; et &#8220;Rapport de référencement&#8221;.
L&#8217;onglet &#8220;Le site en détail&#8221; est un aperçu de la page d&#8217;accueil comme le verrait un crawler. [...]]]></description>
			<content:encoded><![CDATA[<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fle-referencement-evolue-les-outils-doivent-en-faire-autant.html"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fle-referencement-evolue-les-outils-doivent-en-faire-autant.html&amp;source=acringenierie&amp;style=normal" height="61" width="50" title="Le référencement évolue, les outils doivent en faire autant..." alt=" Le référencement évolue, les outils doivent en faire autant..." /><br />
			</a>
		</div>
<div class="wp-caption alignleft" style="width: 250px"><img src="http://www.spider-fr.com/vignette.php?url=http://www.testez-votre-referencement.com/&amp;width=240" alt="Testez-votre-référencement.com" width="240" height="180" title="Le référencement évolue, les outils doivent en faire autant..." /><p class="wp-caption-text">Testez-votre-référencement.com</p></div>
<p>Le site <a title="Testez votre référencement Web 2.0" href="http://www.testez-votre-referencement.com/" target="_blank">Testez-votre-référencement.com</a> permet d&#8217;obtenir le rapport de référencement d&#8217;un site Internet. Comment ça marche ? Et bien, en précisant l&#8217;url dans le formulaire, on obtient un rapport comportant deux volets: &#8220;Le site en détail&#8221; et &#8220;Rapport de référencement&#8221;.<span id="more-15"></span></p>
<p>L&#8217;onglet &#8220;Le site en détail&#8221; est un aperçu de la page d&#8217;accueil comme le verrait un crawler. cet outil est basé sur celui-ci : <a title="Comment serait vu votre site par un crawleur" href="http://spider.acr-ingenierie.com/" target="_blank">http://spider.acr-ingenierie.com/</a></p>
<p>La grande nouveauté se situe sur l&#8217;onglet &#8220;Rapport de référencement&#8221;. En effet, dans la version précédente, le rapport affiché ne contenait que les annuaires partenaires de l&#8217;outil. Or comme tout le monde le sait, le référencement évolue et la soumission dans les annuaires n&#8217;est qu&#8217;une partie du travail du référenceur. L&#8217;outil a donc évolué et maintenant, on trouve les catégories &#8220;Forum&#8221;, &#8220;Blog&#8221;, &#8220;Buzz&#8221;, &#8220;Site&#8221;, &#8230; Vous pouvez retrouver toute la liste des <a title="Sites participant au projet" href="http://www.testez-votre-referencement.com/page-action-annuaires.html" target="_blank">sites partenaires</a>.</p>
<p>Voici un exemple de &#8220;nouveau lien&#8221; détecté par le crawler de Testez-votre-référencement : <a title="Rapport de référencement sur nba.basketball.fr" href="http://www.testez-votre-referencement.com/reports/nba.basketball.fr.html" target="_blank">Rapport de référencement de nba.basketball.fr</a>. De plus, la fréquence de crawl a été revenu et le crawler va passer crawler une page toutes les six minutes alors que précédemment il crawlait 45 pages d&#8217;affiler.</p>
<p>N&#8217;hésitez pas à poster des commentaires sur cet outil</p>
<div id="crp_related"><h3>Related Posts:</h3><ul><li><a href="http://astuces-de-pro.com/acringenierie/comment-referencer-ses-articles-dans-euro-spider-shopping.html" rel="bookmark" class="crp_title">Comment référencer ses produits dans Euro-Spider Shopping ?</a></li><li><a href="http://astuces-de-pro.com/acringenierie/bonjour-tout-le-monde.html" rel="bookmark" class="crp_title">Bonjour tout le monde&nbsp;!</a></li><li><a href="http://astuces-de-pro.com/acringenierie/indexer-des-fichiers-pdf-avec-swish-e.html" rel="bookmark" class="crp_title">Indexer des fichiers pdf avec swish-e</a></li><li><a href="http://astuces-de-pro.com/acringenierie/probleme-dupload-dimages-sous-wordpress.html" rel="bookmark" class="crp_title">Problème d&#8217;upload d&#8217;images sous Wordpress</a></li><li>Powered by <a href="http://ajaydsouza.com/wordpress/plugins/contextual-related-posts/">Contextual Related Posts</a></li></ul></div><a class="a2a_dd addtoany_share_save" href="http://www.addtoany.com/share_save?linkurl=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fle-referencement-evolue-les-outils-doivent-en-faire-autant.html&amp;linkname=Le%20r%C3%A9f%C3%A9rencement%20%C3%A9volue%2C%20les%20outils%20doivent%20en%20faire%20autant%26%238230%3B"><img src="http://astuces-de-pro.com/acringenierie/wp-content/plugins/add-to-any/share_save_171_16.png" width="171" height="16" alt="Share/Bookmark"/></a>]]></content:encoded>
			<wfw:commentRss>http://astuces-de-pro.com/acringenierie/le-referencement-evolue-les-outils-doivent-en-faire-autant.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Problème d&#8217;upload d&#8217;images sous Wordpress</title>
		<link>http://astuces-de-pro.com/acringenierie/probleme-dupload-dimages-sous-wordpress.html</link>
		<comments>http://astuces-de-pro.com/acringenierie/probleme-dupload-dimages-sous-wordpress.html#comments</comments>
		<pubDate>Wed, 16 Sep 2009 08:25:40 +0000</pubDate>
		<dc:creator>bertrand</dc:creator>
				<category><![CDATA[wordpress]]></category>
		<category><![CDATA[image]]></category>
		<category><![CDATA[path]]></category>
		<category><![CDATA[upload]]></category>
		<category><![CDATA[upload_path]]></category>

		<guid isPermaLink="false">http://astuces-de-pro.com/acringenierie/?p=9</guid>
		<description><![CDATA[			
				
			
		
Récemment, j&#8217;ai basculé un hébergement XXL chez OVH vers une nouvelle offre PRO. Peu de temps après ce basculement, j&#8217;ai souhaité publier un article sur Blog-Avis.com et là, c&#8217;est la misère : Pas moyen d&#8217;uploader une image. Pas de message d&#8217;erreur, rien !
Je commence à faire le tour des problèmes éventuels :

chmod : ok
consultation des [...]]]></description>
			<content:encoded><![CDATA[<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fprobleme-dupload-dimages-sous-wordpress.html"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fprobleme-dupload-dimages-sous-wordpress.html&amp;source=acringenierie&amp;style=normal" height="61" width="50" title="Problème dupload dimages sous Wordpress" alt=" Problème dupload dimages sous Wordpress" /><br />
			</a>
		</div>
<p>Récemment, j&#8217;ai basculé un hébergement XXL chez <strong>OVH</strong> vers une nouvelle offre PRO. Peu de temps après ce basculement, j&#8217;ai souhaité publier un article sur <a title="Partager votre avis sur ce blog" href="http://blog-avis.com/" target="_blank">Blog-Avis.com</a> et là, c&#8217;est la misère : Pas moyen d&#8217;uploader une image. Pas de message d&#8217;erreur, rien !<span id="more-9"></span></p>
<p>Je commence à faire le tour des problèmes éventuels :</p>
<ul>
<li>chmod : ok</li>
<li>consultation des logs : pas d&#8217;erreur particulière</li>
<li>version de php : php5 et pas de soucis particulier</li>
</ul>
<p>J&#8217;ouvre donc un ticket chez <strong>OVH</strong> pour essayer de résoudre ce problème rapidement. <strong>OVH</strong> ne cherche pas trop à comprendre et ferme mon ticket et bascule ma demande sur le support technique. Du coup, je sais pertinemment que ça va mettre longtemps avant d&#8217;avoir une réponse. Je commence donc à surfer sur le net à la recherche de message dans des forums (j&#8217;aurai dû commencer par là mais par manque de temps, j&#8217;suis d&#8217;abord passé par <strong>OVH</strong>).</p>
<p>Je finis enfin par trouver la solution. Avant de basculer mon hébergement, j&#8217;avais changé le nom du répertoire où est stocké mon blog. Et malheureusement, l&#8217;adresse d&#8217;upload &#8216;upload_path&#8217; est stockée en dur dans la base de données. Du coup, après modification, ça fonctionne à nouveau. Je ne connais pas la raison de ce stockage dans la base de données mais c&#8217;est vraiment dommage de ne pas se baser sur les variables globales de php.</p>
<div id="crp_related"><h3>Related Posts:</h3><ul><li><a href="http://astuces-de-pro.com/acringenierie/indexer-des-fichiers-pdf-avec-swish-e.html" rel="bookmark" class="crp_title">Indexer des fichiers pdf avec swish-e</a></li><li><a href="http://astuces-de-pro.com/acringenierie/bonjour-tout-le-monde.html" rel="bookmark" class="crp_title">Bonjour tout le monde&nbsp;!</a></li><li><a href="http://astuces-de-pro.com/acringenierie/comment-referencer-ses-articles-dans-euro-spider-shopping.html" rel="bookmark" class="crp_title">Comment référencer ses produits dans Euro-Spider Shopping ?</a></li><li><a href="http://astuces-de-pro.com/acringenierie/le-referencement-evolue-les-outils-doivent-en-faire-autant.html" rel="bookmark" class="crp_title">Le référencement évolue, les outils doivent en faire autant&#8230;</a></li><li>Powered by <a href="http://ajaydsouza.com/wordpress/plugins/contextual-related-posts/">Contextual Related Posts</a></li></ul></div><a class="a2a_dd addtoany_share_save" href="http://www.addtoany.com/share_save?linkurl=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fprobleme-dupload-dimages-sous-wordpress.html&amp;linkname=Probl%C3%A8me%20d%26%238217%3Bupload%20d%26%238217%3Bimages%20sous%20Wordpress"><img src="http://astuces-de-pro.com/acringenierie/wp-content/plugins/add-to-any/share_save_171_16.png" width="171" height="16" alt="Share/Bookmark"/></a>]]></content:encoded>
			<wfw:commentRss>http://astuces-de-pro.com/acringenierie/probleme-dupload-dimages-sous-wordpress.html/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Indexer des fichiers pdf avec swish-e</title>
		<link>http://astuces-de-pro.com/acringenierie/indexer-des-fichiers-pdf-avec-swish-e.html</link>
		<comments>http://astuces-de-pro.com/acringenierie/indexer-des-fichiers-pdf-avec-swish-e.html#comments</comments>
		<pubDate>Fri, 04 Sep 2009 14:34:06 +0000</pubDate>
		<dc:creator>bertrand</dc:creator>
				<category><![CDATA[Moteur de recherche]]></category>
		<category><![CDATA[indexation]]></category>
		<category><![CDATA[indexer]]></category>
		<category><![CDATA[open source]]></category>
		<category><![CDATA[pdf]]></category>
		<category><![CDATA[swish-e]]></category>

		<guid isPermaLink="false">http://astuces-de-pro.com/acringenierie/?p=5</guid>
		<description><![CDATA[			
				
			
		
Récemment, nous devions mettre en place pour le site Produit-batiment un moteur de recherche capable d&#8217;indexer des documentation pdf. Ayant l&#8217;habitude de swish-e pour notre moteur de recherche shopping, nous avons décidé d&#8217;utiliser cet outil pour indexer les pdf.
Après quelques recherches, je suis tombé sur cet article :
http://swish-e.org/archive/2003-05/5502.html
J&#8217;ai donc testé la configuration mentionnée :
$ swish-e [...]]]></description>
			<content:encoded><![CDATA[<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Findexer-des-fichiers-pdf-avec-swish-e.html"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Findexer-des-fichiers-pdf-avec-swish-e.html&amp;source=acringenierie&amp;style=normal" height="61" width="50" title="Indexer des fichiers pdf avec swish e" alt=" Indexer des fichiers pdf avec swish e" /><br />
			</a>
		</div>
<p>Récemment, nous devions mettre en place pour le site <a title="Moteur de recherche sur les documentations des industriels du bâtiment" href="http://www.produit-batiment.com/documentation/" target="_blank">Produit-batiment</a> un moteur de recherche capable d&#8217;indexer des documentation pdf. Ayant l&#8217;habitude de <a title="Simple Web Indexing System for Humans - Enhanced" href="http://swish-e.org/" target="_blank">swish-e</a> pour notre <a title="Moteur de recherche shopping" href="http://shopping.euro-spider.com/" target="_blank">moteur de recherche shopping</a>, nous avons décidé d&#8217;utiliser cet outil pour indexer les pdf.</p>
<p><span id="more-5"></span>Après quelques recherches, je suis tombé sur cet article :</p>
<p><a href="http://swish-e.org/archive/2003-05/5502.html" target="_blank">http://swish-e.org/archive/2003-05/5502.html</a></p>
<p>J&#8217;ai donc testé la configuration mentionnée :</p>
<pre>$ swish-e -c f.conf -S prog

f.conf
------

$ cat f.conf

IndexDir /home/moseley/swish-e/prog-bin/spider.pl

ReplaceRules remove "http://"

SwishProgParameters spider.conf

IndexContents HTML* .html .htm .pdf
DefaultContents HTML*
StoreDescription HTML* &lt;body&gt; 200000
MetaNames swishdocpath swishtitle

spider.conf
----------

This is basically just a trimmed down version of the example in SwishSpiderConfig.pl

$ cat spider.conf

# so can find the pdf2html and doc2txt modules

use lib '/home/moseley/swish-e/prog-bin';

@servers = (

    {
        base_url    =&gt; '<a href="http://localhost/apache/verhey.pdf">http://localhost/apache/verhey.pdf</a>',
        agent       =&gt; 'swish-e spider <a href="http://swish-e.org/">http://swish-e.org/</a>',
        email       =&gt; 'spider@hank.<!--nospam-->org',

        # limit to only .html files
        test_url    =&gt; sub { $_[0]-&gt;path =~ /\.html?$/ },

        delay_min   =&gt; .0001,
        keep_alive  =&gt; 1,         # enable keep alives requests

        test_url        =&gt; sub { $_[0]-&gt;path !~ /\.(?:gif|jpeg)$/ },

        test_response   =&gt; sub {
            my $content_type = $_[2]-&gt;content_type;
            my $ok = grep { $_ eq $content_type } qw{ text/html text/plain application/pdf  application/msword };
            return 1 if $ok;

            print STDERR "$_[0] wrong content type ( $content_type )\n";
            return;
        },

        filter_content  =&gt; [ \&amp;pdf, \&amp;doc ],
    },
);    

use pdf2html;  # included example pdf converter module
sub pdf {
   my ( $uri, $server, $response, $content_ref ) = @_;

   return 1 unless $response-&gt;content_type eq 'application/pdf';

   # for logging counts
   $server-&gt;{counts}{'PDF transformed'}++;

   $$content_ref = ${pdf2html( $content_ref, 'title' )};
   $$content_ref =~ tr/ / /s;
   return 1;
}

use doc2txt;  # included example pdf converter module

sub doc {
   my ( $uri, $server, $response, $content_ref ) = @_;

   return 1 unless $response-&gt;content_type eq 'application/msword';

   # for logging counts
   $server-&gt;{counts}{'DOC transformed'}++;

   $$content_ref = ${doc2txt( $content_ref )};
   return 1;
}

# Must return true...

1;</pre>
<p>Après quelques tests, je suis arrivé à la même problématique que l&#8217;auteur de post : l&#8217;indexation d&#8217;un pdf ne fonctionne pas. J&#8217;ai donc ouvert le fichier <strong>pdf2html.pm</strong> pour voir comment il fonctionne. J&#8217;ai rapidement vu qu&#8217;il utilisait <strong>pdfinfo</strong> et <strong>pdftotext</strong>. Comme ces deux outils fonctionnent avec des fichiers locaux, le <strong>spider.pl</strong> de <strong>swish-e</strong> ne fonctionne pas. J&#8217;ai donc fait un outil pour récupérer dans un premier temps les fichiers pdf en local et dessus je passe l&#8217;outil <strong>pdftotext</strong>. J&#8217;ai donc un dossier contenant tous mes fichiers au format txt qui me permet de lancer l&#8217;indexation sur le dossier :</p>
<pre>swish-e -f index/index.recherche.tmp -i document/</pre>
<p>Ca fonctionne parfaitement et avec cette méthode, j&#8217;ai élargie le fonctionnement en intégrant les formats word, excel et rtf.</p>
<p>Très rapidement, on a à disposition un moteur de recherche multi-format très performant.</p>
<div id="crp_related"><h3>Related Posts:</h3><ul><li><a href="http://astuces-de-pro.com/acringenierie/comment-referencer-ses-articles-dans-euro-spider-shopping.html" rel="bookmark" class="crp_title">Comment référencer ses produits dans Euro-Spider Shopping ?</a></li><li><a href="http://astuces-de-pro.com/acringenierie/probleme-dupload-dimages-sous-wordpress.html" rel="bookmark" class="crp_title">Problème d&#8217;upload d&#8217;images sous Wordpress</a></li><li><a href="http://astuces-de-pro.com/acringenierie/le-referencement-evolue-les-outils-doivent-en-faire-autant.html" rel="bookmark" class="crp_title">Le référencement évolue, les outils doivent en faire autant&#8230;</a></li><li><a href="http://astuces-de-pro.com/acringenierie/bonjour-tout-le-monde.html" rel="bookmark" class="crp_title">Bonjour tout le monde&nbsp;!</a></li><li>Powered by <a href="http://ajaydsouza.com/wordpress/plugins/contextual-related-posts/">Contextual Related Posts</a></li></ul></div><a class="a2a_dd addtoany_share_save" href="http://www.addtoany.com/share_save?linkurl=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Findexer-des-fichiers-pdf-avec-swish-e.html&amp;linkname=Indexer%20des%20fichiers%20pdf%20avec%20swish-e"><img src="http://astuces-de-pro.com/acringenierie/wp-content/plugins/add-to-any/share_save_171_16.png" width="171" height="16" alt="Share/Bookmark"/></a>]]></content:encoded>
			<wfw:commentRss>http://astuces-de-pro.com/acringenierie/indexer-des-fichiers-pdf-avec-swish-e.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Bonjour tout le monde&#160;!</title>
		<link>http://astuces-de-pro.com/acringenierie/bonjour-tout-le-monde.html</link>
		<comments>http://astuces-de-pro.com/acringenierie/bonjour-tout-le-monde.html#comments</comments>
		<pubDate>Fri, 28 Aug 2009 11:44:38 +0000</pubDate>
		<dc:creator>bertrand</dc:creator>
				<category><![CDATA[Actualité]]></category>
		<category><![CDATA[informatique]]></category>
		<category><![CDATA[ingénierie]]></category>
		<category><![CDATA[linux]]></category>
		<category><![CDATA[open source]]></category>
		<category><![CDATA[Perl]]></category>
		<category><![CDATA[Php]]></category>
		<category><![CDATA[solution]]></category>
		<category><![CDATA[wordpress]]></category>

		<guid isPermaLink="false"></guid>
		<description><![CDATA[			
				
			
		
Bienvenue sur le blog Astuces de Pro de la société ACR Ingénierie. De part notre activité variée, nous sommes en permanence confrontés à des problèmes informatiques à résoudre : programmation, maintenance serveur, hébergement, &#8230; Nous avons donc choisi de créer un blog pour publier au jour le jour nos solutions.
Pourquoi partager nos solutions me direz-vous [...]]]></description>
			<content:encoded><![CDATA[<div class="tweetmeme_button" style="float: right; margin-left: 10px;">
			<a href="http://api.tweetmeme.com/share?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fbonjour-tout-le-monde.html"><br />
				<img src="http://api.tweetmeme.com/imagebutton.gif?url=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fbonjour-tout-le-monde.html&amp;source=acringenierie&amp;style=normal" height="61" width="50" title="Bonjour tout le monde&nbsp;!" alt=" Bonjour tout le monde&nbsp;!" /><br />
			</a>
		</div>
<p>Bienvenue sur le blog <a href="http://astuces-de-pro.com/">Astuces de Pro</a> de la société <a title="ACR Ingénierie, spécialiste Wordpress" href="http://www.acr-ingenierie.com/" target="_blank">ACR Ingénierie</a>. De part notre activité variée, nous sommes en permanence confrontés à des problèmes informatiques à résoudre : programmation, maintenance serveur, hébergement, &#8230; Nous avons donc choisi de créer un blog pour publier au jour le jour nos solutions.</p>
<p><span id="more-1"></span>Pourquoi partager nos solutions me direz-vous ? Tout simplement parce que ce n&#8217;est pas top secret, que nous sommes partisan du logiciel libre et qu&#8217;ainsi nous mettons en place une base de connaissance qui peut être utilisé pas notre équipe de développeur.</p>
<p>Nous espérons que nos solutions pourront vous servir et que de votre côté, vous viendrez publier les vôtres.</p>
<p>Bonne journée</p>
<p>L&#8217;équipe d&#8217;<strong>ACR Ingénierie</strong></p>
<div id="crp_related"><h3>Related Posts:</h3><ul><li><a href="http://astuces-de-pro.com/acringenierie/le-referencement-evolue-les-outils-doivent-en-faire-autant.html" rel="bookmark" class="crp_title">Le référencement évolue, les outils doivent en faire autant&#8230;</a></li><li><a href="http://astuces-de-pro.com/acringenierie/probleme-dupload-dimages-sous-wordpress.html" rel="bookmark" class="crp_title">Problème d&#8217;upload d&#8217;images sous Wordpress</a></li><li><a href="http://astuces-de-pro.com/acringenierie/comment-referencer-ses-articles-dans-euro-spider-shopping.html" rel="bookmark" class="crp_title">Comment référencer ses produits dans Euro-Spider Shopping ?</a></li><li><a href="http://astuces-de-pro.com/acringenierie/indexer-des-fichiers-pdf-avec-swish-e.html" rel="bookmark" class="crp_title">Indexer des fichiers pdf avec swish-e</a></li><li>Powered by <a href="http://ajaydsouza.com/wordpress/plugins/contextual-related-posts/">Contextual Related Posts</a></li></ul></div><a class="a2a_dd addtoany_share_save" href="http://www.addtoany.com/share_save?linkurl=http%3A%2F%2Fastuces-de-pro.com%2Facringenierie%2Fbonjour-tout-le-monde.html&amp;linkname=Bonjour%20tout%20le%20monde%26nbsp%3B%21"><img src="http://astuces-de-pro.com/acringenierie/wp-content/plugins/add-to-any/share_save_171_16.png" width="171" height="16" alt="Share/Bookmark"/></a>]]></content:encoded>
			<wfw:commentRss>http://astuces-de-pro.com/acringenierie/bonjour-tout-le-monde.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

<!-- Dynamic page generated in 1.307 seconds. -->
<!-- Cached page generated by WP-Super-Cache on 2010-07-31 16:03:34 -->
