I'd like to see the auto-selection code; I don't find it in the trunk atm.  I do see hints of using mwlib, which is good; it is well-maintained.<br>  <a href="http://groups.google.com/group/mwlib">http://groups.google.com/group/mwlib</a><br>
<br>For live slices, using MediaWiki's API rather than a dump, there's mwclient.<br>  <a href="http://fisheye.ts.wikimedia.org/browse/bryan/mwclient/trunk/README.txt?r=HEAD">http://fisheye.ts.wikimedia.org/browse/bryan/mwclient/trunk/README.txt?r=HEAD</a><br>

<br>More scoring schemes are welcome.  See also wikiosity's simple relevance-scoring code, which takes in a few keywords and considers 1st & 2nd-order links.<br>  <a href="http://dev.laptop.org/git?p=projects/wikiosity;a=tree">http://dev.laptop.org/git?p=projects/wikiosity;a=tree</a><br>
<br>SJ<br><br><br><div class="gmail_quote">On Wed, Apr 9, 2008 at 5:48 PM, Martin Langhoff <<a href="mailto:martin.langhoff@gmail.com">martin.langhoff@gmail.com</a>> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="Ih2E3d">On Wed, Apr 9, 2008 at 2:53 PM, Samuel Klein <<a href="mailto:meta.sj@gmail.com">meta.sj@gmail.com</a>> wrote:<br>
> It's nice to see a python toolchain for this (though I don't see any code at<br>
> that url?)  They exist in other languages as well.  We've been working with<br>
> Linterweb's Kiwix (<a href="http://kiwix.org" target="_blank">kiwix.org</a>) and the Schools-Wikipedia, which use their own<br>
> toolchains.<br>
<br>
</div>Hi SJ<br>
<br>
I suspected that there would be something out there - Alecu's<br>
implementation has some interesting smarts in that it does an<br>
auto-selection of the pages to include. I'll let him explan that. The<br>
wikislice page talks about the user providing the list of urls, which<br>
means you need to auto-generate that somehow.<br>
<br>
Maybe we can integrate CDPedia's scoring scheme?<br>
<br>
[I did an svn checkout of kiwix, this thing has an embedded gecko.]<br>
<div class="Ih2E3d"><br>
> ps - I don't see code at the google-code url... and "cdpedia" is a name used<br>
> by a few existing projects, some commercial; you might want to choose<br>
> another name.<br>
<br>
</div>Go to the code page, and click on the svn browse thingy...<br>
<div class="Ih2E3d"><br>
> pps - Martin: simple: is nice, but not of uniform quality<br>
<br>
</div>Good to know! --  I wasn't ewxpecting too much uniform-ness out of<br>
wikipedia anyway ;-)</blockquote><div><br>A pity (-:   The Wikipedia 1.0 and schools-wikipedia projects are good at uniformity, and can use support in new languages.<br></div></div><br>SJ