📜  WikipediaHI:印地语离线维基百科!

📅  最后修改于: 2021-10-19 04:52:46             🧑  作者: Mango

上周我花了一些时间在为 Sugar 桌面环境做 WikipediaHI 活动。我必须说这是我遇到的很棒的活动之一。最好的部分是它可以在离线模式下为您提供数据。也就是说,即使没有访问 Wikipedia 所需的互联网连接,您的 WikipediaHI 活动也将满足您的目的。

有很多开发人员和贡献者以协作的形式在这些很棒的东西上工作,他们不断地激励你接受新事物并创造出可供世界上其他人使用的东西。 Sugar 开发者和贡献者就是这样一个群体的缩影。

我遇到过很少这样的开发人员,Anish Mangal 和 Gonzalo Odiard,他们中的两个对 Sugar 的贡献非常重要。我承担了使用免费提供的印地语维基百科转储创建 WikipediaHI 的任务。我按照此页面上指定的步骤[由 Gonzalo 主持] 以您自己的语言创建维基百科活动。

我将快速解释我创建 WikipediaHI 所采取的步骤:

1) 下载了印地语的维基百科转储文件:
http://dumps.wikimedia.org/hiwiki/20121225/hiwiki-20121225-pages-articles.xml.bz2
注意:[ 确保您从这里选择有效的最新文件:http://dumps.wikimedia.org/hiwiki/ 这个位置将显示您按日期列出的列表。选择最新的转储并继续进行。]

并从此链接下载了 WikipediaBase

2) 在 WikipediaBase 目录下为 HINDI 创建“hi”目录,并将下载的转储移动到此文件夹。

3)使用以下方法提取此文件的内容:
bzip2 -d hiwiki-20121225-pages-articles.xml.bz2

4) 使用页面解析器处理转储:
../tools2/pages_parser.py

此操作的结果将生成以下文件:
hiwiki-20121225-pages-articles.xml.links
hiwiki-20121225-pages-articles.xml.page_templates
hiwiki-20121225-pages-articles.redirects
hiwiki-20121225-pages-articles.templates

5) 然后,您可以使用以下命令将此转储中的选择性文章或所有文章包含到您的活动中:
../tools2/make_selection.py
* 确保您的收藏夹.txt 和黑名单.txt 填充了适当的关键字。

现在,如果您想包含所有文章,请使用以下命令:
../tools2/make_selection.py –all

6)然后继续为这些文章创建索引:
../tools2/create_index.py

7)为了测试在上一步中创建的索引,您可以使用以下命令:
../tools2/test_index.py

8) 下一步是展开文章模板:
光盘..
./tools2/expandtemplates.py 嗨

9) 返回 hi 目录并重新创建索引:
光碟嗨
mv hiwiki-20121225-pages-articles.xml.processed_expanded hiwiki-20121225-pages-articles.xml.processed
../tools2/create_index.py –delete_all

10) 下载您选择的文章的图片:
光碟嗨
../tools2/download_images.py

如果要下载在上一步中选择的页面的图像:
../tools2/download_images.py –all

11)创建特定于语言的文件:
(a)activity/activity.info.lang :语言活动的活动信息文件
(b)activity/activity-wikipedia-lang.svg:您的语言的活动图标
(c)activity_lang.py :您的语言的活动文件
(d)static/about_lang.html :关于维基百科用你的语言的页面。
(e)static/index_lang.html :维基百科的索引页面。这是启动活动时显示的页面。因此,了解search.db(创建索引时生成)中包含的文章对您创建索引页面很重要。

12) 用您的语言为维基百科创建 XO 文件:
./setup_new_wiki.py hi/hiwiki-20121225-pages-articles.xml

我浏览了 search.db 文件以识别其中存在的文章并相应地创建索引页面。
这给了我写一些脚本的想法,该脚本可以生成索引页(部分或整个)以用作使用 search.db 的活动主页[敬请关注关于此想法的下一篇博客]

给你..你可以看到维基百科HI


启动时,您可以看到索引页面列出了您可以使用 WikipediaHI 离线查看的文章


如果你想玩WikipediaHI,可以下载:WikipediaHI-35.xo

我必须感谢 Gonzalo 在完成这项工作时提供的出色帮助和指导。我必须在这里提到维基百科
在他们的转储中更改了它的 XML 格式,这导致我在创建索引时出错。我接受了 Gonzalo 的帮助来解决它。
感谢 Anish,他激励我拿起它并指导我完成它。

谢谢你们 !! 😀 卡蒂克

关于作者: Kartik是卡内基梅隆大学的研究生,专攻移动计算、机器学习、自然语言处理。在去 CMU 之前在 LinkedIn 工作。要了解更多关于我的信息:http://linkedin.com/in/kartikperisetla

如果您还想在这里展示您的博客,请参阅 GBlog 以获取 GeeksforGeeks 上的客座博客文章