📜  NLP-语言资源(1)

📅  最后修改于: 2023-12-03 15:17:53.074000             🧑  作者: Mango

NLP-语言资源

自然语言处理(Natural Language Processing,NLP)是计算机科学、人工智能、语言学共同探讨的领域,涉及到语言理解、机器翻译、文本分类、信息检索、命名实体识别、情感分析等方面。这篇文章将介绍一些常用的NLP语言资源。

英文语料库
  • Gutenberg Project: 全球最大的电子书库,收录了超过6万本免费电子书。可以用来训练NLP模型。
  • UMBC Webbase Corpus: 包含8亿个网页的语料库,具有很好的时效性和广泛的主题涵盖范围。
  • Wikipedia Dump: 维基百科的原始XML文件,可以用于文本分类、实体识别、连续语言生成等任务。
  • Open American National Corpus (OANC): 包含二十世纪以来美国英语的语料库,包括新闻、小说、演讲等多种文体。
中文语料库
  • Sogou News Corpus: 搜狗新闻语料库包含超过4亿条新闻条目,广泛覆盖各个领域。
  • 人民日报语料: 包含8万多篇人民日报的语料库,适合用于文本分类等任务。
  • THUCTC:清华大学中文文本分类语料库:包含74,000篇新闻及其标注结果,涵盖图像、文本分类、聚类、信息检索等任务。
  • CKIP: 中研馆中文斷詞系統(Chinese Knowledge and Information Processing),提供大规模、多样性的中文语料库和各种NLP工具的支持。
工具库
  • NLTK: 最常用的Python自然语言处理工具库,提供了丰富的预处理功能、文本处理算法、实验用的语料库等。
  • Stanford NLP: Stanford Natural Language Processing Group制作,提供了多种自然语言处理工具包,包括实体识别、POS标注、依存分析等。
  • SpaCy: Python自然语言处理工具库,性能较快,具有灵活性、易用性和扩展性。
  • Jieba: 中文分词工具,支持多种分词模式、用户自定义词典等。

以上是常用的NLP语言资源,可以通过下面的链接获取更多语料库和工具库: