100+个NLP数据集 - 阁恬下移动站

100+个NLP数据集

2024-11-11 09:48

jieba

结巴中文分词

100+个NLP数据集

13031 Github

spaCy

? Industrial-strength Natural Language Processing (NLP) with Python and Cython

9030 Github

gensim

Topic Modelling for Humans

6837 Github

nltk

NLTK Source

6315 Github

pattern

Web mining module for Python, with tools for scraping, natural language processing, machine learning, network analysis and visualization.

6219 Github

newspaper

News, full-text, and article metadata extraction in Python 3. Advanced docs:

6164 Github

ChatterBot

ChatterBot is a machine learning, conversational dialog engine for creating chat bots

5792 Github

python-telegram-bot

We have made you a wrapper you can't refuse

4726 Github

seq2seq

A general-purpose encoder-decoder framework for Tensorflow

3656 Github

snownlp

Python library for processing Chinese text

3067 Github

char-rnn-tensorflow

Multi-layer Recurrent Neural Networks (LSTM, RNN) for character-level language models in Python using Tensorflow

1947 Github

kcws

Deep Learning Chinese Word Segment

1769 Github

DeepQA

My tensorflow implementation of "A neural conversational model", a Deep learning based chatbot

1740 Github

OpenNMT

Open Source Neural Machine Translation in Torch

1663 Github

100+ Chinese Word Vectors 上百种预训练中文词向量

This project provides 100+ Chinese Word Vectors (embeddings) trained with different representations (dense and sparse), context features (word, ngram, character, and more), and corpora. One can easily obtain pre-trained vectors with different properties and use them for downstream tasks.

1505 Github

sentiment

AFINN-based sentiment analysis for Node.js.

1433 Github

THULAC

An Efficient Lexical Analyzer for Chinese

292 Github

Densely-Interactive-Inference-Network

Cleaned code for paper "Natural Language Inference over Interaction Space"

78 Github

Twitter Sentiment140

与品牌/关键字相关的推文，网站上包括论文和研究想思路（77 MB）

官网

Stackoverflow

730万个stackoverflow问题+其他stackexchanges（查询工具）

官网

短信垃圾邮件收集

是一个包含5,574英文单词，真实的、未附带附件的短信内容集，已合法进行标记（200 KB）

官网

arXiv

所有归档的论文全文（270 GB）+源文件（190 GB）

官网

NYTimes Facebook数据

所有《纽约时报》的Facebook帖子（5 MB）

官网

Flickr Personal Taxonomies

社交媒体上用户按个人喜好分类内容的树形数据集，包含7,121位Flickr的树（40 MB）

官网

AWS爬虫数据

收集了从2008以来抓取的50亿个网页的数据。其中自2013年开始，所有爬虫只持续一个月，数据以WARC文件格式存储。从2012年开始，抓取的数据还包含元数据（WAT）和文本数据（WET）提取，大大简化了数据处理（541 TB）

官网

Twitter美国航空公司情绪[Kaggle]

Twitter美国航空公司情绪[Kaggle]：收集了twitter用户对于一些美国主要航空公司的评价情况。数据始于从2015年2月，评论者需选择正面、负面和中性中的一类，如有负面评价，再进行原因分类（如“晚班”或“粗鲁服务”）（2.5 MB）

官网

Google Books Ngrams

包含在整个语料库中出现超过40次的n-gram，优化了快速查询小组短语的用法（2.2 TB）

官网

识别文本中的关键短语

Question / Answer pairs + context；如果与问题/答案有关，则判断上下文关系（8 MB）

官网

Yahoo! Answers Manner Questions

Yahoo! Answers corpus的子集，并根据语言属性进行选择，包含142,627个问题及其答案。（104 MB）

官网

Reddit评论（15年5月）[Kaggle]

上个数据集的子集（8 GB）

官网

WestburyLab维基百科语料库（2010）

包含2010年4月以前维基百科英文部分中的所有文章的快照，已经去除了所有链接和不相关的材料（导航文本等），但未经标记，是原始文本（1.8 GB）

官网

句子/概念对的真实含义

用两个概念来读一个句子，例如“一只狗是一种动物”或“船长可以与主人具有相同的含义”，判断这句话是否属实，然后将结果排列为1-5五个等级（700 KB）

官网

Wikidata数据集

RDF数据

官网

ClueWeb11 FACC

带有Freebase标识符注释的ClueWeb11（92 GB）

官网

Twitter UK Geolocated Tweets

Twitter UK Geolocated Tweets：来自英国的17万条推文。（47 MB）

官网

Maluuba Datasets

用于状态性的自然语言理解研究的人工制作的精细数据集。

0 Github 官网

Death Row

包含美国德州自1984年以来每个执行死刑罪犯的遗言（HTML表格）

官网

Event Registry

可以实时访问全球100,000个新闻源的新闻文章，有API（免费查询工具）

官网

维基百科XML数据

维基媒体基金会提供的完整副本，以wikitext源代码和嵌入XML的元数据形式提供（500 GB）

官网

Jeopardy

包含216,930个危险问题（53 MB）

官网

YAGO

RDF数据

0 Github 官网

SaudiNewsNet

包含从各种在线沙特报纸中摘录的31,030份阿拉伯文报纸文章及其元数据（2 MB）

官网

CSI语料库

荷兰语，该语料库包含两种类型的学生文本：作文和评论。涉及作者（性别、年龄、性取向、来源地区、性格概况）和文档（时间、流派、真实性、情绪、等级）等大量元数据。由安特卫普大学CLiPS研究中心提供，主要用于计量文体学分析。

官网

欧洲语言机器翻译

（612 MB）

官网

Reddit评论

截至2015年7月的每个公开可用的书签评论，共计17亿条评论（250 GB）

官网

SQuAD

斯坦福大学的问答数据集，广泛用于问题回答和阅读理解，其中每个问题和答案都是文本片段的形式。

0 Github 官网

Apache Software Foundation公共邮件存档

截至2011年7月11日所有公开可用的Apache Software Foundation邮件存档

官网

哈佛图书馆

哈佛图书馆藏书记录已超过1,200万册，包括书籍、期刊、电子资料、手稿、档案资料、乐谱、音频、视频和其他资料（4GB）

官网

博客作者身份语料库

由2004年8月从blogger.com收集的19,320位博主的文章组成，共计681,288篇，字数超过1.4亿——平均每人35篇、7250字

官网

康奈尔电影对话语料库（Cornell Movie Dialog Corpus）

包含从原始电影脚本中提取的虚构对话集：10,292对电影角色之间的220,579次会话交流、涉及617部电影中的9,035个字符，共304,713个句子。元数据极其丰富，包含流派、发布年份、IMDB评级、IMDB票数、性别、在电影积分榜上的位置。

官网

仇恨言语识别

ICWSM 2017论文“自动仇恨语音检测和无礼语言问题”的作者贡献。包含3类短文本：a）包含仇恨言论；b）是冒犯性的，但没有仇恨言论；c）根本没有冒犯性。由15,000行文本构成，每个字符串都经过3人判断（3 MB）

官网

Twitter上关于新英格兰爱国者队泄气门（Deflategate）事件的情绪

新英格兰爱国者队在美国橄榄球联合会（AFC）决赛中击败印第安纳波利斯小马队，将在2月1号的超级碗大赛中迎战西雅图海鹰队。但是爱国者队被发现在这次比赛中使用的12个橄榄球有11个充气不足。这个数据集可用于观察丑闻爆发Twitter用户的情绪，以衡量公众对整个事件的看法（2 MB）

官网

Yahoo! N-Gram Representations

包含n-gram表示形式，这些数据可以作为查询重写任务的测试平台，这是IR研究中的一个常见问题，也是NLP研究中常见的单词和句子相似性任务（2.6 GB）

官网

Open Library数据转储

包含Open Library中所有记录的最新版本的转储（16 GB）

官网

crosswikis

英语短语相关的维基百科文章数据库、论文（11 GB）

官网

CMU Q/A Dataset

人工生成的问题/答案对，难度评级来自维基百科文章。

0 Github 官网

NEGRA

德语报刊文本的句法注释语料库，适用于所有大学和非营利组织，需要签署并发送表格才能获得

官网

Twitter东京地理定位推文

来自东京的20万条推文（47 MB）

官网

路透社语料库

包含大量路透社新闻报道，主要用于研究和开发自然语言处理、信息检索和机器学习系统。在2004年秋季，NIST接管了RCV1，所以现在需要向NIST发送请求并签署协议来获取这些数据集（2.5 GB）

官网

Home Depot产品搜索相关性[Kaggle]

包含Home Depot网站上的许多产品和真实客户的搜索关键词。每对词都经3名评估人员评估，并给出1—3的相关性评分，可用来预测相关性（65 MB）

官网

澳大利亚新闻标题[Kaggle]

包含15年内（2003年初至2017年）澳大利亚广播公司发布的130万条新闻的标题，深入研究关键词，可以看到所有塑造了过去十年的重要事件，以及它们随着时间的演变历程（56 MB）

官网

DBpedia

包含从维基百科中提取出的结构化信息，包括312,000个人、413,000个地点、94,000张音乐专辑、49,000部电影、15,000种电子游戏、140,000个组织、146,000个物种和4600种疾病。共计10亿多条信息，其中2.57亿条来自维基百科英文版，7.66亿条来自其他语言版本（17 GB）

官网

SouthparkData

带有脚本信息的.csv文件，包含《南方公园》季数、剧集、角色等信息（3.6 MB）

官网

Yahoo!搜索日志与相关性判断

匿名化的Yahoo!搜索日志与相关性判断（1.3 GB）

官网

CN-DBpedia Dump数据集

样例数据文件是txt格式，每行一条数据，每条数据是一个(实体名称，属性名称，属性值)的三元组，中间用tab分隔，具体如下所示。

0 Github 官网

Question Pairs

第一个来源于 Quora 的包含重复/语义相似性标签的数据集

0 Github 官网

NIPS2015论文（第2版）[Kaggle]

所有NIPS2015论文全文（335 MB）

官网

GigaOM Wordpress Challenge [Kaggle]

预测有人会喜欢哪些博客文章。包含博客文章、元数据、用户喜欢情况等信息（1.5 GB）

官网

经济新闻报道的基调和相关性

包含从1951年到2014年的经济新闻，可根据新闻报道判断该文章是否与美国经济情况相关，如果是，报道的基调是什么（12 MB）

官网

Twitter上激进分子情绪分析

关于诸如堕胎合法化、女权主义、希拉里·克林顿等各种左倾问题的推文，如果所述推文对该问题赞成、反对或保持中立，则将其分类（600 KB）

官网

Yelp

包括餐厅排名和220万条评论

官网

WEX

英文维基百科的处理转储（66 GB）

官网

Google Web 5gram

包含n-gram及其观察到的频率计数。n-gram的长度从unigrams（单个单词）到5-gram，主要用于统计语言建模（24 GB）

官网

新闻文章/维基百科页面配对

阅读一篇简短文章，并选出它和两篇维基百科文章中的哪一篇最接近（6 MB）

官网

亚马逊评论

斯坦福收集了3500万条亚马逊评论，跨度18年（11 GB）

官网

亚马逊食品评论[Kaggle]

数据跨越10年以上，包括截至2012年10月的568,454条评论。内容包括产品、用户信息、评分以及纯文本评论（240 MB）

官网

垃圾邮件/标题党新闻数据集[Kaggle]

新闻网站The Examiner上的新闻汇编，包含超过6年的21000多位作者撰写的300万篇文章的标题（200 MB）

官网

社交媒体上有关灾难的消息

包含10,000条和灾难事故相关的带注释推特（2 MB）

官网

基于新闻文章判断美国经济表现

新闻文章的标题和摘要与美国经济相关程度的排名（5 MB）

官网

Gutenberg EBooks

电子书基本信息的注释列表（2 MB）

官网

希拉里克林顿的电子邮件[Kaggle]

美国国务院发布的近7,000页的希拉里·克林顿精心编辑的电子邮件（12 MB）

官网

Yahoo! Answers consisting of questions asked in French

Yahoo! Answers corpus from 2006 to 2015的子集，包含170万个法语问题以及相应的答案（3.8 GB）

官网

Yahoo!从公开可用网页中提取的HTML表单

包含一小部分含有复杂HTML表单的页面，共计267万个复杂表单（50+ GB）

官网

Urban Dictionary词汇和定义[Kaggle]

截至2016年5月，包含全部260万个Urban Dictionary的词汇定义、提交者和点赞数量的CSV语料库（238 MB）

官网

一周全球新闻馈送[Kaggle]

一周内（2017年8月24日至2017年8月30日）全球在线发布的大多新闻内容的快照，包括大约140万篇文章、20,000个新闻来源和20多种语言（115 MB）

官网

20万英语笑话文本

来源于各个地方的208,000个纯文本笑话

官网

Freebase Quad Dump

Freebase中所有当前事实和主张的数据转储（35 GB）

官网

ASAP自动短文评分[Kaggle]

共八个作文集，每一集作文都围绕一个主题展开。短文的平均长度为150到550个字。一些文章依赖于主题信息，另一些则是自由发挥。所有文章都是由7年级到10年级的学生撰写的，并经相关人员手工评分，有些还进行了双重评分（100 MB）

官网

Freebase简单主题转储

关于Freebase中每个主题的基本识别事实的数据转储（5 GB）

官网

印度新闻标题[Kaggle]

汇编了2001年至2017年印度“泰晤士报”发表的270万条新闻的标题（185 MB）

官网

Freebase数据转储

是一个开放的世界信息数据库，包含电影、音乐、人物、地域在内的数百个类别的数百万个主题（26GB）

官网

Personae语料库

收集用于作者信息和个性预测的实验，由145名不同学生编写的145篇荷兰语文章组成，每个学生还参加了在线MBTI性格测试

官网

ClueWeb09 FACC

带有Freebase注释的ClueWeb09和ClueWeb12语料库（72 GB）

官网

联邦采购数据中心的联邦合同

来自管理联邦采购数据系统（FPDS-NG）的联邦采购数据中心（FPDC）的转储，真实性和准确性已受承诺（180 GB）

官网

Yahoo! Answers Comprehensive Questions and Answers

2017年10月25日创建，包含4,483,032个问题及其答案（3.6 GB）

官网

微软Probase概念图

包含5401933个概念，12551613个实例，87603947条IsA三元组.

官网

ASAP自动简答题评分

共十个数据集，每个数据集都是由单个提示生成的。平均长度为50个字。一些回答依赖于问题信息，另一些则是自由发挥。所有答案都是由10年级的学生撰写的，并经相关人员手动分级并进行双重评分（35 MB）

官网

Yahoo!从公开可用网页中提取元数据

RDF数据（2 GB）

官网

Enron电子邮件集

包含1,227,255封电子邮件，其中493,384份附件覆盖了151名托管人。该电子邮件的格式为Microsoft PST、IETF MIME和EDRM XML（210 GB）

官网

SNAP

Stanford Large Network Dataset Collection

0 Github 官网

Twitter美国地理定位推文

Twitter美国地理定位推文：来自美国的20万条推文（45 MB）

官网

Twitter的情绪分析

自驾车：阅读推文，将其分为非常积极的、轻微积极的、中性的、轻微消极的或非常消极的，并标记其是否与自驾车相关（1 MB）

官网

Yahoo!英语维基百科的语义注释快照

英文维基百科从2006年11月4日开始使用一些公开的NLP工具进行处理，共1,490,688个条目（6 GB）

官网

材料安全数据表

230,000份材料安全数据表，包含化学成分、急救措施、储存和处理等信息（3 GB）

官网

Billion Words benchmark

一个大型、通用的语言建模数据集，常用于如 word2vec 或 Glove 的分布式词语表征。

0 Github 官网

YouTube

170万个YouTube视频的简介

官网

DBLP XML

DBLP XML数据

0 Github 官网

美国政客的社交媒体消息分类

收集了来自美国参议员和其他美国政客的数千条社交媒体消息，可按内容分类为目标群众（国家或选民）、政治主张（中立/两党或偏见/党派）和实际内容（如攻击政敌等）（4 MB）注：该网站还有其他大量CV、NLP和语音方面的小型数据集

官网

MCTest

免费提供一组660个故事和相关问题，用于研究机器对文本的理解、回答问题（1 MB）

官网

Del.icio.us

包含delicious.com上的125万个书签（170 MB）

官网

WestburyLab USENET语料库

2005—2010年47,860篇英语新闻的匿名汇总，文章长度在500字和500,000字之间，英文单词占比高达90%（40 GB）

官网

Yahoo! N-Grams 2.0

n-gram（n = 1至5），从1260多个面向新闻的站点中检索到的1460万个文档（1.26亿条独特语句，34亿个运行词）（12 GB）

以上就是本篇文章【100+个NLP数据集】的全部内容了，欢迎阅览！文章地址：http://lanlanwork.gawce.com/news/9529.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页阁恬下移动站 http://lanlanwork.gawce.com/mobile/ , 查看更多