Resources

Books

Courses

Datasets

Kaggle Datasets: Various / General ML
CelebA: Computer Vision / Facial Attributes
COCO: Computer Vision / Object Detection
ImageNet: Computer Vision / Classification
Cityscapes Dataset: Computer Vision / Segmentation
ObjectNet: Computer Vision / Robustness Testing
LAION 5B: Multimodal / Vision-Language
NAIRR Datasets: Various / Research Datasets
UCI Machine Learning Datasets: Traditional ML / Tabular
Common Crawl: NLP / Web-Scale Corpus
The Pile: NLP / Language Modeling
C4 (Colossal Clean Crawled Corpus): NLP / Pretraining Corpus
UCI’s Text Datasets: Collection of databases, domain theories, and data generators for ML
data.world’s Text Datasets: Text mining datasets
Awesome Public Datasets – Natural Language: Curated list of public NLP datasets
Insight Resources Datasets: Datasets from University College Dublin
Bing Sentiment Analysis: Sentiment analysis datasets
Consumer Complaint Database: From the Consumer Financial Protection Bureau
Sentiment Labelled Sentences Data Set: Sentences from imdb, amazon, yelp labelled positive/negative
Amazon product data: Product reviews and metadata
Data is Plural: Weekly collection of interesting datasets
FiveThirtyEight’s datasets: Data from FiveThirtyEight articles
R’s datasets package: Built-in datasets for R
200,000 Russian Troll Tweets: Released by Congress from suspended Twitter accounts
Wikipedia: List of datasets for ML research: Comprehensive Wikipedia list
Kaggle: UMICH SI650 - Sentiment Classification: Sentiment classification dataset
Lee’s Similarity Data Sets: Datasets for similarity judgment
Corpus of Presidential Speeches (CoPS) and Clinton/Trump Corpus: Political speech corpora
15 Best Chatbot Datasets for Machine Learning: Curated list of chatbot datasets
A Survey of Available Corpora for Building Data-Driven Dialogue Systems: PDF survey of dialogue corpora
Hate-speech-and-offensive-language: Hate speech detection dataset
First Quora Dataset Release: Question Pairs: Quora question pair dataset
The Best 25 Datasets for Natural Language Processing: Curated list of NLP datasets
SWAG: Large-scale dataset for Natural Language Inference (NLI) with common-sense reasoning
MIMIC: Deidentified health data from ~40,000 critical care patients
Clinical NLP Dataset Repository: Curated list of publicly-available clinical datasets for NLP research
Million Song Lyrics: Lyrics for the Million Song Dataset
The Multi-Genre NLI Corpus: Natural language inference corpus
Twitter US Airline Sentiment: Twitter sentiment about US airlines
DuoRC: 186K unique question-answer pairs for paraphrased reading comprehension
EDGAR Financial Statements: Reporting engine for financial and regulatory filings (text mining)
American National Corpus Download: Open American National Corpus
Santa Barbara Corpus of Spoken American English: Spoken American English corpus
Leipzig Corpora Collection: Corpora in English, Arabic, French, Russian, German
Awesome Twitter Tools & Datasets: Twitter-related datasets and tools
The Big Bad NLP Database: Collection of NLP datasets
CBC News Coronavirus articles: COVID-19 news articles from CBC
Hugging Face Dataset Viewer – Financial PhraseBank: Financial sentiment classification dataset
OpenSLR: Open Speech and Language Resources
- LibriSpeech ASR corpus: Large-scale English ASR corpus
VoxForge: Open source speech recognition corpus
Flickr 8k: Image captioning dataset with 8,000 images
Flickr 30k: Image captioning dataset with 30,000 images
The bAbI Project: Datasets for text understanding and reasoning (QA, dialog, etc.)
- MovieQA / Movie Dialog dataset: Dataset for movie dialog understanding
SQuAD: Stanford Question Answering Dataset
NLVR: Natural Language for Visual Reasoning (built on NYU Depth v2)
COCO-QA: Image QA dataset based on MSCOCO images
DAQUAR: Dataset for visual question answering (based on MSCOCO)
Multilingual Image QA: Image QA dataset by Baidu (Chinese with English translation)
THUMOS: Large-scale action recognition dataset
MultiTHUMOS: Extension of THUMOS ‘14 with dense multilabel annotation

Research Paper

title	Resources
modified	2026-06-26 02:20

whoashish115's digital garden

Directory

Resources

Books

Courses

Datasets

Research Paper

Misc

whoashish115's digital garden

Directory

Resources

Books

Courses

Datasets

Research Paper

Misc

Graph View

Table of Contents

Recent notes

Resources

Rabbit Holes

Resources

Computational Intelligence

French