Full Catalog

Benchmarks

Every AI biology and biomedical benchmark we track, with saturation status, scores, and successor information.

272 of 272 benchmarks

Name	Domain	Year ▼	Type	Status	Time to Saturation	Best Score	Human Baseline	Successor
MolQuest	Drug Discovery	2026	Agent Workflow	Active	—	SOTA ~50%; most <30%	—	—
FLIP2	Protein	2026	Regression	Active	—	Varies	—	—
Doctorina MedBench	Clinical	2026	Agent Simulation	Active	—	Varies (>1,000 cases)	—	—
LABBench2	Agentic Bio	2026	Research Workflow	Active	—	26-46% drop vs LAB-Bench	—	—
MolGenBench	Drug Discovery	2025	Structure-based Generation	Active	—	Varies	—	—
ToxiMol	Drug Discovery	2025	Generation	Active	—	Low success rates	—	—
PDBbind CleanSplit	Drug Discovery	2025	Regression	Active	—	Varies (leak-free)	—	—
PoseX	Drug Discovery	2025	Pose Prediction	Active	—	AI > physics-based (post-relaxation)	—	—
FoldBench	Protein	2025	Structural Prediction	Active	—	Varies by task	—	—
AbBiBench	Protein	2025	Antibody Design	Active	—	Varies	—	—
EC-Bench	Protein	2025	Classification	Active	—	Varies	—	—
MotifBench	Protein	2025	Generation	Active	—	RFdiffusion solves ~16/30	—	—
SHAPES	Protein	2025	Generation	Active	—	Most models fail on loops/mixed	—	—
PFMBench	Protein	2025	Multi-task	Active	—	Varies across 38 tasks	—	—
LiveProteinBench	Protein	2025	Multi-task	Active	—	Varies	—	—
rnaglib	Protein	2025	Multi-task (RNA 3D)	Active	—	Varies	—	—
PeptoneBench	Protein	2025	Conformational Dynamics	Active	—	BioEmu and PepTron lead	—	—
PDFBench	Protein	2025	Protein Design from Function	Active	—	Varies across 16 metrics	—	—
SafeProtein	Biosecurity	2025	Red-teaming	Active	—	Varies	—	—
Gene-MTEB	Genomics	2025	Classification/Clustering	Active	—	0.59 average	—	—
Nullsettes	Genomics	2025	Zero-shot Prediction	Active	—	Most models fail	—	—
METAGENE-1	Genomics	2025	Classification/Clustering	Active	—	MCC 92.96 (pathogen)	—	—
OmniGenBench	Genomics	2025	Multi-task	Active	—	Varies across 123+ datasets	—	—
DNALongBench	Genomics	2025	Classification/Regression	Active	—	Expert models lead	—	—
NABench	Genomics	2025	Fitness Prediction	Active	—	Varies	—	—
AlphaGenome	Genomics	2025	Multi-task	Active	—	25/26 VEP evaluations SOTA	—	—
TraitGym	Genomics	2025	Variant Prediction	Active	—	CADD/GPN-MSA best for disease traits	—	—
Arc Institute Virtual Cell Challenge	Virtual Cell	2025	Perturbation Prediction	Active	—	Statistical baselines competitive with AI	—	—
scPerturBench	Virtual Cell	2025	Perturbation Prediction	Active	—	No method consistently wins; linear baselines competitive	—	—
HLE (Bio/Medicine)	Science QA	2025	Short Answer/MCQ	Active	—	44.7% overall; ~22% bio/med	98%	—
ATLAS (Bio)	Science QA	2025	Open-ended	Active	—	Varies	—	—
MedHELM	Clinical	2025	Multi-task Clinical	Active	—	66% win-rate (DeepSeek R1)	—	—
MedAgentBench	Clinical	2025	Agent Workflow	Active	—	69.67%	—	—
HealthBench	Clinical	2025	Conversational	Active	—	60% (o3); Hard: 32%	—	—
FHIR-AgentBench	Clinical	2025	Agent Workflow	Active	—	Varies	—	—
LiveMedBench	Clinical	2025	Dynamic MCQ	Active	—	Varies (refreshes weekly)	—	—
MedXpertQA	Clinical	2025	MCQ	Active	—	Varies (4,460 Qs, 17 specialties)	—	—
DiagnosisArena	Clinical	2025	Diagnostic Reasoning	Active	—	45.82%	—	—
Script Concordance Testing	Clinical	2025	Probabilistic Reasoning	Active	—	Varies	—	—
AgentClinic	Clinical	2025	Diagnostic Agent	Active	—	Varies (120 NEJM cases)	—	—
MedBench v4 (China)	Clinical	2025	Multi-task	Active	—	Agent 85.3/100 (Claude Sonnet 4.5)	—	—
VCT	Biosecurity	2025	Multimodal QA	Active	—	43.8% (o3)	22.1% (expert virologists)	—
ABC-Bench	Biosecurity	2025	Agent Workflow	Active	—	53% (Grok 3)	24% (PhD experts)	—
ABLE	Biosecurity	2025	Agent Workflow	Active	—	7/8 low-level tasks	—	—
BBG Framework / B3	Biosecurity	2025	Open-ended	Unknown	—	Pilot phase	—	—
Scale AI FORTRESS (CBRNE)	Biosecurity	2025	Adversarial Safety	Active	—	Varies	—	—
Scale AI PropensityBench	Biosecurity	2025	Agent Safety	Active	—	Varies (5,874 tasks)	—	—
TroubleshootingBench	Biosecurity	2025	Protocol QA	Active	—	No model exceeds 80th-pct expert (36.4%)	80th-pct expert: 36.4%	—
BixBench	Agentic Bio	2025	Bioinformatics	Active	—	17% (Claude 3.5 Sonnet); 9% (GPT-4o)	—	—
MedAgentGym	Agentic Bio	2025	Training Environment	Active	—	N/A	—	—
BioProBench	Agentic Bio	2025	Protocol Understanding	Active	—	Varies	—	—
CT-Bench	Medical Imaging	2025	Multimodal QA	Active	—	61.8%	—	—
ReXVQA	Medical Imaging	2025	Visual QA	Active	—	83.24% (MedGemma)	—	—
MatBench Discovery	Drug Discovery	2025	Crystal Stability	Nearing	12 mo	F1=0.924	—	—
FairMedQA	Clinical	2025	Fairness Evaluation	Active	—	3-19 pct point accuracy disparity	—	—
MEDEC	Clinical	2025	Error Detection/Correction	Active	—	Varies	—	—
MedThink-Bench	Clinical	2025	Reasoning Evaluation	Active	—	Varies (500 QA pairs)	—	—
CLINIC	Clinical	2025	Trustworthiness	Active	—	DeepSeek-R1-LLaMA best robustness	—	—
MedAgentsBench	Clinical	2025	Multi-agent Reasoning	Active	—	92.6% (TeamMedAgents)	—	—
TDC-2 (Single-cell DTI)	Drug Discovery	2024	Classification	Active	—	Varies	—	—
TDC-2 Protein-Peptide Binding	Drug Discovery	2024	Regression	Active	—	Varies	—	—
DrugGym	Drug Discovery	2024	Agent Workflow	Active	—	N/A (simulator)	—	—
MolScore	Drug Discovery	2024	Meta-framework	Unknown	—	N/A	—	—
Polaris	Drug Discovery	2024	Classification/Regression	Active	—	Varies (blind test)	—	—
WelQrate	Drug Discovery	2024	Classification	Active	—	Varies	—	—
PharmaBench	Drug Discovery	2024	Classification/Regression	Active	—	Varies	—	—
PLINDER	Drug Discovery	2024	Docking/Regression	Active	—	DiffDock drops 38%->15% with leak control	—	—
CPI2M	Drug Discovery	2024	Regression	Active	—	Baseline	—	—
PoseBench	Drug Discovery	2024	Pose Prediction	Active	—	~68% (PB); ~33% (DockGen-E)	—	—
DockGen	Drug Discovery	2024	Pose Prediction	Active	—	~24-33% top-1 RMSD<2A	—	—
MF-PCBA	Drug Discovery	2024	Virtual Screening	Active	—	Baselines established	—	—
TOMG-Bench	Drug Discovery	2024	LLM Generation	Active	—	Fine-tuned Llama > GPT-3.5 by 46.5%	—	—
ChemBench	Drug Discovery	2024	MCQ/Free-form	Nearing	24 mo	Claude 3.5 Sonnet > best human chemists	Expert chemists	—
CASP16 (Complexes)	Protein	2024	Structural Prediction	Active	—	Varies; AB-Ag major failure area	—	—
CASP16 (RNA)	Genomics	2024	Structural Prediction	Active	—	No TM-score >0.8 for novel RNAs	—	—
CASP16 (Protein-Ligand)	Drug Discovery	2024	Binding Affinity	Active	—	Max Kendall tau 0.42	—	—
ProteinBench	Protein	2024	Multi-task	Active	—	Varies; drops >20% at 500+ residues	—	—
PPB-Affinity	Protein	2024	Regression	Active	—	Varies	—	—
BEACON (RNA Tasks)	Genomics	2024	Multi-task (13 RNA tasks)	Active	—	PLMs surpass SOTA on 8/13	—	—
ATLAS MD Ensemble Dataset	Protein	2024	Conformational Dynamics	Active	—	Varies	—	—
Evo / Evo 2	Genomics	2024	Multi-task	Active	—	BRCA1 >90% AUROC (Evo 2)	—	—
DART-Eval	Genomics	2024	Multi-task	Active	—	DNALMs inconsistent	—	—
GenBench	Genomics	2024	Multi-task	Active	—	Varies across 43 datasets	—	—
Genomics Long-Range Benchmark	Genomics	2024	Classification/Regression	Active	—	Large gaps in VEP	—	—
Borzoi	Genomics	2024	Gene Expression Prediction	Active	—	524kb input, 32bp resolution	—	AlphaGenome
PRIDICT 2.0 (Prime Editing)	Genomics	2024	Regression	Active	—	Spearman R=0.85	—	—
CZI cz-benchmarks	Virtual Cell	2024	Classification/Prediction	Active	—	Varies	—	—
scPerturb	Virtual Cell	2024	Data Resource/QC	Active	—	E-distance metric	—	scPerturBench
PerturBench	Virtual Cell	2024	Perturbation Prediction	Active	—	Simple models outperform complex	—	—
MMLU-Pro Medical	Bio NLP	2024	MCQ	Saturated	18 mo	90.1%	—	—
MedCalc-Bench	Clinical	2024	Calculation	Active	—	50.9%	—	—
MedS-Bench	Clinical	2024	Multi-task	Active	—	Varies across 39 datasets	—	—
JAMA Clinical Challenge	Clinical	2024	MCQ	Active	—	88.6% (o1-preview on 70 cases)	—	—
AfriMed-QA	Clinical	2024	MCQ	Active	—	Varies (15K+ Qs, 32 specialties)	—	—
MMedBench	Clinical	2024	Multilingual MCQ	Active	—	Varies across 6 languages	—	—
MultiADE	Bio NLP	2024	Extraction	Active	—	Varies across 6 ADE datasets	—	—
WMDP-Bio	Biosecurity	2024	MCQ	Saturated	7 mo	87%	60.5%	VCT, ABC-Bench
BioLP-Bench	Biosecurity	2024	Protocol Error Detection	Active	—	34% (o4-mini)	~38% (expert avg)	—
LAB-Bench	Agentic Bio	2024	Research Workflow	Saturated	18 mo	89%; several subtasks at ceiling	~79% (expert on ProtocolQA)	LABBench2
ScienceAgentBench	Agentic Bio	2024	Code Generation	Active	—	42.2% (o1-preview + self-debug)	—	—
BioCoder	Agentic Bio	2024	Code Generation	Nearing	24 mo	~50% Pass@1 (GPT-4)	—	BixBench
LitQA2 / PaperQA2	Agentic Bio	2024	Literature QA	Nearing	24 mo	~90% (PaperQA2)	~67% (human experts)	—
OmniMedVQA	Medical Imaging	2024	Visual QA	Active	—	LVLMs struggle	—	—
ReXrank	Medical Imaging	2024	Report Generation	Active	—	1/RadCliQ-v1 0.98 (ReXGradient)	—	—
TDC Clinical Trial Outcome	Drug Discovery	2023	Classification	Active	—	Varies	—	—
TARTARUS	Drug Discovery	2023	Generation/RL	Active	—	Low success on hard objectives	—	—
TOXRIC	Drug Discovery	2023	Classification	Active	—	Varies	—	—
PoseBusters	Drug Discovery	2023	Pose Validation	Active	—	~75% PB-Valid	—	—
ProteinGym	Protein Fitness	2023	Regression	Active	—	Spearman ~0.52	—	—
ProteinInvBench	Protein	2023	Generation	Active	—	Recovery ~66%	—	—
Mega-Scale Stability Dataset	Protein	2023	Regression	Active	—	PCC 0.72 (ThermoMPNN)	—	—
GUE	Genomics	2023	Classification	Active	—	F1 0.3-0.95	—	DART-Eval, GenBench
BEND	Genomics	2023	Classification/Regression	Active	—	Varies	—	—
NT-18 Benchmark	Genomics	2023	Classification	Active	—	MCC 0.974 (promoter); 0.983 (splice)	—	NTv3
DeepPrime	Genomics	2023	Regression	Active	—	Approaching strong performance for specific edits	—	—
GEARS	Virtual Cell	2023	Perturbation Prediction	Active	—	40% higher precision than baselines (claimed); linear models outperform (2025)	—	—
GPQA Diamond (Bio)	Science QA	2023	MCQ	Saturated	36 mo	94.1%	67%	HLE, ATLAS
EHRSHOT	Clinical	2023	Few-shot Prediction	Active	—	Varies across 15 tasks	—	—
ACI-BENCH	Clinical	2023	Note Generation	Active	—	MEDCON 57.78	—	—
TotalSegmentator	Medical Imaging	2023	Segmentation	Nearing	36 mo	Avg Dice >0.90 for major organs	—	—
MedPerf	Clinical	2023	Federated Benchmarking	Active	—	N/A (platform)	—	—
PMO	Drug Discovery	2022	Optimization	Active	—	Varies	—	—
DOCKSTRING	Drug Discovery	2022	Regression/Generation	Active	—	Varies	—	—
PEER	Protein	2022	Multi-task	Active	—	Varies across 17 tasks	—	—
LRGB Peptides-func	Protein	2022	Classification	Active	—	Varies (AP)	—	—
LRGB Peptides-struct	Protein	2022	Regression	Active	—	Varies (MAE)	—	—
GenomicBenchmarks	Genomics	2022	Classification	Saturated	18 mo	95%+ accuracy	—	GUE, BEND
Sei	Genomics	2022	Classification	Active	—	AUROC 0.972; AUPRC 0.409	—	AlphaGenome
MedMCQA	Clinical	2022	MCQ	Active	—	~75-80%	—	—
BigBIO	Bio NLP	2022	Framework	Active	—	N/A (126+ datasets)	—	—
BioRED	Bio NLP	2022	Relation Extraction	Active	—	Varies	—	—
AMOS	Medical Imaging	2022	Segmentation	Active	—	Varies (15 organs)	—	AMOS-MM (2024)
TDC ADMET (22 leaderboards)	Drug Discovery	2021	Classification/Regression	Active	—	Varies by task	—	TDC-2
TDC DrugCombo	Drug Discovery	2021	Regression	Active	—	Varies	—	—
TDC Docking	Drug Discovery	2021	Generation	Active	—	Varies	—	—
TDC DTI DG Group	Drug Discovery	2021	Regression	Active	—	Varies	—	—
PCQM4Mv2	Drug Discovery	2021	Regression	Active	—	MAE 0.0719 eV	—	—
FLIP	Protein	2021	Regression	Nearing	60 mo	Varies	—	FLIP2
ATOM3D	Protein	2021	Multi-task (3D)	Active	—	Varies across 8 tasks	—	—
Enformer	Genomics	2021	Gene Expression Prediction	Active	—	Cross-gene CAGE Pearson 0.85	~0.94 (experimental replicate ceiling)	Borzoi, AlphaGenome
DNABERT evaluation tasks	Genomics	2021	Classification	Nearing	60 mo	F1 0.940 (promoter); MCC 0.871 (splice)	—	DNABERT-2, GUE
CRISPR on-target (CRISPRon)	Genomics	2021	Regression	Nearing	60 mo	Spearman ~0.80	Ceiling ~0.85-0.90 (biological noise)	—
Open Problems (single-cell)	Virtual Cell	2021	Multi-task	Active	—	Varies across 12 tasks	—	—
MedQA (USMLE)	Clinical	2021	MCQ	Saturated	42 mo	96.5%	87%	MedXpertQA, HealthBench
SLAKE	Medical Imaging	2021	Visual QA	Active	—	~78.7%	—	—
RadGraph	Medical Imaging	2021	Entity/Relation Extraction	Active	—	Micro F1 0.82	—	—
TDC Caco-2 Permeability	Drug Discovery	2021	Regression	Active	—	MAE 0.256	—	TDC-2
TDC Human Intestinal Absorption	Drug Discovery	2021	Classification	Active	—	AUROC 0.993	—	TDC-2
TDC P-glycoprotein Inhibition	Drug Discovery	2021	Classification	Active	—	AUROC 0.938	—	TDC-2
TDC Bioavailability	Drug Discovery	2021	Classification	Active	—	AUROC 0.942	—	TDC-2
TDC Lipophilicity	Drug Discovery	2021	Regression	Active	—	MAE 0.456	—	TDC-2
TDC Aqueous Solubility	Drug Discovery	2021	Regression	Active	—	MAE 0.741	—	TDC-2
TDC Blood-Brain Barrier	Drug Discovery	2021	Classification	Active	—	AUROC 0.924	—	TDC-2
TDC Plasma Protein Binding	Drug Discovery	2021	Regression	Active	—	MAE 7.526	—	TDC-2
TDC Volume of Distribution	Drug Discovery	2021	Regression	Active	—	Spearman 0.713	—	TDC-2
TDC CYP2C9 Inhibition	Drug Discovery	2021	Classification	Active	—	AUPRC 0.859	—	TDC-2
TDC CYP2D6 Inhibition	Drug Discovery	2021	Classification	Active	—	AUPRC 0.79	—	TDC-2
TDC CYP3A4 Inhibition	Drug Discovery	2021	Classification	Active	—	AUPRC 0.916	—	TDC-2
TDC CYP2C9 Substrate	Drug Discovery	2021	Classification	Active	—	AUPRC 0.474	—	TDC-2
TDC CYP3A4 Substrate	Drug Discovery	2021	Classification	Active	—	AUPRC 0.667	—	TDC-2
TDC Half-Life	Drug Discovery	2021	Regression	Active	—	Spearman 0.576	—	TDC-2
TDC Hepatocyte Clearance	Drug Discovery	2021	Regression	Active	—	Spearman 0.536	—	TDC-2
TDC Microsome Clearance	Drug Discovery	2021	Regression	Active	—	Spearman 0.63	—	TDC-2
TDC Acute Toxicity LD50	Drug Discovery	2021	Regression	Active	—	MAE 0.552	—	TDC-2
TDC hERG Cardiotoxicity	Drug Discovery	2021	Classification	Active	—	AUROC 0.88	—	TDC-2
TDC AMES Mutagenicity	Drug Discovery	2021	Classification	Active	—	AUROC 0.871	—	TDC-2
TDC Drug-Induced Liver Injury	Drug Discovery	2021	Classification	Active	—	AUROC 0.956	—	TDC-2
TDC DTI BindingDB	Drug Discovery	2021	Regression	Active	—	PCC 0.588	—	TDC-2
BioRED	Bio NLP	2021	Relation Extraction	Active	—	F1 % 89.3	—	—
Montreal Archive of Sleep Studies	Clinical	2021	Classification	Active	—	Accuracy % 86.8	—	—
LIT-PCBA	Drug Discovery	2020	Virtual Screening	Active	—	Varies	—	MF-PCBA
CrossDocked2020	Drug Discovery	2020	Scoring/Pose	Active	—	R 0.612	—	—
S669 (Stability blind test)	Protein	2020	Regression	Active	—	PCC ~0.43-0.67	—	—
OGB Protein Tasks	Protein	2020	Classification/Link Prediction	Active	—	Varies	—	—
scIB	Virtual Cell	2020	Integration	Nearing	72 mo	scANVI ~0.8	—	CZI cz-benchmarks
BEELINE (GRN inference)	Virtual Cell	2020	GRN Inference	Active	—	Close to random predictor in many cases	—	—
MMLU-Bio	Bio NLP	2020	MCQ	Saturated	48 mo	93%+	89.8%	MMLU-Pro
BLURB	Bio NLP	2020	Multi-task NLP	Nearing	72 mo	82.91 BLURB score	—	BigBIO
MIMIC-IV Benchmarks	Clinical	2020	Prediction	Active	—	Hospitalization AUROC ~0.87	—	—
PathVQA	Medical Imaging	2020	Visual QA	Active	—	50-65%	—	GEMeX
PANDA (Prostate Gleason)	Medical Imaging	2020	Classification	Active	—	QWK ~0.93+	—	—
OC20	Drug Discovery	2020	Catalyst Prediction	Active	—	EquiformerV2 leads	—	OC22, OC25
OGB-MolHIV	Drug Discovery	2020	Classification	Active	—	0.835 ROC-AUC	—	—
LIT-PCBA (ALDH1)	Drug Discovery	2020	Classification	Active	—	AUC 0.806	—	—
LIT-PCBA (KAT2A)	Drug Discovery	2020	Classification	Active	—	AUC 0.746	—	—
LIT-PCBA (MAPK1)	Drug Discovery	2020	Classification	Active	—	AUC 0.743	—	—
LIT-PCBA (ESR1 antagonist)	Drug Discovery	2020	Classification	Active	—	AUC 0.666	—	—
BioNLP13-CG	Bio NLP	2020	NER	Active	—	F1 % 87.83	—	—
GuacaMol	Drug Discovery	2019	Generation	Saturated	24 mo	Near-perfect on simple goals	—	PMO, TARTARUS, DrugGym
MOSES	Drug Discovery	2019	Generation	Saturated	48 mo	High validity/uniqueness	—	MolScore, TARTARUS
TAPE	Protein	2019	Multi-task	Saturated	48 mo	Near-ceiling on most tasks	—	ProteinGym, PEER, FLIP
SKEMPI 2.0	Protein	2019	Regression	Active	—	Pearson R ~0.7-0.8	—	—
SpliceAI	Genomics	2019	Classification	Nearing	84 mo	AUPRC 0.98; ~95% top-k	—	OpenSpliceAI, AlphaGenome
dynverse (Trajectory inference)	Virtual Cell	2019	Trajectory Inference	Active	—	Varies by topology	—	—
PubMedQA	Bio NLP	2019	MCQ	Active	72 mo	81.6%	78%	MedHELM, BigBIO
PhysioNet 2019 (Sepsis)	Clinical	2019	Prediction	Active	—	Varies (104 teams)	—	—
CheXpert	Medical Imaging	2019	Classification	Nearing	84 mo	AUC ~0.94	2.6/3 radiologists	CheXpert Plus
MIMIC-CXR	Medical Imaging	2019	Report Generation	Active	—	RadCliQ-v1 0.92	—	—
APTOS Diabetic Retinopathy	Medical Imaging	2019	Classification	Nearing	84 mo	QWK 0.967	—	—
MedNLI	Clinical	2019	Classification	Active	—	Accuracy % 86.59	—	—
DDI Extraction 2013	Bio NLP	2019	Relation Extraction	Active	—	F1 % 83.35	—	—
MoleculeNet	Drug Discovery	2018	Classification/Regression	Nearing	96 mo	AUROC 0.85-0.95	—	TDC, WelQrate
MedNLI	Bio NLP	2018	NLI	Nearing	96 mo	~82% accuracy	—	BioNLI
VQA-RAD	Medical Imaging	2018	Visual QA	Unknown	—	79.2%	—	—
HAM10000	Medical Imaging	2018	Classification	Nearing	96 mo	~96%+ accuracy	—	DermaMNIST-E
PCam	Medical Imaging	2018	Classification	Nearing	96 mo	~97%+ accuracy	—	—
Medical Segmentation Decathlon	Medical Imaging	2018	Segmentation	Active	—	nnU-Net variants lead	—	—
RSNA Pneumonia Detection	Medical Imaging	2018	Object Detection	Active	—	Varies (1,400+ Kaggle teams)	—	—
BBBP	Drug Discovery	2018	Classification	Nearing	—	96.4% ROC-AUC	—	—
BACE	Drug Discovery	2018	Classification	Active	—	88.4% ROC-AUC	—	—
ClinTox	Drug Discovery	2018	Classification	Nearing	—	99.2% ROC-AUC	—	—
SIDER	Drug Discovery	2018	Multi-label Classification	Active	—	91.1% ROC-AUC	—	—
ToxCast	Drug Discovery	2018	Multi-label Classification	Active	—	78.2% ROC-AUC	—	—
MUV	Drug Discovery	2018	Virtual Screening	Nearing	—	99.8% ROC-AUC	—	—
HIV (MoleculeNet)	Drug Discovery	2018	Classification	Active	—	AUC 0.851	—	—
EBM-NLP	Bio NLP	2018	NER	Active	—	F1 % 76.01	—	—
USPTO-MIT	Drug Discovery	2017	Reaction Prediction	Nearing	108 mo	>90% top-1 (forward)	—	—
CAMI (Metagenomic)	Genomics	2017	Classification/Assembly	Active	—	Good at genus, poor at strain	—	CAMI III
CRISPR off-target (CIRCLE-seq)	Genomics	2017	Classification	Active	—	AUROC 0.977 (CCLMoff)	—	—
ChemProt RE	Bio NLP	2017	Relation Extraction	Nearing	108 mo	F1 90.8%	—	—
MIMIC-III Benchmarks	Clinical	2017	Prediction	Nearing	108 mo	AUROC ~0.94 (mortality)	—	MIMIC-IV, YAIB
TAC ADR	Bio NLP	2017	Extraction	Nearing	108 mo	F1 ~85.2%	—	MultiADE
SMM4H	Bio NLP	2017	Social Media Mining	Active	—	ADR detection F1 ~0.65-0.70	—	—
NIH ChestX-ray14	Medical Imaging	2017	Classification	Nearing	108 mo	AUC ~0.85-0.88	—	CheXpert, MIMIC-CXR
Camelyon17	Medical Imaging	2017	Classification	Active	—	Kappa ~0.89	—	Camelyon+
CASF-2016	Drug Discovery	2016	Scoring/Ranking/Docking	Nearing	120 mo	Pearson R ~0.86	—	PDBbind CleanSplit
USPTO-50K	Drug Discovery	2016	Retrosynthesis	Nearing	120 mo	65% top-1	~48.2% avg (forward)	—
HoC (Hallmarks of Cancer)	Bio NLP	2016	Classification	Nearing	120 mo	F1 ~90.3%	—	—
ISIC Challenges	Medical Imaging	2016	Classification/Segmentation	Nearing	120 mo	Exceeds clinicians	Clinician level	3D TBP (2024)
Camelyon16	Medical Imaging	2016	Classification	Saturated	72 mo	AUC 0.994	Pathologist AUC	Camelyon17, Camelyon+
CAMELYON16	Medical Imaging	2016	Pathology Detection	Nearing	—	0.987 AUC	—	—
OGB-MolPCBA	Drug Discovery	2016	Classification/Regression	Active	—	Test AP 0.3167	—	—
TS115	Protein	2016	Regression	Active	—	Q3 Accuracy 0.87	—	—
ZINC	Drug Discovery	2015	Regression/Generation	Active	—	Varies	—	ZINC20, ZINC-22
Schneider 50K	Drug Discovery	2015	Reaction Classification	Saturated	72 mo	>99% (RXNFP)	—	USPTO 1K TPL
QM8	Drug Discovery	2015	Regression	Nearing	132 mo	Near saturation	—	QM9
DeepSEA	Genomics	2015	Classification	Nearing	132 mo	AUC 0.958	—	Sei, AlphaGenome
BC5CDR-Chemical NER	Bio NLP	2015	NER	Saturated	84 mo	F1 94.2%	—	BioRED
BC5CDR-Disease NER	Bio NLP	2015	NER	Nearing	132 mo	F1 ~90%	—	—
EyePACS DR	Medical Imaging	2015	Classification	Saturated	48 mo	AUC ~0.99	—	—
BC5CDR	Bio NLP	2015	Relation Extraction	Nearing	—	91.9% F1	—	—
PCBA	Drug Discovery	2015	Classification	Active	—	AUC 0.8887	—	—
Tox21	Drug Discovery	2014	Classification	Unknown	—	AUC ~0.85	—	—
KIBA	Drug Discovery	2014	Regression	Active	—	CI ~0.898	—	—
QM9	Drug Discovery	2014	Regression	Nearing	144 mo	Near chemical accuracy	—	PCQM4Mv2
SAbDab (CDR design)	Protein	2014	Generation	Active	—	CDR-H3 AAR ~40-50%; RMSD ~2.5-3.5A	—	—
NCBI-Disease NER	Bio NLP	2014	NER	Saturated	96 mo	F1 ~91%	IAA ~87%	—
CAMEO	Protein	2013	Structure Evaluation	Saturated	144 mo	AlphaFold dominant	—	CAMEO complexes/ligands/peptides
ClinVar (coding variants)	Genomics	2013	Classification	Nearing	156 mo	AUC ~0.95	—	—
BioASQ	Bio QA	2013	Semantic QA	Active	—	F1 ~0.58; yes/no >80%	—	—
DDI RE	Bio NLP	2013	Relation Extraction	Saturated	120 mo	F1 83.3%	—	MultiADE
DUD-E	Drug Discovery	2012	Virtual Screening	Saturated	96 mo	Biased high AUC	—	LIT-PCBA, MF-PCBA, WelQrate
QM7/QM7b	Drug Discovery	2012	Regression	Saturated	96 mo	Chemical accuracy achieved	—	QM9
RNA-Puzzles	Protein	2012	Structural Prediction	Active	—	Best RMSD 3-7A	Human experts outperform servers	—
BraTS	Medical Imaging	2012	Segmentation	Active	—	Dice ~0.88 whole tumor	—	BraTS 2025 Lighthouse
HIV-DTI-77	Drug Discovery	2012	Classification	Active	—	F1 % 68.3	—	—
HIV-fMRI-77	Medical Imaging	2012	Classification	Active	—	F1 % 72.2	—	—
DAVIS	Drug Discovery	2011	Regression	Nearing	180 mo	CI ~0.903	—	—
CAGI	Genomics	2011	Variant Interpretation	Active	—	Varies	—	—
CAFA	Protein	2010	Function Prediction	Active	—	Fmax 0.4-0.6	—	—
LINNAEUS NER	Bio NLP	2010	NER	Saturated	132 mo	Mid-to-high 90s%	—	—
BC2GM	Bio NLP	2008	Named Entity Recognition	Active	—	88.8% F1	—	—
BC2GM NER	Bio NLP	2007	NER	Nearing	228 mo	F1 ~90.9%	—	—
PDBbind	Drug Discovery	2004	Regression	Nearing	264 mo	Pearson R >0.86 (standard); <0.60 (CleanSplit)	—	PDBbind CleanSplit, PLINDER
JNLPBA NER	Bio NLP	2004	NER	Saturated	204 mo	F1 ~79.6%	—	—
GAD RE	Bio NLP	2004	Relation Extraction	Saturated	204 mo	F1 ~85%	—	—
JNLPBA	Bio NLP	2004	Named Entity Recognition	Active	—	82.0% F1	—	—
DB5.5 (Docking Benchmark)	Protein	2003	Docking	Active	—	Top-10 success ~38%	—	—
CAPRI	Protein	2001	Docking/Interaction	Active	—	Varies	—	—
CB513	Protein	1999	Structure Prediction	Active	—	0.763 Q8 Accuracy	—	—
CATH	Protein	1997	Classification	Nearing	348 mo	High accuracy (known folds)	—	—
CASP (Single-Chain)	Protein	1994	Structural Prediction	Saturated	312 mo	GDT-TS 92.4	~90 (experimental)	CASP complexes/RNA tracks