import numpy as np
import pandas as pd
import scanpy as sc
import scrublet as scr


adata = sc.read_10x_mtx('soupX_pbmc10k_filt', cache=False)
adata.var_names_make_unique()


adata

AnnData object with n_obs × n_vars = 10194 × 36601
    var: 'gene_ids'


scrub = scr.Scrublet(adata.X, expected_doublet_rate = 0.076)


adata.obs['doublet_scores'], adata.obs['predicted_doublets'] = scrub.scrub_doublets(min_counts=2, min_cells=3, 
                                                          min_gene_variability_pctl=85, n_prin_comps=30)

Preprocessing...
Simulating doublets...
Embedding transcriptomes using PCA...
Calculating doublet scores...
Automatically set threshold at doublet score = 0.25
Detected doublet rate = 5.4%
Estimated detectable doublet fraction = 53.5%
Overall doublet rate:
	Expected   = 7.6%
	Estimated  = 10.0%
Elapsed time: 18.4 seconds


scrub.plot_histogram()

(<Figure size 576x216 with 2 Axes>,
 array([<AxesSubplot:title={'center':'Observed transcriptomes'}, xlabel='Doublet score', ylabel='Prob. density'>,
        <AxesSubplot:title={'center':'Simulated doublets'}, xlabel='Doublet score', ylabel='Prob. density'>],
       dtype=object))


scrub.set_embedding('UMAP', scr.get_umap(scrub.manifold_obs_, 10, min_dist=0.3))
scrub.plot_embedding('UMAP', order_points=True);


adata.obs


adata.obs['predicted_doublets'].value_counts()

False    9647
True      547
Name: predicted_doublets, dtype: int64


pd.DataFrame(adata.obs).to_csv("scrublet_calls.tsv",sep = '\t',header = False)

	doublet_scores	predicted_doublets
AAACCCACATAACTCG-1	0.305424	True
AAACCCACATGTAACC-1	0.019761	False
AAACCCAGTGAGTCAG-1	0.031399	False
AAACCCAGTGCTTATG-1	0.027550	False
AAACGAACAGTCAGTT-1	0.368680	True
...	...	...
TTTGTTGGTCCGTACG-1	0.029041	False
TTTGTTGGTCGGAACA-1	0.019189	False
TTTGTTGGTTTACGAC-1	0.109827	False
TTTGTTGTCGTTATCT-1	0.040512	False
TTTGTTGTCTTTGCTA-1	0.054908	False

Doublet identification in 10k PBMC dataset using scrublet¶