Load data

lf = tm.LSHForest(256, 128)
mh_encoder = tm.Minhash()

with open('../data/rxnclass2name.json', 'r') as f:
    rxnclass2name = json.load(f)

schneider_df = pd.read_csv('../data/schneider50k.tsv', sep='\t', index_col=0)
ft_10k_fps = np.load('../data/fps_ft.npz')['fps']
schneider_df['mhfp'] =  [mh_encoder.from_weight_array(fp.tolist(), method="I2CWS") for fp in tqdm(ft_10k_fps)]

100%|██████████| 50000/50000 [00:15<00:00, 3194.60it/s]

Initiate LSHForest with training set fingerprints

train_df = schneider_df[schneider_df.split=='train']
train_df.reset_index(inplace=True)
lf.batch_add(train_df.mhfp.values.tolist())
lf.index()

Query for similar reactions

for i, row in schneider_df[schneider_df.split=='test'].sample(n=10, random_state=42).iterrows():
    print('------------------------------------------------------------------------------------------------')
    print('Query: Reaction class - {} {}'.format(row['rxn_class'], rxnclass2name[row['rxn_class']]))
    display(AllChem.ReactionFromSmarts(row['rxn'], useSmiles=True))
    print(row['rxn'])
    print('------------------------------------------------------------------------------------------------')
    print()
    
    nns = lf.query_linear_scan(row['mhfp'], 3, kc=200)
    for n, (_, j) in enumerate(nns):
        rxn = train_df.iloc[j]['rxn']
        display(AllChem.ReactionFromSmarts(rxn, useSmiles=True))
        print(rxn)
              
        print('NN-{} - {} {}'.format(n+1, train_df.iloc[j]['rxn_class'], rxnclass2name[train_df.iloc[j]['rxn_class']]))
        
    print()
    print()
    print()

------------------------------------------------------------------------------------------------
Query: Reaction class - 5.1.1 N-Boc protection

CC#N.CC(C)(C)OC(=O)C[C@H]1C[C@@H](C(=O)Nc2ccccc2)n2c1ncc(N(Cc1ccccc1)C(=O)OCc1ccccc1)c2=O.CCOC(C)=O.CN(C)c1ccncc1>>CC(C)(C)OC(=O)C[C@H]1C[C@@H](C(=O)N(C(=O)OC(C)(C)C)c2ccccc2)n2c1ncc(N(Cc1ccccc1)C(=O)OCc1ccccc1)c2=O
------------------------------------------------------------------------------------------------

CC(=O)O.CC(C)(C)OC(=O)OC(=O)OC(C)(C)C.CC1(C)CCC(N)CC1.CC1(C)CCC(NCc2ccc(Oc3cc(N)c([N+](=O)[O-])cc3C(F)(F)F)cc2)CC1.CO.Nc1cc(Oc2ccc(C=O)cc2)c(C(F)(F)F)cc1[N+](=O)[O-].[BH3-]C#N.[CH2]C.[Na+]>>CC1(C)CCC(N(Cc2ccc(Oc3cc(N)c([N+](=O)[O-])cc3C(F)(F)F)cc2)C(=O)OC(C)(C)C)CC1
NN-1 - 5.1.1 N-Boc protection

C1CCOC1.CC(C)(C)OC(=O)OC(=O)OC(C)(C)C.CCN(C(C)C)C(C)C.CO.ClCCl.N#Cc1ccc(N)cn1.Nc1ccc(C(=O)O)nc1>>CC(C)(C)OC(=O)Nc1ccc(C(=O)O)nc1
NN-2 - 5.1.1 N-Boc protection

CC#N.CC(C)(C)OC(=O)OC(=O)OC(C)(C)C.CCN(CC)CC.C[C@@H](OCc1ccccc1)[C@H]1COCC(=O)N1.c1c[nH]cn1>>C[C@@H](OCc1ccccc1)[C@H]1COCC(=O)N1C(=O)OC(C)(C)C
NN-3 - 5.1.1 N-Boc protection


------------------------------------------------------------------------------------------------
Query: Reaction class - 3.1.5 Bromo Suzuki-type coupling

CCN(CC)CCn1cc(B2OC(C)(C)C(C)(C)O2)cn1.CCOP(=O)(Cc1ccc(Nc2ncc(C(F)(F)F)c(Nc3ccc(Br)cc3C(=O)NC)n2)cc1)OCC>>CCOP(=O)(Cc1ccc(Nc2ncc(C(F)(F)F)c(Nc3ccc(-c4cnn(CCN(CC)CC)c4)cc3C(=O)NC)n2)cc1)OCC
------------------------------------------------------------------------------------------------

CC(C)(C)NS(=O)(=O)c1ccc(B2OC(C)(C)C(C)(C)O2)s1.Fc1cc(C(F)(F)F)ccc1-c1cc(C(F)(F)F)nc(-c2cccc(Br)c2)n1>>CC(C)(C)NS(=O)(=O)c1ccc(-c2cccc(-c3nc(-c4ccc(C(F)(F)F)cc4F)cc(C(F)(F)F)n3)c2)s1
NN-1 - 3.1.5 Bromo Suzuki-type coupling

CC(=O)Nc1ccc(B2OC(C)(C)C(C)(C)O2)cn1.CC(C)(CO)c1ccc(C(=O)Nc2nc3ccc(Br)nc3s2)cc1>>CC(=O)Nc1ccc(-c2ccc3nc(NC(=O)c4ccc(C(C)(C)CO)cc4)sc3n2)cn1
NN-2 - 3.1.5 Bromo Suzuki-type coupling

CCN(C(=O)OC(C)(C)C)c1cc(B2OC(C)(C)C(C)(C)O2)cnc1COC(C)=O.Cc1nn(C)cc1-n1c(=O)n(C)c2cnc3ccc(Br)cc3c21>>CCN(C(=O)OC(C)(C)C)c1cc(-c2ccc3ncc4c(c3c2)n(-c2cn(C)nc2C)c(=O)n4C)cnc1COC(C)=O
NN-3 - 3.1.5 Bromo Suzuki-type coupling


------------------------------------------------------------------------------------------------
Query: Reaction class - 10.2.1 Nitration

CC(C)c1ccccc1O.O.O=[N+]([O-])O>>CC(C)c1cccc([N+](=O)[O-])c1O
------------------------------------------------------------------------------------------------

Results - Reaction search example

Load data

Initiate LSHForest with training set fingerprints

Query for similar reactions