{"id":289848,"date":"2018-09-25T01:50:03","date_gmt":"2018-09-24T21:50:03","guid":{"rendered":"http:\/\/savepearlharbor.com\/?p=289848"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=289848","title":{"rendered":"Data mining Pubmed \u0438 Pubchem \u0431\u0430\u0437 \u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u043e\u0439 \u0438 \u0431\u0438\u043e\u0445\u0438\u043c\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438"},"content":{"rendered":"\n<div class=\"post__text post__text-html js-mediator-article\"><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pubmed\/\">PubMed<\/a> \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u0431\u043e\u043b\u0435\u0435 \u0447\u0435\u043c 28 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0446\u0438\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0438\u0439 (\u0430\u0431\u0441\u0442\u0440\u0430\u043a\u0442\u043e\u0432 \u0438 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439) \u0431\u0438\u043e\u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u043e\u0439 \u043b\u0438\u0442\u0435\u0440\u0430\u0442\u0443\u0440\u044b \u0438\u0437 \u0436\u0443\u0440\u043d\u0430\u043b\u043e\u0432 \u043d\u0430\u0443\u043a \u043e \u0436\u0438\u0437\u043d\u0438, \u043e\u043d\u043b\u0430\u0439\u043d \u043a\u043d\u0438\u0433 \u0438 MEDLINE. \u0422\u0430\u043a\u0436\u0435 \u0446\u0438\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043c\u043e\u0436\u0435\u0442 \u0432\u043a\u043b\u044e\u0447\u0430\u0442\u044c \u0432 \u0441\u0435\u0431\u044f \u043f\u043e\u043b\u043d\u044b\u0439 \u0442\u0435\u043a\u0441\u0442 \u0441\u0442\u0430\u0442\u0435\u0439.<br \/>  \u0422\u0438\u043f\u0438\u0447\u043d\u044b\u0439 \u0437\u0430\u043f\u0440\u043e\u0441 \u0432 \u041f\u0430\u0431\u043c\u0435\u0434 \u2014 <a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pubmed\/?term=type+2+diabetes++natural+compound\">type 2 diabetes natural compound<\/a><\/p>\n<p>  <a href=\"https:\/\/pubchem.ncbi.nlm.nih.gov\/#\">Pubchem<\/a> \u2014 \u0431\u0430\u0437\u0430 \u0434\u0430\u043d\u043d\u044b\u0445 \u0431\u043e\u043b\u0435\u0435 100 \u043c\u043b\u043d \u0445\u0438\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439 \u0438 236 \u043c\u043b\u043d \u0432\u0435\u0449\u0435\u0441\u0442\u0432. \u0422\u0430\u043a\u0436\u0435 \u0432 \u0431\u0430\u0437\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0431\u0438\u043e\u0430\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u0438 1.25 \u043c\u043b\u043d \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439 (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0430\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439 \u043f\u0440\u043e\u0442\u0438\u0432 \u0440\u0430\u043a\u0430 \u0438\u043b\u0438 \u0438\u043d\u0433\u0438\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e\u0433\u043e \u0433\u0435\u043d\u0430).<br \/>  \u041d\u0430 \u0434\u0430\u043d\u043d\u044b\u0439 \u043c\u043e\u043c\u0435\u043d\u0442 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u043e \u043e 9 \u043c\u043b\u043d \u043e\u0440\u0433\u0430\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0445\u0438\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439 (\u0441\u043b\u043e\u0436\u043d\u044b\u0445 \u0432\u0435\u0449\u0435\u0441\u0442\u0432). \u041d\u0435\u043e\u0440\u0433\u0430\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0445\u0438\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0432\u0435\u0449\u0435\u0441\u0442\u0432 \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043e\u0433\u0440\u043e\u043c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u2014 \u043e\u0442 10**18<\/p>\n<p>  \u0412 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u044f \u043f\u0440\u0438\u0432\u0435\u0434\u0443 \u043f\u0440\u0438\u043c\u0435\u0440\u044b \u0441\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0441\u043f\u0438\u0441\u043a\u0430 <b>\u0433\u0435\u043d\u043e\u0432 \u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0445 \u0437\u0430 \u043f\u043b\u043e\u0445\u043e\u0439 \u043f\u0440\u043e\u0433\u043d\u043e\u0437 \u043f\u043e \u0432\u044b\u0436\u0438\u0432\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u0440\u0430\u043a\u0430<\/b> \u0438 <b>\u043a\u043e\u0434 \u043f\u043e\u0438\u0441\u043a\u0430 \u043e\u0440\u0433\u0430\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439<\/b> \u0438 \u0438\u0445 \u043d\u043e\u043c\u0435\u0440\u043e\u0432 \u0441\u0440\u0435\u0434\u0438 \u0432\u0441\u0435\u0445 \u0445\u0438\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u043c\u043e\u043b\u0435\u043a\u0443\u043b \u0431\u0430\u0437\u044b \u041f\u0430\u0431\u0427\u0435\u043c. \u041d\u0438\u043a\u0430\u043a\u043e\u0433\u043e \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043d\u0435 \u0431\u0443\u0434\u0435\u0442 (\u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043f\u043e\u043d\u0430\u0434\u043e\u0431\u0438\u0442\u0441\u044f \u0432 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0445 \u0441\u0442\u0430\u0442\u044c\u044f \u043f\u043e \u0431\u0438\u043e\u043c\u0430\u0440\u043a\u0435\u0440\u0430\u043c \u0434\u0438\u0430\u0431\u0435\u0442\u0430, \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0432\u043e\u0437\u0440\u0430\u0441\u0442\u0430 \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0430 \u043f\u043e \u0440\u043d\u043a-\u044d\u043a\u0441\u043f\u0440\u0435\u0441\u0438\u0438, \u0441\u043a\u0440\u0438\u043d\u0438\u043d\u0433\u0430 \u043f\u0440\u043e\u0442\u0438\u0432\u043e\u0440\u0430\u043a\u043e\u0432\u044b\u0445 \u0432\u0435\u0449\u0435\u0441\u0442\u0432)<br \/>  <a name=\"habracut\"><\/a><\/p>\n<p>  \u0414\u043b\u044f \u0442\u043e\u0433\u043e \u0447\u0442\u043e\u0431\u044b \u043f\u0440\u043e\u0434\u043e\u043b\u0436\u0438\u0442\u044c \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043c \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0435 python \u043f\u0430\u043a\u0435\u0442\u044b Biopython \u0438 pubchempy<\/p>\n<pre><code class=\"bash\">sudo conda install biopython  pip install pubchempy<\/code><\/pre>\n<h2>PubMed<\/h2>\n<p>  \u041c\u0430\u0439\u043d\u0438\u0442\u044c \u043c\u044b \u0431\u0443\u0434\u0435\u043c \u0433\u0435\u043d\u044b \u043d\u0430 \u0438\u0445 \u043e\u0432\u0435\u0440-\u044d\u043a\u0441\u043f\u0440\u0435\u0441\u0441\u0438\u044e \u0438 \u043d\u0435\u0434\u043e-\u044d\u043a\u0441\u043f\u0440\u0435\u0441\u0441\u0438\u044e \u0432 \u0441\u043e\u0447\u0435\u0442\u0430\u043d\u0438\u0438 \u0441 \u043f\u043b\u043e\u0445\u0438\u043c \u043f\u0440\u043e\u0433\u043d\u043e\u0437\u043e\u043c \u0440\u0430\u043a\u0430 \u2014 \u0432\u043e\u0442 \u0442\u0430\u043a \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0442\u0438\u043f\u0438\u0447\u043d\u044b\u0439 \u0442\u0438\u0442\u043b, \u0437\u0430\u043f\u0440\u043e\u0441 \u0432 \u043f\u0430\u0431\u043c\u0435\u0434 \u0438 \u0446\u0435\u043b\u0435\u0432\u043e\u0439 \u0433\u0435\u043d:<\/p>\n<p>  (&#8216;High expression of DEK predicts poor prognosis of gastric adenocarcinoma.&#8217;, &#8216;DEK poor prognosis&#8217;, &#8216;DEK&#8217;, 277, 15)<\/p>\n<p>  \u0414\u043b\u044f \u0447\u0435\u0433\u043e \u044d\u0442\u043e \u043d\u0443\u0436\u043d\u043e \u2014 \u043f\u043e \u0433\u0435\u043d\u0430\u043c \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u0434\u0441\u0447\u0438\u0442\u0430\u0442\u044c \u0444\u0430\u0440\u043c\u0430\u043a\u043e\u043b\u043e\u0433\u0438\u0447\u0435\u0441\u043a\u043e\u0435 \u0434\u0435\u0439\u0441\u0442\u0432\u0438\u0435 \u043c\u043e\u043b\u0435\u043a\u0443\u043b \u0438 \u0438\u0445 \u043a\u043e\u043c\u0431\u0438\u043d\u0430\u0446\u0438\u0439 \u043d\u0430 \u0446\u0435\u043b\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0441\u0432\u044f\u0437\u0430\u043d\u044b \u0441 \u043f\u043b\u043e\u0445\u0438\u043c \u043f\u0440\u043e\u0433\u043d\u043e\u0437\u043e\u043c \u0440\u0430\u043a\u0430. (\u041d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u043f\u043e \u0431\u0430\u0437\u0435 pubchem \u0438\u043b\u0438 LINCS)<\/p>\n<p>  \u041f\u043e\u0434\u0433\u0440\u0443\u0436\u0430\u0435\u043c \u0444\u0430\u0439\u043b\u044b \u0441 \u0438\u043c\u0435\u043d\u0430\u043c\u0438 \u0433\u0435\u043d\u043e\u0432 (\u043e\u043a\u043e\u043b\u043e 12000) <a href=\"https:\/\/github.com\/a-nai\/pubmed_mining\">https:\/\/github.com\/a-nai\/pubmed_mining<\/a><\/p>\n<pre><code class=\"python\">import csv genes=[];  with open('\/Users\/andrejeremcuk\/Downloads\/genes.txt', 'r') as fp :     reader = csv.reader(fp, delimiter='\\t')     for i in range(20000):       genes.append(reader.next())  import time import numpy as np genesq=np.genfromtxt('\/Users\/andrejeremcuk\/Downloads\/genesq.txt',dtype='str') <\/code><\/pre>\n<p>  \u0414\u043b\u044f \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u0432 \u043f\u0430\u0431\u043c\u0435\u0434 \u043e\u0431\u044f\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u043e \u0443\u043a\u0430\u0437\u0430\u0442\u044c \u0441\u0432\u043e\u044e \u044d\u043b\u0435\u043a\u0442\u0440\u043e\u043d\u043d\u0443\u044e \u043f\u043e\u0447\u0442\u0443<\/p>\n<pre><code class=\"python\">from Bio import Entrez from Bio import Medline  MAX_COUNT = 100 Entrez.email = '*@yandex.ru' articles=[];genes_cancer_poor=[];genes_cancer_poor1=[];<\/code><\/pre>\n<p>  \u0417\u0430\u043f\u0440\u043e\u0441\u044b \u0438 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0430 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u043e\u0432<\/p>\n<pre><code class=\"python\">for u in range(0,len(genesq)):  print u  if u%100==0:    np.savetxt('\/Users\/andrejeremcuk\/Downloads\/genes_cancer_poor.txt', genes_cancer_poor,fmt='%s');   np.savetxt('\/Users\/andrejeremcuk\/Downloads\/genes_cancer_poor1.txt', genes_cancer_poor1, fmt='%s')  gene=genesq[u];genefullname=genes[u][2]  TERM=gene+' '+'poor prognosis'  try: h=Entrez.esearch(db='pubmed', retmax=MAX_COUNT, term=TERM)  except: time.sleep(5);h=Entrez.esearch(db='pubmed', retmax=MAX_COUNT, term=TERM)  result = Entrez.read(h)  ids = result['IdList']  h = Entrez.efetch(db='pubmed', id=ids, rettype='medline', retmode='text')  ret = Medline.parse(h)  fer=[];  for re in ret:   try: tr=re['TI'];   except: tr='0';   fer.append(tr);<\/code><\/pre>\n<p>  \u041d\u0430\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u0435 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u0442\u0438\u0442\u043b\u0430 \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u0445 \u0441\u043b\u043e\u0432<\/p>\n<pre><code class=\"python\"> for i in range(len(fer)):   gene1=fer[i].find(gene)   gene2=fer[i].find(genefullname)   #####   inc=fer[i].find(\"Increased\")   highe=fer[i].find(\"High expression\")   high=fer[i].find(\"High\")   expr=fer[i].find(\"expression\")   Overe=fer[i].find(\"Overexpression\")   overe=fer[i].find(\"overexpression\")   up1=fer[i].find(\"Up-regulation\")   el1=fer[i].find(\"Elevated expression\")   expr1=fer[i].find(\"Expression of \")   ####   decr=fer[i].find(\"Decreased\")   loss=fer[i].find(\"Loss\")   low1=fer[i].find(\"Low expression\")   low2=fer[i].find(\"Low levels\")   down1=fer[i].find(\"Down-regulated\")   down2=fer[i].find(\"Down-regulated\")   down3=fer[i].find(\"Downregulation\")   #####   acc=fer[i].find(\"accelerates\")   poor=fer[i].find(\"poor patient prognosis\")   poor1=fer[i].find(\"poor prognosis\")   poor2=fer[i].find(\"unfavorable clinical outcomes\")   poor3=fer[i].find(\"unfavorable prognosis\")   poor4=fer[i].find(\"poor outcome\")   poor5=fer[i].find(\"poor survival\")   poor6=fer[i].find(\"poor patient survival\")   poor7=fer[i].find(\"progression and prognosis\")   ###   canc=fer[i].find(\"cancer\")   canc1=fer[i].find(\"carcinoma\")<\/code><\/pre>\n<p>  , \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u043c\u044b \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u0435\u043c \u043d\u0430 \u043f\u043e\u0440\u044f\u0434\u043e\u043a \u0432 \u0442\u0438\u0442\u043b\u0435 \u0438 \u043d\u0430 \u043f\u0440\u0438\u0441\u0443\u0442\u0441\u0442\u0432\u0438\u0435 \u043f\u043e \u043d\u0430\u0438\u0431\u043e\u043b\u0435\u0435 \u0440\u0430\u0441\u043f\u0440\u043e\u0441\u0442\u0440\u0430\u043d\u0435\u043d\u043d\u044b\u043c \u0444\u0440\u0430\u0437\u0430\u043c<\/p>\n<pre><code class=\"python\">  if (gene1!=-1)or(gene2!=-1): #&lt;poor1,poor,poor2,poor3,poor4,poor5,poor6,poor7    if (canc1!=-1)or(canc!=-1):     if (poor!=-1)or(poor1!=-1)or(poor2!=-1)or(poor3!=-1)or(poor4!=-1)or(poor5!=-1)or(poor6!=-1)or(poor7!=-1): #      genel=-1;      if (gene1!=-1): genel=gene1;      if (gene2!=-1): genel=gene2;      gene1=genel;      if (expr!=-1): #&lt;poor1,poor,poor2,poor3,poor4,poor5,poor6,poor7       if (gene1&lt;expr):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,1))      if (low1!=-1)and(gene1!=-1):       if (low1&lt;gene1):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,2))      if (el1!=-1)and(gene1!=-1):       if (el1&lt;gene1):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,3))      if (Overe!=-1)and(gene1!=-1):       if (Overe&lt;gene1):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,4))      if (overe!=-1)and(gene1!=-1):       articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,5))      if (expr1!=-1)and(gene1!=-1):       if (expr1&lt;gene1):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,6))      if (up1!=-1)and(gene1!=-1):       if (up1&lt;gene1):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,7))      if (highe!=-1)and(gene1!=-1):       if (highe&lt;gene1):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,8))      if (high!=-1)and(gene1!=-1)and(expr!=-1):       if (high&lt;gene1&lt;expr):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,9))      if (gene1!=-1)and(expr1!=-1):       if (expr1&lt;gene1):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,10))      if (gene1!=-1)and(inc!=-1):       if (inc&lt;gene1):         articles.append((fer[i],TERM,gene,u,i));genes_cancer_poor.append((gene,u,i,11))      ###########      if (gene1!=-1)and(decr!=-1):       if (decr&lt;gene1):         articles.append((fer[i],TERM,gene,u,i,'low'));genes_cancer_poor1.append((gene,u,i,12))      if (gene1!=-1)and(loss!=-1):       if (loss&lt;gene1):         articles.append((fer[i],TERM,gene,u,i,'low'));genes_cancer_poor1.append((gene,u,i,13))      if (gene1!=-1)and(low1!=-1):       if (low1&lt;gene1):         articles.append((fer[i],TERM,gene,u,i,'low'));genes_cancer_poor1.append((gene,u,i,14))      if (gene1!=-1)and(low2!=-1):       if (low2&lt;gene1):         articles.append((fer[i],TERM,gene,u,i,'low'));genes_cancer_poor1.append((gene,u,i,15))      if (gene1!=-1)and(down1!=-1):       if (down1&lt;gene1):         articles.append((fer[i],TERM,gene,u,i,'low'));genes_cancer_poor1.append((gene,u,i,16))      if (gene1!=-1)and(down2!=-1):       if (down2&lt;gene1):         articles.append((fer[i],TERM,gene,u,i,'low'));genes_cancer_poor1.append((gene,u,i,17))      if (gene1!=-1)and(down3!=-1):       if (down3&lt;gene1):         articles.append((fer[i],TERM,gene,u,i,'low'));genes_cancer_poor1.append((gene,u,i,18))   <\/code><\/pre>\n<p>  \u0412 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u0435 \u043f\u043e\u043b\u0443\u0447\u0430\u0435\u043c \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0441\u043f\u0438\u0441\u043a\u043e\u0432: \u0433\u0435\u043d\u043e\u0432 \u0441 \u043d\u0438\u0437\u043a\u043e\u0439 \u0438 \u0441 \u0432\u044b\u0441\u043e\u043a\u043e\u0439 \u044d\u043a\u0441\u043f\u0440\u0435\u0441\u0441\u0438\u0435\u0439 \u043f\u0440\u0438 \u043f\u043b\u043e\u0445\u043e\u043c \u043f\u0440\u043e\u0433\u043d\u043e\u0437\u0435 \u0440\u0430\u043a\u0430.<\/p>\n<p>  \u0412\u0441\u0435\u0433\u043e \u043d\u0430\u0448\u043b\u043e\u0441\u044c 913 \u0441\u0442\u0430\u0442\u0435\u0439 \u0441 \u0432\u0445\u043e\u0436\u0434\u0435\u043d\u0438\u0435 \u043a\u0430\u043a \u043a\u043b\u044e\u0447\u0435\u0432\u044b\u0445 \u0441\u043b\u043e\u0432 \u0442\u0430\u043a \u0438 \u0446\u0435\u043b\u0435\u0432\u044b\u0445 \u0444\u0440\u0430\u0437.<\/p>\n<h2>PubChem<\/h2>\n<p>  \u042d\u0442\u0430 \u0431\u0430\u0437\u0430 \u0434\u0430\u043d\u043d\u044b\u0445 \u043f\u0440\u0435\u0434\u043e\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0434\u0432\u0430 \u0441\u043f\u043e\u0441\u043e\u0431\u0430 \u0434\u043e\u0441\u0442\u0443\u043f\u0430 \u043a \u0441\u0432\u043e\u0435\u0439 \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u0438: <a href=\"https:\/\/pubchemdocs.ncbi.nlm.nih.gov\/pug-rest\">\u0447\u0435\u0440\u0435\u0437 REST API \u0432 \u0444\u043e\u0440\u043c\u0430\u0442\u0435 json<\/a> \u0433\u0434\u0435 \u0437\u0430\u043f\u0440\u043e\u0441 \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0442\u0430\u043a:<br \/>  <a href=\"https:\/\/pubchem.ncbi.nlm.nih.gov\/rest\/pug\/compound\/cid\/2516\/description\/json\">https:\/\/pubchem.ncbi.nlm.nih.gov\/rest\/pug\/compound\/cid\/2516\/description\/json<\/a> <br \/>  \u0412\u0430\u0436\u043d\u043e \u0437\u0430\u043f\u0440\u043e\u0441\u043e\u0432 \u0447\u0435\u0440\u0435\u0437 \u044d\u0442\u043e\u0442 \u043f\u0443\u0442\u044c \u043d\u0435 \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u0431\u043e\u043b\u044c\u0448\u0435 5 \u0432 \u0441\u0435\u043a\u0443\u043d\u0434\u0443, \u043d\u043e \u043f\u043e\u043a\u0430 \u043f\u0440\u0435\u0432\u044b\u0448\u0435\u043d\u0438\u0435 \u043b\u0438\u043c\u0438\u0442\u043e\u0432 \u044f \u043d\u0435 \u043f\u0440\u043e\u0432\u0435\u0440\u044f\u043b, \u0434\u043e\u043b\u0436\u043d\u044b \u0441\u043f\u0430\u0441\u0442\u0438 \u043f\u0440\u043e\u043a\u0441\u0438.<\/p>\n<p>  \u0438 \u0447\u0435\u0440\u0435\u0437 \u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0443 pubchempy  <\/p>\n<pre><code class=\"python\">import pubchempy as pcp c = pcp.Compound.from_cid(5090) c.canonical_smiles<\/code><\/pre>\n<p>  \u0438\u043c\u043f\u043e\u0440\u0442 \u043d\u0435\u043e\u0431\u0445\u043e\u0434\u0438\u043c\u044b\u0445 \u043f\u0430\u043a\u0435\u0442\u043e\u0432 PUG REST API<\/p>\n<pre><code class=\"python\">import re import urllib, json, time import numpy as np<\/code><\/pre>\n<p>  \u0444\u0443\u043d\u043a\u0446\u0438\u044f \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043e\u0447\u0438\u0449\u0430\u0435\u0442 \u0442\u0435\u043a\u0441\u0442 \u043e\u0442 \u0445\u0442\u043c\u043b \u0442\u044d\u0433\u043e\u0432<\/p>\n<pre><code class=\"python\">def cleanhtml(raw_html):   cleanr = re.compile('&lt;.*?&gt;')   cleantext = re.sub(cleanr, '', raw_html)   return cleantext<\/code><\/pre>\n<p>  \u0412 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0435\u043c \u043a\u043e\u0434\u0435 \u043c\u044b \u0431\u0443\u0434\u0435\u043c \u043e\u0442\u043a\u0440\u044b\u0432\u0430\u0442\u044c \u0430\u043d\u0433\u043b\u043e\u044f\u0437\u044b\u0447\u043d\u044b\u0435 \u043e\u043f\u0438\u0441\u0430\u043d\u0438\u0435 \u043c\u043e\u043b\u0435\u043a\u0443\u043b \u043e\u0442 1 \u0434\u043e 100000 \u043d\u043e\u043c\u0435\u0440\u0430 \u0432 pubchem \u0438 \u0438\u0441\u043a\u0430\u0442\u044c \u043d\u0430\u043c\u0435\u043a\u0438 \u0447\u0442\u043e \u044d\u0442\u0430 \u043c\u043e\u043b\u0435\u043a\u0443\u043b\u0430 \u0438\u043c\u0435\u0435\u0442 \u043e\u0440\u0433\u0430\u043d\u0438\u0447\u0435\u0441\u043a\u0443\u044e \u043f\u0440\u0438\u0440\u043e\u0434\u0443 (\u043e\u0442 \u0440\u0430\u0441\u0442\u0435\u043d\u0438\u044f \u0436\u0438\u0432\u043e\u0442\u043d\u043e\u0433\u043e \u0438\u043b\u0438 \u0432 \u0441\u043e\u0441\u0442\u0430\u0432\u0435 \u043d\u0430\u043f\u0438\u0442\u043a\u0430), \u043f\u0440\u0438 \u044d\u0442\u043e\u043c \u043e\u043d\u043e \u043d\u0435 \u0442\u043e\u043a\u0441\u0438\u0447\u043d\u043e \u0438 \u043d\u0435 \u043a\u0430\u043d\u0446\u0435\u0440\u043e\u0433\u0435\u043d\u043d\u043e <\/p>\n<pre><code class=\"python\"> natural=[]; for i in range(1,100000):  url = \"https:\/\/pubchem.ncbi.nlm.nih.gov\/rest\/pug\/compound\/cid\/\"+str(i)+\"\/description\/json\"  time.sleep(0.2)  try: response = urllib.urlopen(url)  except: time.sleep(12);response = urllib.urlopen(url)  data = json.loads(response.read())  op=0;ol=0;ot=0;  try:   for u in range(1,len(data['InformationList']['Information'])):    soup=str(data['InformationList']['Information'][u]['Description'])    soup1=cleanhtml(soup)     if (soup1.find('carcinogen')!=-1)or(soup1.find('death')!=-1)or(soup1.find('damage')!=-1): break;    if (soup1.find('toxic')!=-1): break;    if (soup1.find(' plant')!=-1)and(op!=9)and(soup1.find('planting')==-1):      natural.append((i,'plant',str(data['InformationList']['Information'][0]['Title'])));op=9;    if (soup1.find(' beverages')!=-1)and(ot!=9):      natural.append((i,'beverages',str(data['InformationList']['Information'][0]['Title'])));ot=9;    if (soup1.find(' animal')!=-1)and(ol!=9):      natural.append((i,'animal',str(data['InformationList']['Information'][0]['Title'])));ol=9;  except: ii=0;  if i%100==0: print i;np.savetxt('\/Users\/andrejeremcuk\/Downloads\/natural.txt', natural,fmt='%s', delimiter='&lt;')<\/code><\/pre>\n<p>  \u0414\u043b\u044f \u043f\u043e\u0438\u0441\u043a\u0430 \u0443\u043f\u043e\u043c\u0438\u043d\u0430\u043d\u0438\u0439 \u0432 \u0442\u0435\u043a\u0441\u0442\u0435 \u0440\u0430\u0441\u0442\u0435\u043d\u0438\u044f \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c .find(&#8216; plant&#8217;)<\/p>\n<p>  \u0412 \u043a\u043e\u043d\u0446\u0435 \u0441\u043e\u0445\u0440\u0430\u043d\u044f\u0435\u043c \u0444\u0430\u0439\u043b \u0441 \u043f\u043e\u043b\u0443\u0447\u0438\u0432\u0448\u0438\u043c\u0438\u0441\u044f \u043e\u0440\u0433\u0430\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u043c\u0438 \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u044f\u043c\u0438 \u0438 \u0438\u0445 \u043d\u043e\u043c\u0435\u0440\u043e\u0432 \u0432 \u041f\u0430\u0431\u0427\u0435\u043c-\u0435.<\/p>\n<p>  <a href=\"https:\/\/github.com\/a-nai\/pubmed_mining\/tree\/master\">https:\/\/github.com\/a-nai\/pubmed_mining\/tree\/master<\/a><\/div>\n<p>        <script class=\"js-mediator-script\">!function(e){function t(t,n){if(!(n in e)){for(var r,a=e.document,i=a.scripts,o=i.length;o--;)if(-1!==i[o].src.indexOf(t)){r=i[o];break}if(!r){r=a.createElement(\"script\"),r.type=\"text\/javascript\",r.async=!0,r.defer=!0,r.src=t,r.charset=\"UTF-8\";var d=function(){var e=a.getElementsByTagName(\"script\")[0];e.parentNode.insertBefore(r,e)};\"[object Opera]\"==e.opera?a.addEventListener?a.addEventListener(\"DOMContentLoaded\",d,!1):e.attachEvent(\"onload\",d):d()}}}t(\"\/\/mediator.mail.ru\/script\/2820404\/\",\"_mediator\")}(window);<\/script>     <br \/> \u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/post\/424271\/\"> https:\/\/habr.com\/post\/424271\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"\n<div class=\"post__text post__text-html js-mediator-article\"><a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pubmed\/\">PubMed<\/a> \u043f\u0440\u0435\u0434\u0441\u0442\u0430\u0432\u043b\u044f\u0435\u0442 \u0441\u043e\u0431\u043e\u0439 \u0431\u043e\u043b\u0435\u0435 \u0447\u0435\u043c 28 \u043c\u0438\u043b\u043b\u0438\u043e\u043d\u043e\u0432 \u0446\u0438\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u0438\u0439 (\u0430\u0431\u0441\u0442\u0440\u0430\u043a\u0442\u043e\u0432 \u0438 \u043d\u0430\u0437\u0432\u0430\u043d\u0438\u0439) \u0431\u0438\u043e\u043c\u0435\u0434\u0438\u0446\u0438\u043d\u0441\u043a\u043e\u0439 \u043b\u0438\u0442\u0435\u0440\u0430\u0442\u0443\u0440\u044b \u0438\u0437 \u0436\u0443\u0440\u043d\u0430\u043b\u043e\u0432 \u043d\u0430\u0443\u043a \u043e \u0436\u0438\u0437\u043d\u0438, \u043e\u043d\u043b\u0430\u0439\u043d \u043a\u043d\u0438\u0433 \u0438 MEDLINE. \u0422\u0430\u043a\u0436\u0435 \u0446\u0438\u0442\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043c\u043e\u0436\u0435\u0442 \u0432\u043a\u043b\u044e\u0447\u0430\u0442\u044c \u0432 \u0441\u0435\u0431\u044f \u043f\u043e\u043b\u043d\u044b\u0439 \u0442\u0435\u043a\u0441\u0442 \u0441\u0442\u0430\u0442\u0435\u0439.<br \/>  \u0422\u0438\u043f\u0438\u0447\u043d\u044b\u0439 \u0437\u0430\u043f\u0440\u043e\u0441 \u0432 \u041f\u0430\u0431\u043c\u0435\u0434 \u2014 <a href=\"https:\/\/www.ncbi.nlm.nih.gov\/pubmed\/?term=type+2+diabetes++natural+compound\">type 2 diabetes natural compound<\/a><\/p>\n<p>  <a href=\"https:\/\/pubchem.ncbi.nlm.nih.gov\/#\">Pubchem<\/a> \u2014 \u0431\u0430\u0437\u0430 \u0434\u0430\u043d\u043d\u044b\u0445 \u0431\u043e\u043b\u0435\u0435 100 \u043c\u043b\u043d \u0445\u0438\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439 \u0438 236 \u043c\u043b\u043d \u0432\u0435\u0449\u0435\u0441\u0442\u0432. \u0422\u0430\u043a\u0436\u0435 \u0432 \u0431\u0430\u0437\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b \u0431\u0438\u043e\u0430\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u0438 1.25 \u043c\u043b\u043d \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439 (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440 \u0430\u043a\u0442\u0438\u0432\u043d\u043e\u0441\u0442\u044c \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439 \u043f\u0440\u043e\u0442\u0438\u0432 \u0440\u0430\u043a\u0430 \u0438\u043b\u0438 \u0438\u043d\u0433\u0438\u0431\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u044f \u043a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u043e\u0433\u043e \u0433\u0435\u043d\u0430).<br \/>  \u041d\u0430 \u0434\u0430\u043d\u043d\u044b\u0439 \u043c\u043e\u043c\u0435\u043d\u0442 \u0438\u0437\u0432\u0435\u0441\u0442\u043d\u043e \u043e 9 \u043c\u043b\u043d \u043e\u0440\u0433\u0430\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0445\u0438\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439 (\u0441\u043b\u043e\u0436\u043d\u044b\u0445 \u0432\u0435\u0449\u0435\u0441\u0442\u0432). \u041d\u0435\u043e\u0440\u0433\u0430\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0445\u0438\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0432\u0435\u0449\u0435\u0441\u0442\u0432 \u043c\u043e\u0436\u0435\u0442 \u0431\u044b\u0442\u044c \u043e\u0433\u0440\u043e\u043c\u043d\u043e\u0435 \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e \u2014 \u043e\u0442 10**18<\/p>\n<p>  \u0412 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u044f \u043f\u0440\u0438\u0432\u0435\u0434\u0443 \u043f\u0440\u0438\u043c\u0435\u0440\u044b \u0441\u043e\u0441\u0442\u0430\u0432\u043b\u0435\u043d\u0438\u044f \u0441\u043f\u0438\u0441\u043a\u0430 <b>\u0433\u0435\u043d\u043e\u0432 \u043e\u0442\u0432\u0435\u0442\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0445 \u0437\u0430 \u043f\u043b\u043e\u0445\u043e\u0439 \u043f\u0440\u043e\u0433\u043d\u043e\u0437 \u043f\u043e \u0432\u044b\u0436\u0438\u0432\u0430\u0435\u043c\u043e\u0441\u0442\u0438 \u043e\u0442 \u0440\u0430\u043a\u0430<\/b> \u0438 <b>\u043a\u043e\u0434 \u043f\u043e\u0438\u0441\u043a\u0430 \u043e\u0440\u0433\u0430\u043d\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0441\u043e\u0435\u0434\u0438\u043d\u0435\u043d\u0438\u0439<\/b> \u0438 \u0438\u0445 \u043d\u043e\u043c\u0435\u0440\u043e\u0432 \u0441\u0440\u0435\u0434\u0438 \u0432\u0441\u0435\u0445 \u0445\u0438\u043c\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u043c\u043e\u043b\u0435\u043a\u0443\u043b \u0431\u0430\u0437\u044b \u041f\u0430\u0431\u0427\u0435\u043c. \u041d\u0438\u043a\u0430\u043a\u043e\u0433\u043e \u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0433\u043e \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u044f \u0432 \u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u043d\u0435 \u0431\u0443\u0434\u0435\u0442 (\u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0435 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u043f\u043e\u043d\u0430\u0434\u043e\u0431\u0438\u0442\u0441\u044f \u0432 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0445 \u0441\u0442\u0430\u0442\u044c\u044f \u043f\u043e \u0431\u0438\u043e\u043c\u0430\u0440\u043a\u0435\u0440\u0430\u043c \u0434\u0438\u0430\u0431\u0435\u0442\u0430, \u043e\u043f\u0440\u0435\u0434\u0435\u043b\u0435\u043d\u0438\u044f \u0432\u043e\u0437\u0440\u0430\u0441\u0442\u0430 \u0447\u0435\u043b\u043e\u0432\u0435\u043a\u0430 \u043f\u043e \u0440\u043d\u043a-\u044d\u043a\u0441\u043f\u0440\u0435\u0441\u0438\u0438, \u0441\u043a\u0440\u0438\u043d\u0438\u043d\u0433\u0430 \u043f\u0440\u043e\u0442\u0438\u0432\u043e\u0440\u0430\u043a\u043e\u0432\u044b\u0445 \u0432\u0435\u0449\u0435\u0441\u0442\u0432)  <\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-289848","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/289848","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=289848"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/289848\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=289848"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=289848"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=289848"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}