आज की करंट अफेयर्स में एक नई रिसर्च पेपर प्रकाशित हुआ है जिसमें क्लिनिकल स्टेज आर्टिफिशियल इंटेलिजेंस (AI) द्वारा चलाये जा रहे ड्रग डिस्कवरी कंपनी इंसिलिको मेडिसिन (“इंसिलिको”) के शोधकर्ताओं ने नच0 के नाम से एक नया बड़ा भाषा मॉडल (LLM) ट्रांसफॉर्मर प्रस्तुत किया है। यह मल्टी-डोमेन और मल्टी-टास्क एलएम विभिन्न जैविक और रासायनिक कार्यों को हल करने के लिए बनाया गया है। इस रिसर्च की जानकारी केमिकल साइंस जर्नल में प्रकाशित की गई है।
नच0 एक ऐसे भाषा मॉडल का प्रयोग करने के लिए बनाया गया है जो केमिस्ट्री डोमेन के संबंधित टेक्स्ट और रासायनिक संरचना विवरणों को शामिल करता है। इसमें प्यूबम से निकाले गए सारांश टेक्स्ट और यूएस पेटेंट और ट्रेडमार्क ऑफिस से प्राप्त रासायनिक संरचना विवरणों का उपयोग किया गया है। इस डेटासेट का उपयोग करके शोधकर्ताओं ने नच0 को तीन मुख्य कार्यों के लिए प्रशिक्षित किया है: प्राकृतिक भाषा प्रोसेसिंग, रासायनिक कार्यों का निर्धारण और नई रासायनिक अणुओं का उत्पादन।
नच0 को एनविडिया बायोनेमो जेनरेटिव एआई प्लेटफॉर्म पर बनाया गया है जो ड्रग डिस्कवरी अनुप्रयोगों के प्रशिक्षण और स्केलिंग की सुविधा प्रदान करता है। इस शोध टीम ने एनविडिया नेमो का उपयोग करके नच0 के एलएम की प्रशिक्षण और मूल्यांकन किए हैं। इसके अलावा एनविडिया के मेमोरी-मैप्ड डेटा लोडर मॉड्यूल्स शोधकर्ताओं को बड़े डेटासेट को छोटे मेमोरी फुटप्रिंट और आदर्श पठन गति के साथ प्रबंधित करने में मदद करते हैं।
नच0 को एफएलएएन, साइफाइव और मोलटी5 जैसे अन्य एलएलएम की तुलना में अधिकतम लाभ मिला है जब रासायनिक कार्यों को निर्धारित करने की बात आती है। इसे दो मामलों में जांचा गया है, जहां प्रथमतः मधुमेह के खिलाफ प्रभावी रह सकने वाले अणुओं का उत्पादन करना था और दूसरे में इंसिलिको के केमिस्ट्री42 जेनरेटिव एआई ड्रग डिजाइन प्लेटफॉर्म के लिए एक डेमो के रूप में नच0 का उपयोग किया गया।
इंसिलिको मेडिसिन एक आविष्कारी है जो ड्रग डिस्कवरी और विकास के लिए जनरेटिव एआई का उपयोग करती है। कंपनी ने पहली बार 2016 में एक पीयर-रिव्यूड जर्नल में नवीन मोलेक्यूलों का डिजाइन करने के लिए जनरेटिव एआई की संकल्पना की थी। तब से इंसिलिको ने अपने जनरेटिव एडवरसेरियल नेटवर्क (जीएएन) आधारित एआई प्लेटफॉर्म के लिए कई तरीकों और फीचर्स का विकास किया और उन एल्गोरिदमों को वाणिज्यिक रूप में उपलब्ध फार्मा.एआई प्लेटफ़ॉर्म में शामिल किया है, जिसमें जनरेटिव बायोलॉजी, रसायन और चिकित्सा शामिल हैं, और इसका उपयोग फिब्रोसिस, कैंसर, इम्यूनोलॉजी और उम्र से संबंधित बीमारी जैसे कई रोग क्षेत्रों में वादितव्य थेरेप्युटिक एसेट्स के लिए किया गया है।
इंसिलिको ने अपने विस्तृत पोर्टफोलियो में 30 एसेट्स के ऊपर 18 प्रीक्लिनिकल कैंडिडेट्स के नामांकन किए हैं और 6 पाइपलाइन को क्लिनिकल स्टेज तक आगे बढ़ा चुके हैं। इंसिलिको द्वारा आविष्कृत लीड ड्रग – एक प्रथम-इन-क्लास टीएनआईके इंहिबिटर – की प्रीक्लिनिकल और क्लिनिकल मूल्यांकन के अभ्यास के बारे में मार्च 2024 में नेचर बायोटेक्नोलॉजी में एक पेपर प्रकाशित हुआ है।
Question 1:
नच0 मॉडल क्या है?
- एक औषधि खोज करने के लिए एक आर्टिफिशियल इंटेलिजेंस टूल
- एक नया भाषा मॉडल जो जैविक और रासायनिक कार्यों को हल करता है
- एक ड्रग डिस्कवरी कंपनी द्वारा विकसित एक विज्ञान का उपयोग करने वाला ट्रांसफॉर्मर
- एक नया भाषा मॉडल जो समस्याओं का समाधान करने के लिए बनाया गया है
Answer: एक नया भाषा मॉडल जो जैविक और रासायनिक कार्यों को हल करता है
Question 2:
नच0 मॉडल को किस डेटासेट से प्रशिक्षित किया गया है?
- यूएस पेटेंट व ट्रेडमार्क ऑफिस के पेटेंट व संपत्ति विवरण से
- पबमेड से अभिलेख भाषा और यूएस पेटेंट व ट्रेडमार्क ऑफिस से पेटेंट विवरण से
- पबमेड से अभिलेख भाषा और रसायन डोमेन के लिए खोजा गया डेटासेट से
- पबमेड से अभिलेख भाषा और वाणिज्यिक डोमेन के लिए खोजा गया डेटासेट से
Answer: यूएस पेटेंट व ट्रेडमार्क ऑफिस के पेटेंट व संपत्ति विवरण से
Question 3:
नच0 मॉडल को कौनसे कार्यों के लिए प्रशिक्षित किया गया है?
- केवल प्राकृतिक भाषा समझने के लिए
- भाषा और रासायनिक कार्यों के लिए दोनों
- साधारण भाषा समझने के लिए
- भाषा, रासायनिक और जीवविज्ञान संबंधित कार्यों के लिए
Answer: भाषा, रासायनिक और जीवविज्ञान संबंधित कार्यों के लिए
Question 4:
नच0 मॉडल किस जीनेटिव एआई प्लेटफॉर्म पर बनाया गया है?
- NVIDIA BioNeMo
- Insilico Medicine
- Pharma.AI
- NVIDIA NeMo
Answer: NVIDIA BioNeMo
Question 1: What is nach0?
Nach0 is a large language model (LLM) transformer developed by Insilico Medicine and NVIDIA. It is designed to solve biological and chemical tasks by using natural language prompts. It was trained on a diverse set of tasks, including natural language understanding, synthetic route prediction, and molecular generation.
Question 2: How is nach0 different from other LLMs?
Nach0 is different from other LLMs because it includes both text and chemical structure descriptions. While other LLMs focus on biomedical natural language texts, nach0 incorporates chemical information from abstract texts extracted from PubMed and patent descriptions. This allows nach0 to perform diverse chemical tasks in addition to biomedical tasks.
Question 3: What dataset was used to train nach0?
The researchers used a dataset that included abstract texts extracted from PubMed and patent descriptions from the U.S. Patent and Trademark Office. This dataset consisted of 100 million documents, which were transformed into 355 million tokens worth of abstracts and 2.9 billion patents. The dataset also included molecular structures described using the simplified molecular-input line-entry system (SMILES).
Question 4: What tasks can nach0 perform?
Nach0 can perform three key tasks: natural language processing (document classification and question answering), chemistry-related tasks (molecular property prediction, molecular generation, and reagent prediction), and cross-domain tasks (description-guided molecule design and molecular description generation).
Question 5: How was nach0 trained and evaluated?
Nach0 was trained using the NVIDIA BioNeMo generative AI platform, specifically the NVIDIA NeMo end-to-end platform. The training involved leveraging natural language processing (NLP) capabilities to train and evaluate the model’s language models (LMs). NVIDIA’s memory-mapped data loader modules were used to manage large datasets with small memory footprints and optimal reading speed.
Question 6: How does nach0 compare to other LLMs in terms of performance?
Nach0 was found to have distinct advantages over other LLMs, such as FLAN, SciFive, and MolT5, when performing molecular tasks using molecular data. It also significantly outperformed ChatGPT.
Question 7: Can nach0 generate molecules with therapeutic potential?
Yes, nach0 has been tested in case studies to generate molecules with potential therapeutic activity. In one case study focused on Diabetes mellitus, nach0 generated 200 SMILES on the molecule generation prompt and selected one structure as the most promising from a chemical expert knowledge perspective. Nach0 was also applied to a demo case study for Insilico’s Chemistry42 generative AI drug design platform, generating 8 molecules satisfying the prompt in just 15 minutes for generation and 30 minutes for scoring.
Question 8: What are the future possibilities for nach0?
The researchers anticipate that as nach0 evolves, it will require less supervision and be able to generate and validate promising therapeutic options for medicinal chemists. They also foresee the potential inclusion of protein sequences with their own special tokens and fine-tuning the model to accommodate new modalities. Additionally, they are exploring the fusion of information from text and knowledge graphs.
Question 9: What is the background of Insilico Medicine in generative AI for drug discovery?
Insilico Medicine is a pioneer in using generative AI for drug discovery and development. The company first described the concept of using generative AI to design novel molecules in a peer-reviewed journal in 2016. They have developed and validated multiple approaches and features for their generative adversarial network (GAN)-based AI platform, which is integrated into the commercially available Pharma.AI platform. Insilico has produced a robust pipeline of promising therapeutic assets in multiple disease areas and has advanced several pipelines to the clinical stage.
Question 10: Where can the full research paper on nach0 be found?
The full research paper on nach0, titled “nach0: Multimodal Natural and Chemical Languages Foundation Model,” can be found in the Chemical Science Journal. The DOI for the paper is doi.org/10.1039/d4sc00966e.
आज की समय की वर्तमान मामलों के बारे में एक रोचक और अद्वितीय संक्षिप्त समाचार है कि नई शोध में, क्लिनिकल स्टेज के कृत्रिम बुद्धिमत्ता (AI) द्वारा ड्रग डिस्कवरी कंपनी इंसिलिको मेडिसिन ("इंसिलिको") के शोधकर्ताओं ने, NVIDIA के सहयोग से, एक नया बड़ा भाषा मॉडल (LLM) ट्रांसफ़ॉर्मर पेश किया है जिसे nach0 कहा जाता है। इस मल्टी-डोमेन और मल्टी-टास्क LLM को विभिन्न कार्यों, प्राकृतिक भाषा समझ, संश्लेषण मार्ग की पूर्वानुमान, और आणविक पीढ़ी के लिए प्रश्नों का उत्तर देने और नई मोलेक्यूलों का संश्लेषण करने के लिए प्रशिक्षित किया गया है। इस अनुसंधान के नतीजे ने केमिकल साइंस जर्नल में प्रकाशित किए गए हैं।
इसके अलावा, बायोमेडिकल खोज के लिए अन्य LLMs भी हैं, जिनमें BioBERT (बायोमेडिकल पाठ माइनिंग के लिए ट्रांसफॉर्मर्स से द्विदिशा संकेतक नमूना) और SciFive शामिल हैं, लेकिन ये डेटासेट मुख्य रूप से बायोमेडिकल प्राकृतिक भाषा पाठों पर आधारित होते हैं, जैसे कि दवाओं, जीनों, और कोशिका पंक्ति के नाम, लेकिन इनमें रासायनिक संरचना विवरण नहीं होते हैं। जो टेक्स्ट और रासायनिक संरचना विवरण दोनों के साथ सामने आए हैं, जैसे Galactica, वे अभी तक विभिन्न रासायनिक कार्यों के लिए प्रशिक्षित नहीं हुए हैं।
Nach0 ने पहली बार इस अंतर को पाटने का प्रयास किया है। इसके लिए एक डेटासेट का उपयोग किया गया है जिसमें पबमेड से निकाले गए संक्षिप्त पाठ और रासायनिक डोमेन से लिए गए पेटेंट विवरण शामिल हैं - 100 मिलियन दस्तावेज़ जिनसे 355 मिलियन टोकन के बराबर संक्षिप्त और 2.9 अरब पेटेंट, और सरलीकृत आणविक मालिश-इनपुट लाइन-एंट्री सिस्टम (एसएमआईएलएस) का उपयोग करके मौलिक संरचनाएं। इस सिस्टम को प्रशिक्षित करने के लिए, शोधकर्ताओं ने इस रासायनिक जानकारी को भी टोकन्स में बदल दिया - 4.7 अरब - और फिर इन टोकन्स को विशेष प्रतीकों के साथ विश्लेषित किया।
इस डेटासेट का उपयोग करके, शोधकर्ताओं ने nach0 को तीन मुख्य कार्यों का प्रदर्शन करने के लिए प्रशिक्षित किया: प्राकृतिक भाषा प्रसंस्करण, जैसे दस्तावेज़ वर्गीकरण और प्रश्नोत्तरी; रासायनिक संबंधित कार्य, जैसे मौलिक संपत्ति की पूर्वानुमान, मोलेक्युलर जनरेशन, और रीएजेंट की पूर्वानुमान; और क्रॉस-डोमेन कार्य, जिसमें संवर्धन-गुइडेड मोलेक्यूल डिज़ाइन और मोलेक्युलर विवरण जनरेशन शामिल हैं।
"Nach0 नेचरल लैंग्वेज प्रांप्ट के माध्यम से ड्रग डिस्कवरी को स्वचालित करने में एक कदम आगे है। भविष्य में, हम प्रोटीन श्रृंखला को उनके अपने विशेष प्रतीकों के साथ शामिल करने और मॉडल को नई मोडालिटी के लिए अनुकूलित करने के लिए उत्तेजित हैं, और पाठ और ज्ञान ग्राफ्स से जानकारी के फ्यूजन का अन्वेषण करने की क्षमता।"
Nach0 NVIDIA BioNeMo पीढ़ी एआई प्लेटफ़ॉर्म पर बना है, जिससे ड्रग डिस्कवरी अनुप्रयोगों को प्रशिक्षित और मापत्रभूत किया जा सकता है। विशेष रूप से, प्रशिक्षण NVIDIA NeMo का उपयोग करके किया गया था, एक अंत-से-अंत प्लेटफ़ॉर्म निर्माण करने के लिए जो उपयोगकर्ता के लिए विशेष रूप से विकसित किया गया है। शोधकर्ताओं ने एनवीडिया के मेमोरी-मैप्ड डेटा लोडर मॉड्यूल का उपयोग करके बड़े डेटासेट्स को छोटे मेमोरी फुटप्रिंट और आदर्श पढ़ने की गति के साथ प्रबंधित करने में सहायता प्राप्त की।
"उत्प्रेरक एआई और एलएलएम बायोलॉजी और रासायनिक खोज के विज्ञान के परिदृश्य को बदल रहे हैं," कहते हैं एनवीडिया के जीवन विज्ञान में वैश्विक व्यापार विकास के ग्लोबल हेड रौरी केलेहर। "नवाचारी एलएलएम nach0 मॉडल, जो NVIDIA BioNeMo द्वारा संचालित है, ड्रग डिस्कवरी के लिए एलएलएम की पूरी क्षमता को खोलने की एक महत्वपूर्ण कदम है।"
बायोमेडिकल समझ के लिए उपयोग किए जाने वाले अन्य एलएलएम्स जैसे FLAN, SciFive, और MolT5 की तुलना में मोलेक्युलर कार्यों को करने में nach0 को विशेष फायदे प्राप्त हुए हैं, और यह ChatGPT से काफी बेहतर प्रदर्शन किया है।
शोधकर्ताओं ने nach0 की क्षमताओं को दो मामलों में टेस्ट किया। पहली मामले में, डायबिटीज़ मेलिटस के खिलाफ प्रभावी हो सकने वाले मोलेक्यूलेस उत्पन्न करने के लिए थे। शोधकर्ताओं ने प्रॉम्प्ट "जीविकीय लक्ष्यों की खोज करें जिनमें संभावित चिकित्सा गतिविधि हो, क्रियान्वयन का विश्लेषण करें, मौलिक संरचना उत्पन्न करें, एक-स्टेप संश्लेषण प्रस्तावित करें, और मोलेक्युलर गुणों का पूर्वानुमान करें" दिया। उन्होंने मोलेक्युलर जनरेशन प्रॉम्प्ट पर 200 SMILES उत्पन्न किए और एक संरचना को रासायनिक विशेषज्ञ ज्ञान की परिप्रेक्ष्य में सबसे अधिक वादी माना। उन्होंने nach0 को Insilico के Chemistry42 जेनेरेटिव एआई ड्रग डिज़ाइन प्लेटफ़ॉर्म के लिए एक डेमो के लिए भी लागू किया, जिसमें मॉडल ने जनरेशन के लिए 15 मिनट और स्कोरिंग के लिए 30 मिनट में प्रॉम्प्ट को पूरा किया।
"हम उम्मीद करते हैं कि nach0 का विकास होने पर उसे कम पर्यवेक्षण की आवश्यकता होगी, और यह केवल वाद्ययन्त्रिय रूप में उम्मीदवार औषधियों को जनरेट और मान्य करने के लिए सक्षम होगा," कहते हैं इंसिलिको के वरिष्ठ शोध वैज्ञानिक और पेपर के एक लीड लेखक मक्सिम कुज़्नेट्सॉव।
इंसिलिको मेडिसिन ड्रग डिस्कवरी और विकास के लिए जेनेरेटिव एआई का प्रयोग करने में अग्रणी है। कंपनी ने पहली बार 2016 में एक पीयर-समीक्षित जर्नल में नये मोलेक्यूल डिज़ाइन के लिए जेनेरेटिव एआई की अवधारणा का वर्णन किया था। फिर, इंसिलिको ने अपने जेनेरेटिव विरोधी प्रतियोगितात्मक नेटवर्क (जीएएन) आधारित एआई प्लेटफ़ॉर्म के लिए अनेक प्रयास और सुविधाओं के विकास और मान्यताएं विकसित कीं और उन एल्गोरिदमों को वाणिज्यिक रूप से उपलब्ध फार्मा.एआई प्लेटफ़ॉर्म में समाहित किया, जिसमें जेनेरेटिव जीवविज्ञान, रासायनिक विज्ञान, और चिकित्सा शामिल हैं, और इसका उपयोग फ़ाइब्रोसिस, कैंसर, प्रतिरक्षा तंत्र, और उम्र संबंधी बीमारी जैसे कई रोग क्षेत्रों में उम्मीदवार थेरेप्युटिक वस्त्रों के संकल्पना करने के लिए किया गया है, जिनमें से कई को लाइसेंस दिया गया हैं। 2021 से ही, इंसिलिको ने अपने 30 उम्मीदवारों के विस्तृत पोर्टफोलियो में से 18 प्रीक्लिनिकल उम्मीदवारों का नामांकन किया है, और छः पाइपलाइन को क्लिनिकल स्तर तक आगे बढ़ा दिया है। मार्च 2024 में, कंपनी ने एक पेपर प्रकाशित किया है जिसमें इसके प्रमुख ड्रग - एक प्रारंभिक पुल्मोनरी फ़ाइब्रोसिस के उपचार के लिए एक पहले-इन-क्लास TNIK इन्हिबिटर की अनुशासनिक पुलियां और वाणिज्यिकता का वर्णन किया गया है, जो जेनेरेटिव एआई का उपयोग करके डिज़ाइन किया और वर्तमान में चरण II परीक्षण के साथ मरीज़ों के साथ किया जा रहा है।