求學時代的困惑
21世紀伊始,年輕的陳忻赴美國斯坦福大學求學,后在波士頓大學做助理教授。科研工作的日常就是查閱各式各樣的文獻資料。和很多初入科研的青年學子一樣,陳忻驚奇地發現,很多文獻資料都要付費購買版權,甚至引用自己之前發表的論文中的數據圖表等,也必須征得出版社的授權。而學術界的一半以上的期刊,被以Elsevier,Wiley等巨頭所控制。科技出版業的頭部企業全部為歐美公司,他們攫取了高額利潤的同時,更是對科研數據形成了一定程度上的壟斷。特別是美國等利用學術期刊坐收全球材料科研成果數據。諸如NIST、SciFinder、HSC Chemistry、NOMAD、ICSD之類的國際高端出版商和數據庫,為全球提供基礎材料數據檢索服務的同時,也在某種程度上把控了這些材料數據的來源和使用情況。事實上,西方發達國家早就對數據的收集整理有所布局,如日本長期收集我國材料開發數據,歐盟費盡心機想與我國共建數據平臺,而我國的數據資料收集整理工作起步晚,很容易被卡脖子、扼咽喉。
2011年,時任美國總統奧巴馬宣布啟動一項價值超過5億美元的“先進制造業伙伴關系”計劃,其中重點之一為“材料基因計劃”。美國政府計劃加強政府、高校和企業之間的相互合作和數據共享,他們希望通過材料基因計劃來倡導高通量計算、高通量制備與表征、專用數據庫三大技術及其平臺建設,以期推進新材料的開發技術,強化美國在制造業方面的領先地位。
陳忻敏銳地感覺到——數據共享以及材料設計的技術提升將是未來全球發展的“兵家必爭之地”。 實驗室里被擱置一邊、無人問津的原始科研材料數據將會是未來產業發展的基礎和國家重要的戰略資源。從此,陳忻的心里埋下了一顆種子。他希望能夠做好基礎數據的收集和整理,在未來全球競爭中為我國的材料數據提前布局、搶占賽道。
無人欣賞的跋山涉水
所謂光輝歲月,不是萬眾矚目時的閃亮奪目,而是無人欣賞時的跋山涉水。數據整理是數據共享的前提和基礎。陳忻決心摒除雜念,偏離了學術圈里發文章的“正途”,選擇開始長期艱苦的數據清洗和整理工作。數據清洗的第一步就是為材料數據打標簽。這個工作有時也被稱作數據標注——是一份“最不性感、最沒成就感”的工作。例如,一開始只能通過人力,先從網上搜集來大量的國內外文獻資料,然后需要有交叉學科背景的人基于精準的語義理解,對每個字段、每種數據做物理化學分析和歸類,畫上經過理解和分析的符號和標注。只這一件事,就不能一蹴而就,而是真正的苦活累活。

來源:機器學習研究會
知識圖譜技術是人工智能技術的組成部分,其強大的語義處理和開放組織能力,為智能化信息應用提供了基礎,被稱為“知識域可視化、知識領域映射地圖”。這項技術在2012年首先由Google正式提出,迄今為止,其實際應用在發達國家已經逐步拓展并取得了較好的效果,但在我國仍然處于研究的起步階段。在做標簽積累的工作中,陳忻想到結合量子化學計算和人工智能預測來對材料領域的大量數據進行挖掘,并通過深度學習來建立模型,從“苦干”轉為“巧干”。這一想法與中國科學技術大學的師兄弟們不謀而合。2020年陳忻帶著“中國科學技術大學本科、斯坦福博士、波士頓大學教授”的光環,回國了。他與師兄弟們一起,研究如何結合量子化學計算和人工智能預測,建立材料數據之間的構效關系,全力以赴努力搭建第一代中國人自己的材料科學知識圖譜。
第一個案例的啟發
中國的學術界和產業界也逐漸開始意識到數據對于學術研究和產業創新發展的重要意義。2015年9月,我國正式印發《促進大數據發展行動綱要》,這是國家發布的首個大數據國家行動計劃。大數據科學與人工智能技術的結合,在先進材料研發中逐漸嶄露頭角,以數據驅動創新的研究新范式則體現出巨大優勢。材料研發的傳統 “試錯”模式、“炒菜式”不僅高成本、低效率,周期跨度可能為十幾年甚至幾十年,嚴重制約了我國的產業升級與經濟發展。

來源:福建物質結構研究所
在做數據整理的過程中,陳忻就遇到這樣一個合作案例。某集團發現自己的組合發動機中的金屬配件需要進行改進,他們的研發團隊嘗試了多種方案都未能實現。陳忻及其團隊利用搭建的數據平臺,為其模擬出燃燒流場、大渦流場,并找到了記憶金屬設計的配方。這一合作直接產生了巨大的經濟效益,為該集團加快項目進度5個月,節省成本4300多萬元。同時,陳忻及其團隊通過這次合作還產生了意外之喜:他們收集了10萬種各類合金演化結構數據和金屬原子間相互作用能數據——這些數據能豐富和完善已有的數據庫平臺體系,對團隊來說“價值連城”。“數據”就是科研和產業的共同語言,而數據庫平臺就是鏈接科研與產業的橋梁!
機數量子的 “靈魂熊貓”
2016年,中科寒武紀創立,來自中國科學技術大學少年班學院的陳天石、陳云霽兄弟二人白手起家,挑戰冷門的人工智能芯片方向,隨后通過自主研發,成為全球智能芯片領域的先行者。
陳忻也不是孤軍奮戰。科大師兄江俊教授在學校做基礎科學研究,立志將人工智能和量子化學相結合。師兄弟二人一拍即合,決心以產業化方式做一次大膽的嘗試,通過歸納法與演繹法相結合來進行科學研究,將人工智能和大數據技術應用到材料研發,帶來學術和產業上的聯合突破。
于是,機數量子應運而生。

圖:機數量子愿景、使命、精神
機數量子以“量子化學計算、大數據分析、人工智能預測”為核心技術,十年前就開始著手對材料數據進行整合和清洗,經過“板凳一坐十年冷”的煎熬,率先建立了材料基因創新研究平臺,開發了中國首個材料知識圖譜,已建成世界一流、亞洲最大的材料數據庫平臺——機數大材庫(dcaiku)。
陳忻,成為了這支“熊貓俠士”里的“靈魂”代言人。之所以叫“熊貓俠士”,是因為他們跟功夫熊貓都有相同的特質:真誠、憨厚、聰穎、頑強,甚至連外在形象都有點相似。機數量子的熊貓俠士們,秉承創始人“俠之大者·為國為民”的情懷和夢想,一心要為國家構筑我們中國人的數據長城,用數據賦能新材料的開發。
2018年,美國技術標準局NIST突然宣布停擺,科學家們無法登陸美國數據庫進行資料查看和下載。機數量子的 “機數大材庫”立刻派上了用場。央視新聞聯播不僅專訪了機數大材庫,還充分肯定材料數據是涉及到國家戰略安全的資源——機數量子面向世界科技前沿、面向經濟主戰場、面向國家重大需求,再一次交出了一份滿意的答卷。
將量子化學和數據科學應用到材料開發,打通數據生態鏈,帶來產業上的突破,是歷史的必然選擇和國家的發展方向。10月剛剛結束的“量子科學與前沿”雁棲湖會議,由中國科學院學部學術與出版工作委員會組織發起,中國科學院與北京市合作舉辦,中國科學技術大學承辦,機數量子等科技企業參與協辦。機數量子代表量子化學方向首次亮相雁棲湖會議,并向社會開放材料數據基礎檢索服務,展示了全球最前沿的科技創新思維和基于材料數據庫平臺的材料開發獨特視角,得到了與會專家和各方媒體的廣泛關注和充分肯定。

圖:機數量子總經理陳忻接受媒體采訪
站在歷史的洪流中,十年跋山涉水,筑夢數據長城——陳忻知道,這只是剛剛開始。他對未來數據產業化發展方向充滿信心,因為宏偉的工程、歷史的突破正是由無數小成果、無數科研智慧聚集而成,數據長城最終是為了捍衛國家的數據安全,提升材料研發的國際競爭力,是拓展國家基礎研究、完善材料應用基礎研究創新體系的重要一環。
他堅信,機數量子的“熊貓俠士”們將為量子化學添上數據智能的翅膀,飛躍新材料的研發鴻溝!
轉自:頭號新聞網
【版權及免責聲明】凡本網所屬版權作品,轉載時須獲得授權并注明來源“中國產業經濟信息網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章及企業宣傳資訊,僅代表作者個人觀點,不代表本網觀點和立場。版權事宜請聯系:010-65363056。
延伸閱讀