
大數據揭示黃瓜苦味從何來_數據分析師
“基因組數據的爆炸性增長是在2009年以后,我們是從2007年開始實施黃瓜基因組計劃的,應該說我們作出了正確的決策,徹底改變了2005年時蔬菜基因組國際競爭的局面?!?月24日,中國農業科學院蔬菜花卉所研究員、深圳農業基因組所副所長黃三文在中國農業科學院舉行的農科講壇上,向聽眾講述他和團隊破譯黃瓜基因組的故事。
為了探究黃瓜基因組大數據背后所代表的生命信息,黃三文帶領團隊歷時5年,分析黃瓜24000多個基因的變異和表達特征,逐個品嘗20畝黃瓜地中的6萬株黃瓜葉片和果實的味道,從一噸葉片中純化了毫克級的代謝中間產物。最終他們發現了黃瓜苦味的調控機制。
2014年11月28日出版的《科學》雜志以封面長篇論文形式發表了黃瓜苦味生物合成與調控的研究成果,揭示了黃瓜變苦的基因之路,這也是近幾年來《科學》《自然》和《自然—遺傳學》雜志第8次報道黃三文團隊的成果,對于我國蔬菜生物學研究是一次質的飛躍。
沉寂四年:從馬鈴薯轉戰黃瓜
從2005年應邀回國,直到2009年,黃三文課題組在《自然—遺傳學》雜志上發表黃瓜全基因組的文章,整整四年,黃三文的名字在國際學術期刊界是沉寂的。
2005年,時任農科院副院長的屈冬玉研究員和蔬菜花卉所所長的杜永臣研究員,邀請在荷蘭瓦赫寧根大學獲得博士學位的黃三文回國,到蔬菜所生物技術室成立了功能基因課題組。
經過多方努力,憑借在荷蘭的科研經歷,課題組一成立就如愿參與了由荷蘭瓦赫寧根大學發起的大型國際合作項目——國際馬鈴薯基因組計劃,這也是我國參加的第一個蔬菜基因組國際計劃。黃三文作為中方首席科學家負責項目的組織和執行。
然而計劃實施不久,擺在科研人員面前的“三座大山”就擋住了去路:被測試的馬鈴薯品種基因組高度雜合,拼接難度大;物理圖譜質量低,項目進度嚴重拖延;傳統測序方法成本太高,而且按染色體分工的合作方式,很難被協調統一掌控。
“我回國兩年基本沒有取得什么進展,壓力很大,怎么辦?”讓黃三文感到幸運的是,2006年初新一代測序技術浮出水面?!斑@就像北京市的房價降到了5塊錢一平方米,那買房子就不成為大家經濟上的困難了?!秉S三文意識到,傳統的測序技術將退出歷史舞臺。
黃三文敏銳地捕捉到這一契機,他向杜永臣提出書面建議,闡述了我方主導完成項目的必要性,為帶動我國蔬菜基因組學研究的快速發展搶占先機。為了提高成功的可能,他決定先從基因組較小的黃瓜開始。
“黃瓜基因組比較小,約3.3億個堿基對,是設施栽培第一大蔬菜作物,其遺傳基礎狹窄,遺傳研究基礎差,易突出基因組序列的作用,育種基礎好,資源累計較多,可以作為瓜類作物的模式系統?!秉S三文是這樣解釋選中黃瓜的原因的。
于是,國際黃瓜基因組計劃在蔬菜所自籌經費而生。他們提出“運用新一代基因組技術,挖掘蔬菜作物的遺傳潛能”,參加者有華大基因、中國農大、北京師大和國外若干單位。他們大膽采用了Solexa(Illumina)最新測序技術與傳統技術相結合的測序手段、全基因組鳥槍法測序策略等,并按照工作內容分工,形成了遺傳圖譜團隊、基因組文庫團隊、熒光原位雜交團隊、拼接測試團隊、分子育種團隊等,蔬菜所研究人員加入各個團隊,邊學習、邊督促。
雪藏一年:黃瓜全基因組一鳴驚人
其實2008年時,黃三文課題組就已得到了可靠的黃瓜全基因組數據,并構建了世界上第一張黃瓜高密度圖譜。但黃三文并沒有著急發表成果,而是著眼于這一成果的應用,思考更加廣闊的研究道路。雪藏一年后,他們才把成果投到《自然—遺傳學》雜志上,并一鳴驚人。
2006年時的二代測序技術還比較原始,比如現在的測序長度可達到250個堿基對,甚至400個堿基對,而當時測序長度只有35個堿基對。于是,他們采取了新技術與傳統技術相結合的方法,很快就繪制了高質量的黃瓜基因組框架圖。單堿基錯誤率只有十萬分之一,拼接總長達2.4億個堿基對。
黃三文團隊從頭構建了黃瓜的遺傳研究體系,包括高密度的連鎖遺傳圖譜、細胞遺傳學圖譜、比較遺傳圖譜、遺傳—物理整合圖譜,定位了99%的黃瓜基因。
這一成果作為世界上第一個蔬菜基因組,發表在《自然—遺傳學》上。該雜志高度重視這一成果,不僅作為封面文章,還配發社論。在這期雜志封面上采用了達爾文的頭像,因為達爾文曾經寫過一本書,里面很多內容是瓜類的,特別是黃瓜和南瓜的研究。
隨后幾年,黃三文課題組累計產生了10×1012(10Tbps)個堿基對的大數據。除了基因組以外,他們還研究了黃瓜的轉錄組,對100多個不同的黃瓜材料進行了測序,了解了黃瓜24000多個基因的表達模式,如在什么地方表達,在什么時期表達,在什么條件下表達,這些都是重要的信息。
為了系統掌握黃瓜的變異,他們收集3342份黃瓜種質資源,包括印度野生種、我國西雙版納種、華北黃瓜、華南黃瓜、日本黃瓜、土耳其黃瓜、歐洲黃瓜和美國黃瓜等。通過對所有資源進行基因組分析,最后篩選出115份核心資源,代表75%的遺傳多樣性,進行了18倍深度測序,最后發現接近400萬個變異位點。
利用這些數據,他們解析了黃瓜群體結構,發現黃瓜有4個群體:一個是在印度的野生群體;三個栽培群體,分別是東亞黃瓜、歐洲黃瓜和西雙版納黃瓜。黃瓜是在印度被馴化的,變異組數據很符合一個史實:約2200年以前張騫出使西域時黃瓜被引入中國華北。
“有了基因組以后,就有了‘共同語言’,我們可以把模式物種里面的知識翻譯到農業物種里面來;基因組是‘歷史書’,有了變異組數據,我們可以重新去揭示改良馴化;基因組是‘地圖勘探圖’,利用它,我們可以進行黃瓜苦味的生物合成、調控與馴化?!秉S三文說。
潛心五年:破譯黃瓜苦味來源
在黃三文看來,基因組測序完成只是一小步,對海量數據的處理與運算才是更為重要的事情。
利用這些組織學資源,黃三文課題組發現了清香形成和苦味形成的侯選基因,特別是苦味形成的侯選基因發現為后來研究起到了重要的作用。
黃瓜的苦味是葫蘆素造成的,這種苦味在果實中存在會影響品質和生產效益,但在葉片中存在能提高抗蟲性,減少農藥施用;同時,葫蘆素是有希望的抗癌藥物,但生產難度大。因此,“苦味很重要?!秉S三文說。
但是他們只有兩個線索。
一是2009年發現的染色體6上的Bi基因;二是2013年發現的染色體5上的Bt基因,這個基因是黃瓜馴化的主要基因。
但Bi和Bt是什么基因?苦味物質是怎么合成和調控的?野生黃瓜是怎么馴化的?為了回答這些問題,黃三文課題組的策略是大數據與分子生物學和生物化學。
通過全基因組關聯分析,他們發現Bi就是催化氧化形成四環的葫蘆二烯醇合酶的基因;隨后又通過突變體發現了BI基因,其負責調控葉片的部位;利用BI他們又發現了Bt;利用BI和Bt發現了另外8個合成基因。
這個過程,傳統研究方法需二三十年才能完成,用大數據分析方法卻在5年內做到了。
黃三文介紹,這項研究有三個意義:揭示了黃瓜苦味形成的雙重調控機制,葉片里面由BI調控,果實里面由Bt調控,這樣就給無苦味黃瓜育種提供了新的方案;證明了存在一類主開關基因能夠直接調控次生代謝基因簇;為通過合成生物學批量生產和改造葫蘆素用于抗癌藥物打開了一扇門。
這恰恰驗證了黃三文的“三層樓”黃金理論,即地基是基因組大數據,通過多學科交叉融合,搭建三層樓:第一層是基因組大數據與蔬菜生物學,第二層是基因組大數據與蔬菜育種,第三層是基因組大數據與蔬菜品質和營養?!叭龑訕恰苯梃b了人類基因組項目首席科學家Francis S. Collins的“基因組學時代的藍圖”的思想。
在黃瓜基因組計劃取得成功后,黃三文和團隊又攻克了馬鈴薯、白菜、番茄和西瓜基因組,并在黃瓜和番茄變異組研究上也取得突破,為我國蔬菜基因組研究鋪就了結實的“地基”。像解決黃瓜的苦味生物學問題一樣,他們還和其他團隊合作,正在闡明多個農藝性狀的分子機理,這都將為蔬菜全基因組設計育種提供知識基礎?!拔蚁嘈挪痪玫奈磥?,基因組學研究能為大家吃上‘放心菜’做出具體的貢獻”。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25