
探秘“氣象大數據”
實況數據是氣象學科發展的最基礎數據,也是模式數據產生的源頭。如果沒有實況數據,計算機在運算“模式數據”時就少了初始值,即使是回歸到沒有計算機的人工預報時代,少了實況數據也無法進行天氣預報。
有人說,在“大數據時代”這個概念出現前,最名副其實的大數據應該數氣象數據。氣象數據一貫以龐雜眾多數據量大而著稱,但無論氣象數據多么復雜,總體可以分為兩類:一類數據被稱為“實況數據”,一類被稱為“模式數據”。
簡單來說,實況數據屬于“一般過去時數據”,來自不同的觀測設備。采集實況數據的氣象站點遍布全球,觀測范圍從幾千米的高空到地面,觀測手段從高科技的雷達衛星到最原始的人工觀測,這些數據的采集都是為了更真實地反映出地球外圍大氣圈的運動變化,而這些寶貴的數據也可以稱之為天氣預報之源。
模式數據與實況數據相比,可以說更簡單也可以說更復雜。簡單的是,這類數據僅由各類計算機的程序運算生成,屬于預測未來的“一般將來時數據”;說它復雜則是因為計算量非常龐大,運用到的計算公式也異常復雜,為了更真實地模擬全球大氣的走向,運算出的數據量也是十分驚人的!
下面,我們就一一來詳細揭秘這兩類“氣象大數據”。
天氣預報之源——實況數據
實況數據是氣象學科發展的最基礎數據,也是模式數據產生的源頭。如果沒有實況數據,計算機在運算“模式數據”時就少了初始值,即使是回歸到沒有計算機的人工預報時代,少了實況數據也無法進行天氣預報。
那么,實況數據是如何采集的呢?
很多年前,實況數據的采集和傳輸工作大部分都要靠人力完成。氣象觀測員每天要定時記錄百葉箱內的溫度、濕度等,并通過打電話、發電報等方式將全國觀測數據進行匯總。到今天為止,仍有很多發展中國家采用這種采集傳輸方式。
而隨著科技的發展,在計算機、電子和通信技術高度發達的今天,實況數據的采集和傳輸技術也有了天翻地覆的變化。所有實況數據的采集和傳輸幾乎都可以通過自動化完成,僅有少數幾個項目需要人工參與,比如地面能見度觀測、施放探空氣球、衛星軌道控制等。
目前,在氣象觀測站中溫度、濕度、氣壓、風向、風速等物理量均由電子控制的機械設備完成,這些觀測站配有嵌入式芯片,芯片上有一個精確的時鐘,可以準時地周期性工作,例如在整點每隔5分鐘、10分鐘或1小時自動采集周圍的環境數據,并自動將采集的氣象數據編碼為二進制數據流,發送到數據庫中。截至2015年年底,我國大約有50000多個這樣的地面觀測站,所有觀測站均為自動站。
由氣象觀測站觀測到的數據信息會首先在各省的氣象臺進行匯總,然后通過“質量控制”的環節,去掉或訂正某些由于觀測設備故障造成的錯誤數據,質量控制過程同樣也是由計算機程序自動實現的。完成初步的質量控制后,各省就利用FTP文件傳輸的方式,將該省該時刻全部觀測站點全部物理量數據打包為一個大文件,上傳到位于北京的國家氣象信息中心的通信臺。
世界其他國家的觀測數據的采集和傳輸也基本大同小異。除此以外,國與國之間也要進行實況數據的交換,而且必須是無償交換。這是因為大氣的運動是全球性的,僅僅依靠本國的實況數據無法做出準確的天氣預報,因此,世界氣象組織規定各國之間必須無償提供氣象觀測資料。不過,有的時候出于信息保護或軍事安全的考慮,并不會對外廣播全部的觀測站點數據。那么,每個國家需要義務提供多少站點信息,又以什么標準交換,都交換哪些觀測項目,這些都由世界氣象組織(WMO)制定和協調。
氣象大數據之魂——模式數據
模式數據是由高性能計算機根據當前天氣實況數據(包括地面、高空、衛星等)通過物理方程計算得出的??梢院唵涡蜗蟮卣J為,有這樣一套龐大的計算天氣預報的程序,輸入當前已知的天氣現象,就可以輸出未來還沒有發生的天氣現象。計算出的天氣預報結果通常以規則的等經緯度網格來表示,網格上的每一個點代表這個經緯度上未來某時刻某個物理量(比如溫度)的數值。這就是現代天氣預報業務的基礎叫“數值模式預報”,而這個龐大的計算機程序就被稱作“模式系統”。
所有的發達國家都有自己的一套用來演算天氣情況的模式系統,有的國家甚至還具有不止一套的系統。模式系統一般每天計算2~4次,通常在整點開始,利用整點前采集到的實況數據進行計算,每次計算要生成大概幾百個物理量,包括從開始計算的時刻(又稱作“起報時刻”)至未來240小時時效(或更長)的一系列二進制網格數據,預報時效通常間隔3小時。目前氣象網格經緯度間距一般在0.25度數量級,一個網格文件大小通常在1~2兆,包含幾十萬個浮點數值。
當模式的預報時效越長,時效間隔越密,網格點間距越小,網格點數值和未來實況差異越小,就證明該模式系統性能越好,該國氣象水平越發達。由于模式預測的物理量多,每天還要多次起報,預報時效密集,模式種類繁多,模式數據必須至少存儲一星期等要求,因此,在氣象數據中,無論從數據個數還是數據存儲量來說,模式數據是比重最大的“大數據”。
和實況數據不同的是,具備模式系統的國家通常沒有義務向其他國家無償提供本國的模式數據,或者最多無償提供經過抽稀處理的粗粒度模式數據。想要得到發達國家的高質量模式數據,必須通過購買才可以。例如想要得到歐洲中心的0.125度細網格模式數據,無論中國氣象局還是美國氣象局都必須向歐洲中心支付高昂的年費,才能每天獲得高質量的歐洲中心模式數據。
需要注意的是,這里購買的僅僅是模式系統最終的“輸出”數據,而不是模式系統本身。因為模式系統水平的好壞代表了一個國家氣象的硬實力,模式系統的源代碼(通常是大量的Fortran程序)更是頂級領域技術機密,屬于非賣品。
跨國模式數據也是利用FTP等方式進行傳輸,傳輸的格式一般是采用世界氣象組織制定的一種稱作GRIB編碼的文件規范,這種文件比較適合描述模式數據。
氣象數據如何傳輸
看完“實況數據”和“模式數據”的介紹,有沒有覺得氣象數據量大浩如煙海,這么多的數據都要一一傳送到預報員手里,又需要多長時間呢?一般來說,地面、高空、雷達觀測數據的采集和傳輸過程較快,從數據采集到可視化向預報員展示,通常幾分鐘時間就可以完成。也就是說,如果某地出現降雨天氣,只要儀器能觀測到,幾分鐘后位于氣象臺的預報員就會知道。
相對而言,靜止氣象衛星觀測的時間稍長,中國的風云衛星一般需要20多分鐘才能完成全球掃描,大概半小時后,預報員才能在電腦上看到衛星云圖。
這里面模式數據傳輸最慢。以上午08時起報的歐洲中心模式系統為例,首先計算未來3小時(上午11時)的所有物理量,打包為1個GRIB文件并向其他國家傳輸,然后再計算未來6小時的數據,打包傳輸,直到最后完成10天后上午08時的預報數據計算并傳輸,每個預報時效的GRIB文件大概100多兆,計算一個預報時效大概需要幾分鐘時間,模式系統啟動也需要很長時間,這樣北京收到歐洲中心在早08時起報的第1個GRIB文件大概要到下午1時45分,完成最后一個240小時預報時效GRIB文件的接收要到下午3時。這樣,如果要做早08時到下午3時的天氣預報,只能使用前1個起報時刻的模式數據,比如前一天晚20時的模式數據。
在我國,國家氣象信息中心通信臺承擔著數據傳輸和分發的樞紐作用。接收的數據包含來自各省的地面、高空、雷達數據、衛星數據、中國模式系統輸出結果的數據以及其他國家的觀測數據和模式數據。同時,還承擔數據的發送功能,每天將各種觀測數據和模式數據通過地面網絡或通信衛星收發系統傳送給31個省市區氣象臺和其他國家。
省一級的氣象臺只負責將本省的觀測數據發送至國家氣象信息中心,不進行其他數據的傳送,同時接收來自國家氣象信息中心分發的其他省的數據或各國模式系統數據。一般來說,由于國家到省級的網絡傳輸需要較長時間,因此,國家級預報員在時間上將先于省級預報員查看到最新的氣象數據。
預報員如何接收氣象數據
解釋完了數據是怎么進行傳輸和接收的,最后一個問題,一個個數據又是如何出現在預報員的計算機中?這其實是一套先進、復雜的大數據處理系統。
數據到達通信臺后,首先兵分兩路,地面、高空站點實況報文數據被轉發至解報計算機,完成對于BUFR編碼的解碼,提取出報文中的站號、物理量值等信息,寫入一個關系型數據庫中作為緩存,然后通過每隔幾分鐘的定時作業,將同一觀測時刻全部站點的物理量信息從關系型數據庫中提取出來,制作為一個全國全部站點觀測文件,寫入到一個專供預報員客戶端軟件訪問的高速存儲服務器中。
另外一路大數據包括模式數據、衛星、雷達數據,這一類數據本身不是報文,不需要像站點實況數據那樣先拼接再寫入的過程,因此,通信臺直接將這些數據發送給高速解析服務器,完成類似GRIB解碼、衛星通道拆分等操作,解碼后的結果一般是一些更小更多的文件,直接寫入到和存儲全國站點觀測文件相同的高速存儲服務器中,供預報員客戶端軟件訪問。所有數據的解報、解碼時間一般幾秒鐘即可完成。
中國的預報客戶端稱作“MICAPS”(全稱氣象信息綜合分析處理系統),主要功能是將高速存儲服務器中的所有氣象數據進行可視化展示,并提供便捷的瀏覽和交互操作,預報員利用顯示出來的模式數據和所有實況數據,結合自己的分析,在MICAPS上繪制出天氣預報的最終結果,最后將預報結果出圖和撰寫成文字發送給發布部門,比如網站、報紙、電視臺等。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25