
我們從過去一個月將近250個機器學習開源項目中篩選出最受關注的10大開源項目,GitHub 上 Stars 平均為1041。其中涵蓋了DensePose,圖像分類,多尺度訓練,移動端的AI 計算引擎,衛星圖像,NLP,Python包,文字檢測,NCRF,DALI 等主題。下面我們來一一介紹。
?
DensePose 是Facebook 研究院開發的一種實時人體姿態估計方法,它能夠將2D RGB 圖像中的目標像素映射到3D 表面模型。DensePose 項目旨在通過這種基于3D 表面模型來理解圖像中的人體姿態,并能夠有效地計算2D RGB 圖像和人體3D 表面模型之間的密集對應關系。與人體姿勢估計需要使用10或20個人體關節(手腕,肘部等) 不同的是,DenPose 使用超過5000個節點來定義,由此產生的估計準確性和系統速度將加速AR和VR 工作的連接。
相關鏈接:
https://research.fb.com/facebook-open-sources-densepose/
Github 鏈接:
https://github.com/facebookresearch/DensePose
?
Darts 是 CMU 聯合DeepMind 團隊研發的一種可微分的卷積循環網絡結構,它能夠基于結構表征的連續性,通過梯度下降法來更有效地進行結構搜索。在CIFAR-10,ImageNet,Penn Treebank 和WikiText-2 等大型數據庫的實驗驗證了這種結構在卷積圖像分類和循環語言建模方面的高效性能。
論文鏈接:
https://arxiv.org/pdf/1806.09055.pdf
Github 鏈接:
https://github.com/quark0/darts
?
SNIPER 是一種高效的多尺度訓練方法,可用于諸如目標檢測,實例分割等圖像識別任務。與圖像金字塔處理圖像中每個像素不同,SNIPER 是選擇性地處理真實目標周圍區域的像素。得益于其能在低分辨率的芯片上運行,這能夠顯著加速了多尺度訓練進程。此外,高效的內存設計使得 SNIPER 在訓練期間能夠最大程度地受益于批量正則化方法 (BN),還能在單個 GPU 上實現更大批量的圖像識別任務。因此,SNIPER 不需要跨 GPU 同步批量地處理統計數據,你可以像處理圖像分類一樣地訓練你的目標檢測器,簡單而高效!
論文鏈接:
https://arxiv.org/pdf/1805.09300.pdf
Github 鏈接:
https://github.com/mahyarnajibi/SNIPER
?
Mace 是一個用于移動端的、異構計算平臺的深度學習推理框架。在運行期間,它通過結合NEON,OpenCL 和Hexagon 進行優化,并引入Winograd 算法來加速卷積計算,因此初始化過程也將更快地優化。此外,它能很好地支持圖級內存分配優化和緩沖器重用過程,試圖保持最小的外部依賴性以減少內存占用空間。它還能良好地覆蓋高通(Qualcomm),聯發科技(Media Tek),Pinecone 和其他基于ARM 的芯片,以CPU 運行時還能與大多數的POSIX 系統和性能有限的體系結構兼容。
Github 鏈接:
https://github.com/XiaoMi/mace
Robosat 是一種端到端的特征提取方法,能夠用于航空和衛星圖像的目標特征提取,包括圖像中的建筑物,停車場,道路,汽車等目標。該方法主要包括三部分內容:
Github 鏈接:
https://github.com/mapbox/robosat
?
DecaNLP 是由Saleforce 提出的一個自然語言界的“十項全能”挑戰,其涵蓋了十項自然語言任務:問答,機器翻譯,摘要,自然語言推理,情感分析,語義角色標記,零目標關系提取,目標導向對話,語義分析和常識代詞解析等任務。每種任務都被視為是一種問答問題,可以通過我們提出的多任務問答模型框架(Multitask Question Answering Network) 來解決。該模型能夠聯合學習DecaNLP 挑戰中的所有任務,而不需要在多任務設置下設定某個特定任務的模塊或超參數。
論文鏈接:
https://arxiv.org/abs/1806.08730
Github 鏈接:
https://github.com/salesforce/decaNLP
?
Magnitude 是一種快速高效的通用向量嵌入式實用程序包,含有功能豐富的Python 包和矢量存儲文件格式,可用于在Plasticity 中以快速、高效而簡單的方式將矢量嵌入用于機器學習模型。它主要是為Gensim 提供一種更簡單快速的替代方案,但也可以作為一種通用的矢量存儲方法應用于NLP 以外的領域。
Github 鏈接:
https://github.com/plasticityai/magnitude
?
Porcupine 是一種自助式的、高精度、輕量級文字檢測引擎,它能夠使開發人員構建語音應用程序平臺。它具有以下幾大優勢:
自助式服務:你可以在幾秒內選擇任何的喚醒詞(wake word) 并構建模型。
能夠使用真實情況下訓練的深度神經網絡(即噪聲和混響)。
結構緊湊且計算效率高,能夠適用于物聯網應用。
跨平臺應用:以純定點ANSIC 實現,目前可支持Raspberry Pi,Android,iOS,watchOS,Linux,Mac 和Windows 等平臺。
可擴展性強:它可以同時檢測數十個喚醒詞(wake word),而幾乎不需要額外的CPU /內存占用。
Github 鏈接:
https://github.com/Picovoice/Porcupine
?
NCRF 是一種神經條件隨機場結構,能夠將檢測到的癌癥轉移到WSI 中。這種框架通過完全連接的條件隨機場(CRF),將相鄰補丁之間的空間相關性直接并入CNN 結構的頂層特征提取器,并采用標準的端到端訓練方式,以反向傳播法進行優化。實驗結果表明這種框架能夠獲得更佳質量的預測概率圖,并取得不錯的平均FROC 分數。
論文鏈接:
https://openreview.net/pdf?id=S1aY66iiM
Github 鏈接:
https://github.com/baidu-research/NCRF
?
DALI 是NVIDA 提出的一個數據加載庫,它是一個高度優化的構建模塊和執行引擎集合,可用于加速深度學習應用程序中輸入數據的預處理過程。此外,DALI 還提供了不同數據的加速提供了足夠的性能和靈活性,并可以輕松集成到不同的深度學習訓練和推理程序中。它具有以下幾大優勢:
能夠直接從磁盤加速讀取全數據,并為訓練和推理過程做準備。
通過可配置的圖形和自定義操作實現足夠的靈活性。
支持圖像分類和分段工作負載。
直接通過框架插件和開源綁定輕松實現集成。
具有多種輸入格式的便攜式訓練工作流程,包括JPEG,LMDB,RecordIO,TFRecord 等格式。
Github 鏈接:
https://github.com/NVIDIA/dali
我們從過去一個月將近 250 個 Python 開源項目中篩選出最受關注的 10 大開源項目,GitHub 上 Stars 平均為1051。其中涵蓋了終端 (Terminal),機器人,照片,圖像大小調整,Instagram,短信(SMS),人工智能(AI),3D渲染,電報機器人(Telegram bot),驗證碼(CAPTCHA) 等主題。下面我們來一一介紹。
?
Termtosvg 是一個用Python 編寫的Linux 終端記錄器,它能將命令行會話呈現成獨立的SVG 動畫。這個項目目前在GitHub 獲得了近六千 Stars。
Github 鏈接:
https://github.com/nbedos/termtosvg
?
PythonRobotics 是一個機器人算法的Python 代碼集合,尤其適用于機器人自主導航。它具有以下幾大特征:
集合了一些廣泛使用和實用算法。
最低依賴性。
易于閱讀和理解每個算法背后的基本思想。
Github 鏈接:
https://github.com/AtsushiSakai/PythonRobotics
?
Cartoonify 是一款基于Python 的應用程序,能夠將照片變為卡通圖片。該應用程序能夠在桌面環境(OSX,Linux) 和raspberry pi 的嵌入式環境中運行。
Github 鏈接:
https://github.com/danmacnish/cartoonify
▌Top 4. PyCAIR
?
PyCAIR 是一個基于內容感知的圖像大小調整庫,它具有以下幾大特征:
能夠基于所提供的圖像生成能量圖和灰度圖像格式。
Seam Carving 算法試圖通過能量圖獲取最低能量值,以找到圖像中一些無用區域。
在動態編程和backtracking 的幫助下,Seam Carving 算法能夠使用自上而下或自左往右的方法在圖像上生成單獨的接縫(取決于垂直或水平調整大小)。
通過逐行遍歷圖像矩陣,針對每個條目計算所有可能接縫數的累積最小能量。通過將當前行像素與前一行相鄰像素的最低值求和來計算最小能量值水平。
從最后一行開始,在能量矩陣中找出成本最低的接縫并將其移除。迭代地重復該過程,直到根據用戶指定的比率調整圖像大小。
Github 鏈接:
https://github.com/avidLearnerInProgress/pyCAIR
?
Instagram-scrapet 是受twitter-scraper 提出的一種scraper 方法。
Github 鏈接:
https://github.com/meetmangukiya/instagram-scraper
FootballNotifier 是一個基于Python 應用程序。順應當下足球世界杯的熱潮,這款應用程序能夠當在你所支持的球隊得分時向你發送SMS 短信提醒。
Github 鏈接:
https://github.com/c-mnzs/footballNotifier
Face-tracking-with-Anime-characters 是一個能夠通過訪問網絡攝像頭來直接凝視游戲doki doki 文學俱樂部的YURI 玩家靈魂的Python 項目。
Github 鏈接:
https://github.com/Aditya-Khadilkar/Face-tracking-with-Anime-characters
▌Top 8. Pyray
Pyray 是一個基于Python 的3D 渲染庫?,F在,POV ray 是一個很棒的程序,但我們為什么不能在Python 中開發一個同樣功能的應用程序,用于2D,3D 和更高維度的對象和場景渲染呢?在這個項目中我將用Python 展示POV ray 程序所能做的一切,包括渲染復雜的3D 對象、場景、動畫等。
Github 鏈接:
https://github.com/ryu577/pyray
▌Top 9. Moodbot
Moodbot 是基于Python 開發的一個電報機器人項目,可用于自我測試焦慮和抑郁情緒。
Github 鏈接:
https://github.com/dizballanze/m00dbot
▌Top 10. NonoCAPTCHA
NonoCAPTCHA 是一個異步的Python 庫,可通過設備中的音頻來用于自動處理 ReCAPTCHA v2。它能夠支持Mozilla 的DeepSpeech,PocketSphinx,Microsoft Azure 和Amazon 的Transcribe Speech-to-Text API 等多種設備。
Github 鏈接:
https://github.com/mikeyy/nonoCAPTCHA
▌結束語
7月即將結束,大家可以通過今天的內容找到自己感興趣或者有用的項目。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25