
在線學習:用大數據改英語作文
5月31日下午,由百度新聞、36氪、新浪創業聯合舉辦的“奇點大學中國區學員選拔大賽”10強選手,在北京恒通國際創新園內進行了中國區總決賽。從數百個參賽者中脫穎而出的10位創業者,展示了各自團隊所處領域的前沿科技。
以下為批改網張躍在“奇點大學中國區學員選拔大賽”決賽現場的展示:
張躍:大家好,我叫張躍,來自批改網,我們知道全球有超過20億人在學習英語,他們需要英語老師,批改網是他們的大數據英語老師,用機器來批改有重要的特征,客觀化,實時化和個性化,最重要的特征是快,我們來看一下演示。
這是我們的首頁,我們可以任意粘貼這篇文章,在傳統的上面老師需要一到兩分的時間,我們看看批改網上可以一秒重出現結果,這個上面有四個維度,實際上背后有192個維度,也就是說邏輯上您可以認為每篇作文有192個裁判進行打分,我們給學生分數,更重要的是告訴學生如何提高。我們每句話給出了按據點評。我們看這句話,像這個單詞在本句中很少使用,建議修改,我們告訴了這個地方不對,可能您要問,什么是對的,我們繼續往下看,這是英美用戶的常用動詞,這里延伸出了兩個模型,第一錯誤在哪里,另外是解決錯誤的數據在哪里,借助這個學生可以進行自我交互的過程。我們看此時此刻我們的正在使用的狀況,這是用戶的實時日質,現在有哪些用戶正在使用,第一欄是學生的名字,第二欄是學校的名字,另外是數字,意味著多少次,就是一遍一遍重復我剛剛給大家演示的動作,這一切都沒有老師的介入,都是學生自行發生的,我們看的話,在座可能會有家長,你會發現為什么孩子喜歡玩游戲而不是喜歡做作業,因為游戲是闖關的,有挑戰性,我們在這里分數對學生而言就是游戲的味道,就是不停的突破分數,給更高的刺激。
在互聯網上大家都知道一個試錯的原則,就是快速試錯,小步迭代,也是這樣一個原則。大家看到這個數據我們以前低估了學生的學習熱情,為什么以前學生不學,是因為缺少了手段,如果給了這樣的機會的話,學生很愿意。你看這里邊有一個該一個上千次了,這是真實的數據,這里邊學生所有的行為都記下來了,這產生了一個學生學習的大叔據,有了這個數據以后做對了什么,做錯了什么,該學什么,都會進行相應的推薦。
這是剛才所看到的演示,我們可以看到學生的感覺是什么,對于學生而言就是提交批改,我們剛才看到打的分數,你可能要問這個分數準不準,就是分數的人工擬合度,我們的精度是92.03%,和南京大學的測試,和美國一個相比是92%的打分,這個市場是藍海市場,包括學校和機構等用戶,加起來年消費是超過百億的市場。當然日本和韓國也有類似的需求和機會。
這個市場上我們的商業模式分為三個。第一個是工具,就是說我們批改服務多少錢一次,另外是用戶的增值開發,另外是數據,這里邊數據是核心的價值,匯報一個數據截止到2015年5月21號,累計批改的作文已經超過了一億篇。注冊用戶,自從2011年6月28號上線以來,批改用戶接近900萬,預計到年底今年會達到1200萬,我們的速度不是快的,而且推廣方式是是地推為主。在高校市場的市場占有率超過了90%,可能會問為什么?或者是憑什么,做了什么東西能夠做到讓更多的用戶選擇了我們。確實也有一些我們自己有很獨到的地方,比如說如何用語料庫識別中式英文,注意,我把東西躲起來了。這是學中文的老外說的一句話,第一感覺是別扭。英美用戶看到這句感覺和我們上一句很相似。
這是中式的英文,很多的報紙上的文章老美一看就是中國人寫的,因為充斥著大量的這樣的中式英文。我們看這個圖,這是這個單詞前面的分布圖,紅色是中國學生的用法,藍色圖是美國人的用法,我們可以看到有一些是不地道的用法,為什么?因為美國人根本不用。我們老師而言,更關心的是某一個錯誤是哪些同學在犯。還有這個例子,我們想知道中國哪些學生犯了這個錯誤。
我們可以很清晰的看到在中國大概二十多萬,廣東省一萬四千多名,福建省是一萬三千多名,可以追蹤到哪一個學校,哪一個班,哪一個學生,哪一個作文里邊犯了這樣的錯誤,對我們教學是很大的支撐作用。比如說北京市教委對這樣的數據很有興趣,今年年初北京市教委和我們聯合舉辦的北京市初中英語作文大賽,這是懷柔三中舉辦的活動,這是給獲獎的同學發的獎狀。
但是比賽的學生提供的不僅僅是獎狀,還有大數據的診斷單。大家看到這個診斷單很熟悉,醫院的診斷單就是這樣的。想象一下去醫院看病的經歷,查各種的參數,目的是拿到你的各種數據。所以說在醫院里邊基本上現在已經做到了是什么就知道如何治療,原則是診斷即治療,至少80%的時間花在如何獲取參數上,還有一個理念是軍事的理念,就是發現即摧毀,對學習而言這兩個理念同樣的重要。尤其是英語這個學科。我們看看我們學習英語,又叫二語習得,有一個很重要的U型理論,核心理論是有一些錯誤不可避免去犯的,我舉這個單詞的例子,剛剛講的時候一定是知道的,但是一段時間以后錯誤的寫成這個單詞,然后老師再告訴他,然后慢慢的回來,這是真正的了解。如理解這個現象呢?
在座的如果是家長可以提醒孩子這一點,以后當您發現您的孩子在犯錯的時候,您應該高興才對,為什么?犯錯意味著正在成長。但是這條線告訴,他犯錯的時候,必須有老師通知,否則的話無法完成U型反轉,有家長會問,我們家孩子更聰明,更聰明不意味著不犯錯,可能會出現別人孩子五次,你們家孩子是三次,但是是三還是二,你知道不知道,如果有精準的數據可以告訴你,你的孩子兩次就夠了,多了一次就是浪費。
這是衡水一中的學生高考之后曬了所做過的試卷兩米多高,現實生活中是通過題海的方式野蠻的完成了這個過程,讓自己錯錯錯,對了為止,實際上這個東西是客觀存在的,這個同學最終考上了清華大學,幸運的是清華大學正在使用批改網,包括北大、復旦等都在使用,除了浙江大學都在使用,當然也包括其他的學生,像清華這樣的學校把批改網融入到了教學體系。
下一步我們做到10億人,如何去做,我們中國的中小學有1.8億人,我們近期在6個省市的一百三十多學校,這是當地最好的學校,中小學完全使用批改網,我們和黑龍江大學聯合開發俄羅斯版本,和印度也是在合作,在中國發生的故事復制到日本去。
我創辦批改網之前在微軟,全德來自百度,負責抓取,這兩位是來自金山,我們成立了英語寫作聯盟,全國最好的兩所大學都在里邊,目的是把中國所有的大學聯合起來,共建寫作大數據,今年清華出題,今天為止接近3000所學校,108萬學生提交作文,我們發布的英語寫作大數據藍皮書,每年都會發布這樣的藍皮書,為中國的英語教學提供數據支撐,讓學校知道我們在全國的水平,讓學生知道自己的水平。
進一步提高大數據價值,在領導的關懷下,成立了北京市語言智能協同研究院,我被任命為執行院長,這里邊有李德毅院士是我們的首席專家,我們也受到了媒體的持續關注和報道,科技日報報道我們當英語遇到大數據,這個主要報道了我們這個游戲因素,如何在娛樂中學習,在學習中娛樂,人民日報報告批改網,改變語言教學。在大數據時代重新定義英語學習的方式,下一步該學什么,該看什么,讓數據告訴你,每一個人下次所做的作業是不一樣的。教育部網站也推出了題目叫做智能技術幫助你自動改作業,批改網讓英語學習更簡單,謝謝大家。
主持人:非常精彩的演講,關鍵是抓住了我們所有人的痛點,學習英語,每個中國人的夢想。我們進入三分鐘的助陣嘉賓時間,我們這位助陣嘉賓已經來到了現場,大家非常熟悉的熱烈掌聲有請批改網的助陣嘉賓,CSDN和《程序員》創始人蔣濤老師,有請。請發表您的助陣演講,注意三分鐘的時間。
蔣濤:大家好,我是CSDN創始人,也是批改網的天使投資人,我是在上一輪泡沫破裂的時候,投的張躍,因為他當時做了一個產品叫聚庫,就是把這些互聯網上的所有跟英文相關的寫作的資料聚合起來,我覺得對我這個土鱉特別有幫助,我在國外寫英文郵件的時候不知道怎么樣表達,這樣的話通過例句去表達,我覺得這個產品很有價值,就投資了。當時泡沫了,沒有人接下一輪,所以我覺得張躍非常有韌勁,堅持做下去,找到一條什么路呢?to B,面向企業,而且做的是最難的面向學校。
我當時說這個生意可能做不通,應該做to C的生意,但是沒有資金了,這是非常不容易,做出了學生和老師都用的產品,老師說用了批改網了以后,改作文不煩了。也有學生改的一千多次,這是真正用大數據,技術的手段幫助我們更好的改變的教育的現狀,這么多年學英語,為什么那么困難呢?跟我們的教育資源有關系,跟我們的教育手段也有關系,所以批改網做的一件非常了不起的事情,把老師和學生都真正的聯合起來,另外基于大數據已經批改了一億篇作業,有了這樣的數據的基礎,對于我們進一步改善整個的算法和幫助這些想學英語的同學們和朋友們提高英語都有巨大的價值。
我想它的價值像教育領域的大眾點評,那個時候大眾點評做起來很苦,但是后來移動互聯網來了,大眾點評有了巨大的發展,教育一開始做也很苦,但是現在累積了數據和老師和學生,我想他的價值在下一步會有非常大的空間,我也強烈推薦他去硅谷的奇點大學,把我們這項技術和國際的技術結合起來,美國也有很多的英文表達也有問題,因為是本土,也有很多的移民,另外全球有超過20億的人在學習英語,可不可以讓這項技術讓全世界人學英文呢。另外反過來也幫助全世界人學中文,他們學中文也有自己的痛苦,所以我想把這個技術結合起來,對全世界學習第二語言的人都有幫助,這是我對他的幫助,謝謝,希望大家給他投一票。
主持人:非常感謝蔣濤老師的精彩的推薦,感謝,請后臺休息。下面你的助陣嘉賓和自己的演講都很精彩,我們看最后一個環節,五分鐘的問答時間。
評委:我覺得學會特別優雅和得體的書面表達,至少是我個人一直在追求做得越來越好的事情,無論是中文還是英文,這一點特別謝謝,如果有東西可以幫助我們做得越來越好是非常好的一件事。不過我有兩個好奇的點,第一個點是整個的語料庫一開始在建立的時候過程中,是怎么樣去做的,一開始最早期的語料是怎么樣積累的,一開始的語料很少的話,沒法去冷啟動,非常的難。
第二個問題就是說想國際化我覺得特別好。但是現在的這個階段做國際化除了那些基本的合作資源之外,在推廣上有什么樣的資源可以讓這件事做成。
張躍:我們預料庫主要分兩個,一個是白預料庫,什么是對的,就是英美用戶寫的人,另外是黑語料庫,我們認為存在問題的。您注意到我們合伙人有一個人來自百度,負責采集,紐約日報,花兒報日報,我們每天采集,不關心說什么,我們關心他怎么說,我們借此跟蹤英語的發展,我們每一篇中國學生的作文就是黑預料庫,這是我們最大的價值,這是第一個問題。
另外您說國際化這一塊,我們推動國際化的過程中,我們什么樣的資源出現了,就去做了,比如說為什么和因特爾合作印度市場,原因很簡單,因特爾負責全球教育的是印度人,他對我們有興趣,他是印度人,他認為印度也是需要這個,所以先做印度市場。為什么做日本市場,日本想進中國市場,找合作伙伴,找到我們,他發現進入中國不如把我們進入日本做得更快更好。所以這樣的資源出現以后,不是我們等到想做哪一個,而是等合適的資源出現以后再去做,印度和日本是我們下一個目標。
評委:我有一個問題,從剛才的問題往下問,他問你的是進入國際市場的策略,我想問的是語言學習和寫作是需要有很多的功底的問題,你抓了很多的語料庫,你想學日語、俄羅斯語等市場里邊有沒有難度需要去解決的。
張躍:不是有難度,是非常難。為什么?我說兩個原因,第一個拿中國人來說,中文不像英文那么規范,這是第一點。第二點,我們答英語作文,我們團隊認為機器欣賞不了一篇文章的美,為什么有人用這個軟件呢,因為我們對英文書寫沒有到那一步,考四六級或者是高考,考英文會有模板的,比如說吸煙有害健康,就是說考作文不用你用英文表達你思想利益,而是準確的表達。而即便是達到這個要求是他的優勢,我去測量他的某一個標準,我認為計算機很難理解文章的美,所以你剛才的問題來講,語種這個問題非常難,中文也會非常難。
評委:你是怎么解決這個問題的?
張躍:其他的問題可能我鋪解決,我認為英文市場足夠大。
主持人:單點突破就好了。謝謝。
評委:有一個問題請教一下,我們現在已經通過批改積累了很大的語料庫,包括對語意識別的能力,這些能力很語料庫,除了批改,還有沒有計劃用在其他的領域中的應用。
張躍:是這樣的,我覺得首先這個領域足夠大,我們在大數據的時代標準學習是這樣的先寫作業,告訴你哪一步缺什么,每個人的成功路徑都是不一樣的,都是用數據來告訴你的,所以我覺得這個領域足夠大,每一個學員是以數據為中心進行個性化的學習,每個人下一步都不一樣。
主持人:時間到,進行任何有關語言學習的領域都會應用到你的技術,這是非常精彩的演講。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA數據分析師證書考試體系(更新于2025年05月22日)
2025-05-26解碼數據基因:從數字敏感度到邏輯思維 每當看到超市貨架上商品的排列變化,你是否會聯想到背后的銷售數據波動?三年前在零售行 ...
2025-05-23在本文中,我們將探討 AI 為何能夠加速數據分析、如何在每個步驟中實現數據分析自動化以及使用哪些工具。 數據分析中的AI是什么 ...
2025-05-20當數據遇見人生:我的第一個分析項目 記得三年前接手第一個數據分析項目時,我面對Excel里密密麻麻的銷售數據手足無措。那些跳動 ...
2025-05-20在數字化運營的時代,企業每天都在產生海量數據:用戶點擊行為、商品銷售記錄、廣告投放反饋…… 這些數據就像散落的拼圖,而相 ...
2025-05-19在當今數字化營銷時代,小紅書作為國內領先的社交電商平臺,其銷售數據蘊含著巨大的商業價值。通過對小紅書銷售數據的深入分析, ...
2025-05-16Excel作為最常用的數據分析工具,有沒有什么工具可以幫助我們快速地使用excel表格,只要輕松幾步甚至輸入幾項指令就能搞定呢? ...
2025-05-15數據,如同無形的燃料,驅動著現代社會的運轉。從全球互聯網用戶每天產生的2.5億TB數據,到制造業的傳感器、金融交易 ...
2025-05-15大數據是什么_數據分析師培訓 其實,現在的大數據指的并不僅僅是海量數據,更準確而言是對大數據分析的方法。傳統的數 ...
2025-05-14CDA持證人簡介: 萬木,CDA L1持證人,某電商中廠BI工程師 ,5年數據經驗1年BI內訓師,高級數據分析師,擁有豐富的行業經驗。 ...
2025-05-13CDA持證人簡介: 王明月 ,CDA 數據分析師二級持證人,2年數據產品工作經驗,管理學博士在讀。 學習入口:https://edu.cda.cn/g ...
2025-05-12CDA持證人簡介: 楊貞璽 ,CDA一級持證人,鄭州大學情報學碩士研究生,某上市公司數據分析師。 學習入口:https://edu.cda.cn/g ...
2025-05-09CDA持證人簡介 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度、美團、阿里等 ...
2025-05-07相信很多做數據分析的小伙伴,都接到過一些高階的數據分析需求,實現的過程需要用到一些數據獲取,數據清洗轉換,建模方法等,這 ...
2025-05-06以下的文章內容來源于劉靜老師的專欄,如果您想閱讀專欄《10大業務分析模型突破業務瓶頸》,點擊下方鏈接 https://edu.cda.cn/g ...
2025-04-30CDA持證人簡介: 邱立峰 CDA 數據分析師二級持證人,數字化轉型專家,數據治理專家,高級數據分析師,擁有豐富的行業經驗。 ...
2025-04-29CDA持證人簡介: 程靖 CDA會員大咖,暢銷書《小白學產品》作者,13年頂級互聯網公司產品經理相關經驗,曾在百度,美團,阿里等 ...
2025-04-28CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-27數據分析在當今信息時代發揮著重要作用。單因素方差分析(One-Way ANOVA)是一種關鍵的統計方法,用于比較三個或更多獨立樣本組 ...
2025-04-25CDA持證人簡介: 居瑜 ,CDA一級持證人國企財務經理,13年財務管理運營經驗,在數據分析就業和實踐經驗方面有著豐富的積累和經 ...
2025-04-25