當不方便聽語音時,點下“轉文字”便能直接獲得語音信息的文字翻譯;當開車時,對著手機直接說出目的地便能直接獲取導航路線;當進入寫字樓時,對著智能安檢攝像頭刷臉即可通過……
隨著技術的不斷迭代,人類已悄然邁入智能時代,機器能夠像人一樣,會聽、會看、會說、會動、會思考及會學習,更讓人類生活變得豐富多彩起來。智能時代,人們通過智能語音系統、計算機視覺系統、自然語言處理系統發送簡訊、操縱汽車、遙控設備,這一切主要歸功于智能語音、計算機視覺、自然語言等相關人工智能領域的應用發展。
“而我們所做的事情,則是作為人工智能產業的‘基石’,為產業鏈的技術層和應用層源源不斷地提供對其至關重要的AI訓練數據,用戶看不到我們,卻在時時刻刻體驗著我們的基石作用。”海天瑞聲董事長賀琳說。據悉,該公司產品和服務已獲得騰訊、阿里、百度、字節跳動、微軟、三星、亞馬遜、科大訊飛、商湯科技、海康威視等國內外優質客戶的認可。
8月13日,海天瑞聲登陸科創板,公司將借助資本的力量強化雙翼,飛向更廣闊的智能天地。
訓練數據“大王”
海天瑞聲成立于2005年,是一家專注于為AI算法模型訓練提供數據產品及解決方案的服務商。16年來,公司持續投入重金做研發,目前主營業務包括訓練數據定制服務、訓練數據產品及訓練數據相關的應用服務三大板塊,業務領域涵蓋了智能語音、計算機視覺、自然語音等AI核心領域,構筑起堅實的技術壁壘,持續為客戶提供高質量的訓練數據產品及服務,始終努力推動著AI技術在全球各行業落地的進程。
隨著智能客服、智能家居、智能手機助手等應用產品的廣泛普及,琳瑯滿目的人工智能應用熱潮背后,是迅猛發展的人工智能技術。而在技術背后,扮演至關重要角色的則是大規模的專業訓練數據集。數據資源的規模和質量,在很大程度上決定了各種人工智能技術及應用的廣度和深度,從而影響著AI應用/產品的落地及用戶的體驗。
“數據已經成為一種生產要素,前提是要把人類世界的信息轉化為計算機可以識別的方式。”賀琳介紹說,人工智能行業發展涵蓋了三大核心要素——算法、算力及數據。如果把發展成熟的人工智能行業比作菜肴,那么數據就是食料,算法是煎、炒、烹、炸、燉等各種烹飪方法,算力則是燃氣灶、菜刀、鍋、勺等烹飪工具。要想做出一道色香味俱全的菜肴,三者缺一不可。
賀琳所帶領的海天瑞聲正是我國領先的人工智能訓練數據專業提供商。公司自成立以來,始終致力于為AI產業鏈上的各類機構提供算法模型開發訓練所需的專業數據集。
根據招股書顯示,目前海天瑞聲所提供的訓練數據覆蓋智能語音(語音識別、語音合成等)、計算機視覺、自然語言等多個核心領域,全面服務于人機交互、智能駕駛、智慧城市等多種創新應用場景。
智能語音稱雄天下
據介紹,海天瑞聲在智能語音方面可謂獨步天下。公司建立了成熟的發音詞典構建流程、積累了深厚的語音語言學基礎研究成果。截至目前,公司的產品/服務已覆蓋全球160余個語種/方言,并已積累下超過100個語種/方言的發音詞典,累計詞條數超過1000萬條,可構建高質量的智能語音訓練數據集群。
“我們的許多客戶都是全球性的大型科技公司和頭部人工智能企業,他們的產品需要推廣到世界各個角落,所以產品中的語種/語言功能也需要能夠匹配其所布局的地方區域。”賀琳介紹說,每一種語言的研究、開發都需要花費大量的時間及成本,不同語言涉及的音素集、發音規則等設定,都需要專業的語言學家聯合AI工程師一起來共同研究完成。
除了豐富的語言能力,公司依托自主開發的一體化數據處理平臺,高質、高效地采集與處理大規模訓練數據。一體化數據處理平臺需要解決三方面的問題:一是如何構建底層算法結構,使人機結合處理數據的能力發揮到最優,最大程度提高數據處理效率;二是如何通過對平臺和工具的反復打磨,使數據生產流轉效率最大化,令訓練數據的開發可以真正達到規模化;三是如何最大程度保障數據安全。海天瑞聲通過多年的深耕和持續的研發投入,擁有了功能強大的一體化處理平臺,實現了訓練數據安全、合規生產的規模化。
上述羅列的“特技”,正是海天瑞聲區別于業內其他數據服務商的本質特征,也是在經年累月的努力下為自己打造的深厚壁壘。公司也成為目前國內極少數有能力提供包括希伯來語、烏爾都語、緬甸語等語種數據服務的供應商,也是全球擁有自主知識產權訓練數據集最多的企業之一。
據賀琳介紹,公司目前在以每年大概十余種語言/方言的速度不斷擴充著公司的專業數據庫,同時不斷迭代一體化數據處理平臺,加入各類新的處理功能。多年積累的核心技術和專業服務能力,使得公司能夠更大規模、更有效率、更加精準地生產訓練數據,在提升自身產出效率的同時也有效提高了訓練數據對于客戶算法模型的改善、優化效果。
數據是算法發展和演進的“燃料”
賀琳早年在中科院聲學研究所工作,彼時,她與身邊眾多研究人工智能的好友們都遭遇一個煩惱:基礎訓練數據的缺乏。沒有訓練數據作為支撐,AI技術及其應用的研發工作就很難開展。當時的他們會時常聚在一起來討論這個問題該怎么去解決。隨著算力的突破,數據的緊缺問題更加迫在眉睫。
“當時我認為這是未來的一個方向,因為大家在工作中都會遇到這樣的瓶頸。一些企業的研究員更想專注于做算法,但又缺乏數據。”賀琳表示,所以海天瑞聲應運而生。
賀琳告訴記者:“數據是算法發展和演進的‘燃料’,算法、算力、數據這三個要素一定要互相作用,才能使AI行業得以發展。近年來,國家從頂層設計層面也非常重視數據的發展,并制定了很多相關的政策,特別是今年,建設人工智能行業訓練數據集、發展全數據產業鏈已被正式納入國家重點規劃,可以說數據資源的基礎性和戰略性的地位已經凸顯。”
事實上,除了提供訓練數據產品外,一個專業高效的數據合作伙伴最重要的能力之一是幫助應用商們較為準確地預估投入產出比,找到與整體業務目標契合的整體服務解決方案。經過多年的業務實踐與發展,海天瑞聲目前與產業鏈上的各類機構都建立了長期的戰略合作關系,產品和服務已獲得阿里巴巴、騰訊、百度、字節跳動、微軟、三星、亞馬遜、科大訊飛、商湯科技、云知聲、海康威視等國內外優質客戶的認可,建立了廣泛的行業知名度與影響力。
未來,市場對訓練數據的拓展性需求和前瞻性需求均將快速增長。隨著行業內對訓練數據需求類型的增加以及對服務標準要求的提高,這就要求包括海天瑞聲在內的數據服務商能夠保持對行業發展趨勢的洞察能力,深刻理解客戶的應用領域及業務場景,在設計方案過程中考慮到算法對樣本多樣性的需求,保證數據方案能滿足機器學習的需求且避免出現與模型的過擬合、欠擬合等諸多問題。
“幫助客戶不在數據準備階段走彎路,助推其加速模型訓練、產品落地和迭代更新是海天瑞聲堅守的初衷。”賀琳說,隨著人工智能在全球的快速發展,對數據資源需求將持續增長。與此同時,不同類型、處于不同發展階段的企業及組織對數據的需求也逐步展現出差異化、多元化趨勢,因此對人工智能訓練數據服務商的資質、研發、產能、質控、安全合規等方面都提出了更高的要求。
用戶驅動、需求驅動、實戰驅動是推動海天瑞聲持續穩步前進的動能。行業的高速增長,政策的不斷加持,為海天瑞聲增添了更多的成長空間。而登陸科創板,則會獲得更充足的資本力量,助推公司海闊天空任飛翔。
23:51 | 罕見“競爭性要約收購”引關注 實... |
23:51 | 企業要做好“展”略突圍 |
23:51 | 聚焦數字能源初見成效 科大智能去... |
23:51 | 第137屆廣交會第一期圓滿舉辦 “中... |
23:51 | 一季度多地離境退稅商品銷售額同比... |
23:51 | 人身險行業個人營銷體制改革方案落... |
23:51 | 3月份券商ETF經紀業務“戰報”出爐 |
23:51 | 浙江地區部分國有大行上調車貸提前... |
23:51 | 私募機構調研熱情高漲 最青睞電子... |
23:51 | 三論“投資于人”:為經濟穩中有進... |
23:51 | 讓更多上市公司持續迸發“向新力” |
23:51 | 打破剛性兌付是信托業轉型的必然選... |
版權所有證券日報網
互聯網新聞信息服務許可證 10120180014增值電信業務經營許可證B2-20181903
京公網安備 11010202007567號京ICP備17054264號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:xmtzx@zqrb.net
掃一掃,即可下載
掃一掃,加關注
掃一掃,加關注