兔飛猛進(jìn) 2023-03-31 23:14:58 簡單聊聊邏輯,一言以蔽之——極度的稀缺性。稀缺在哪里?(部分?jǐn)?shù)據(jù)內(nèi)容引用楊長雍文章) 1.稀缺就稀缺在行業(yè)大模型的深耕無人能敵 市場熱炒的華為、阿里、騰訊、360等大模型是所謂的MAAS通用模型,但是缺點(diǎn)在于:①行業(yè)數(shù)據(jù)壁壘無法突破,特別是金融、政務(wù)、醫(yī)療等特定領(lǐng)域的開放度極低,通用大模型無法獲取數(shù)據(jù)和進(jìn)行訓(xùn)練。②不同行業(yè)不同企業(yè)需求不同,通用大模型難以深度適配所有企業(yè)需求。想要實(shí)現(xiàn)商業(yè)化的落地,那就離不開一個高質(zhì)量的行業(yè)大模型。而拓爾思干的正是這件事,積極擁抱大模型發(fā)展,基于通用AIGC大模型,專注優(yōu)勢行業(yè)進(jìn)行專業(yè)大模型的研發(fā),這項(xiàng)工作已經(jīng)干了很多年。 而高質(zhì)量行業(yè)大模型的生成,需要必不可少的兩項(xiàng)能力:一是大模型的調(diào)優(yōu)能力,需要具備領(lǐng)先的深度學(xué)習(xí)/NLP技術(shù)積累/知識圖譜/搜索引擎等方面的人工智能能力。二是AI工程化能力,行業(yè)大模型只是解決了大模型“可用”的問題,還要解決大模型“落地”的工程化問題。在這兩個方面,拓爾思充分利用過往在NLP領(lǐng)域的工程技術(shù)積累,能基于行業(yè)場景任務(wù)對大模型進(jìn)行校對和優(yōu)化,使大模型高效適配行業(yè)場景,模型推理效果滿足客戶需求;積累了豐富的AI工程經(jīng)驗(yàn),不僅能搭建分布式訓(xùn)練架構(gòu),提高大模型訓(xùn)練速度,還具備涵蓋數(shù)據(jù)標(biāo)注、模型設(shè)計(jì)、模型訓(xùn)練、模型優(yōu)化、模型評估、模型部署等一站式AI工程化落地工具和服務(wù)能力,有助于實(shí)現(xiàn)專業(yè)大模型貼合用戶場景快速落地。 2.稀缺就稀缺在海量專業(yè)數(shù)據(jù)的高壁壘 數(shù)據(jù)是數(shù)字經(jīng)濟(jì)時(shí)代最寶貴的資產(chǎn),是糧食。行業(yè)數(shù)據(jù)搜索引擎上搜不到,買不到,必須靠長時(shí)間的積累。這是有極高的壁壘的,只有長期為細(xì)分領(lǐng)域提供數(shù)據(jù)服務(wù)的公司才能獲得全面真實(shí)深度有效的數(shù)據(jù)。 拓爾思過去30年,主營業(yè)務(wù)就是大數(shù)據(jù)軟件產(chǎn)品及服務(wù)、人工智能產(chǎn)品及服務(wù),公司于2010年自建大數(shù)據(jù)中心,至今已經(jīng)積累了1300億以上的數(shù)據(jù)總量,并以日均億級數(shù)據(jù)的速度持續(xù)增加。通過多年的積累,拓爾思形成了超過30個專業(yè)領(lǐng)域的數(shù)據(jù)庫資產(chǎn),如語義分析知識庫、專利知識庫、媒體知識庫、金融知識庫等,覆蓋媒體服務(wù)、輿情服務(wù)、金融風(fēng)控、產(chǎn)業(yè)投研、金融監(jiān)管、智能消保、開源情報(bào)、政務(wù)應(yīng)用等8大業(yè)務(wù)場景。 3月30日的交流會公司也提出——“從20 年前我們就開始建立一個叫拓爾思的 TS 大數(shù)據(jù)中心,現(xiàn)在我們整個數(shù)據(jù)中心大概有71000多億的數(shù)據(jù)量,有2000多臺這個服務(wù)器,而且我們形成兩個,一個叫互聯(lián)網(wǎng)大數(shù)據(jù)中心,還有一個叫行業(yè)知識中心,這兩塊東西實(shí)際上都是在訓(xùn)練專業(yè)大模型里面是最重要的一個抓手。公司其實(shí)在數(shù)據(jù)要素這個課題我們也一直講我們有三大數(shù)據(jù)資產(chǎn)平臺。在前面一個叫產(chǎn)業(yè)大腦,一個叫媒體資訊,一個叫網(wǎng)絡(luò)輿情,包括 1300億以上的公開類的資源的數(shù)據(jù)資產(chǎn),境內(nèi)境外視頻特色都有,然后是100億以上的主題類的資源性數(shù)據(jù)資產(chǎn),比如說工商產(chǎn)業(yè)政策、園區(qū)行業(yè)會議、投資機(jī)構(gòu)、產(chǎn)品信息研究報(bào)告等等,還有專業(yè)領(lǐng)域的30 種以上的專業(yè)領(lǐng)域的知識資產(chǎn),就是我們的知識知識庫,我們有3 萬以上的標(biāo)簽來覆蓋整個八大業(yè)務(wù)場景,包括媒體服務(wù)場景,奧情服務(wù)、金融風(fēng)控、產(chǎn)業(yè)投研、金融監(jiān)管、智能消防、政務(wù)應(yīng)用和開源情報(bào)發(fā)展應(yīng)用場景?!?/p> 這些數(shù)據(jù)資源基于拓爾思自研的數(shù)據(jù)底座經(jīng)過采集、清洗、轉(zhuǎn)換、分類、打標(biāo)等流程完成基礎(chǔ)數(shù)據(jù)治理后,與不同行業(yè)知識模型融合處理,被加工成數(shù)據(jù)資產(chǎn)進(jìn)入到數(shù)據(jù)流通與交易環(huán)節(jié)。這些數(shù)據(jù)資產(chǎn)可用作大模型的訓(xùn)練語料,具備高質(zhì)量、高價(jià)值的特點(diǎn),有利于提升大模型的專業(yè)性與精準(zhǔn)度。 這些數(shù)據(jù)都是極其珍貴、很難獲取的,將形成非常高的壁壘,其他企業(yè)很難有這個基礎(chǔ)。 今天公司也很有底氣的講了一句:我們的專業(yè)數(shù)據(jù)和能力是華為不具備的。 3.稀缺就稀缺在數(shù)據(jù)的合法合規(guī)使用 主任前天發(fā)了個微博,說的很好 第一條:“增量看好有獨(dú)特的數(shù)據(jù)資源因素的企業(yè),前提前提前提是國家讓你商用這個數(shù)據(jù),可以獲準(zhǔn)使用。” 那么首先關(guān)于數(shù)據(jù)變現(xiàn)是否存在糾紛風(fēng)險(xiǎn)的問題,公司在互動中曾經(jīng)提到: 另外,主任提出的是否允許獲準(zhǔn)使用??纯赐貭査嫉目蛻羧后w吧。 拓爾思的主要客戶是政 府機(jī)構(gòu)和8000多家企業(yè),覆蓋政 府、金融、能源、傳媒等多個領(lǐng)域,均為行業(yè)頭部機(jī)構(gòu),如中g(shù)中y辦公廳、gwy辦公廳、發(fā) 改委、國 家市場監(jiān)管總局、國 家知識產(chǎn)權(quán)局、信用中 國、海關(guān)總署、南方電網(wǎng)、國 家開發(fā)銀行、中國銀行、平安集團(tuán)、人民 日報(bào)、新 華社、科技日報(bào)等。 公司在數(shù)字政府和公共服務(wù)領(lǐng)域的“產(chǎn)品+云服務(wù)+解決方案”已經(jīng)覆蓋80%的中央和gwy機(jī)構(gòu)、60%的省級政 府和50%的地市政 府。公司以內(nèi)容智能為核心的融媒體行業(yè)服務(wù)已經(jīng)覆蓋72%的中 央媒體、61%的省 級媒體和40%的行業(yè)媒體機(jī)構(gòu)用戶。 而公司的重要產(chǎn)品,搜索性數(shù)據(jù)庫“海貝”,已經(jīng)服務(wù)于安全大數(shù)據(jù)、媒體大數(shù)據(jù)、政府大數(shù)據(jù)以及軍隊(duì)大數(shù)據(jù)等眾多細(xì)分行業(yè),擁有gong安部、新 華社、國 家市場監(jiān)督管理總局、海關(guān)總署、專利局、商標(biāo)局等一系列客戶。在國 家層面,幾個重大的基礎(chǔ)數(shù)據(jù)庫,例如云搜系統(tǒng)、企業(yè)信用信息公示系統(tǒng)、專利檢索系統(tǒng)等都構(gòu)建在海貝之上。目前海貝已完成與龍芯、海光、飛騰、鯤鵬等國產(chǎn)芯片以及中標(biāo)麒麟、統(tǒng)信UOS等國產(chǎn)操作系統(tǒng)的適配工作,完全滿足信創(chuàng)要求和國產(chǎn)化替換需求。以信用中國項(xiàng)目為例,該項(xiàng)目由發(fā)改委、人民銀行指導(dǎo),國 家信息中心主辦。 可見公司使用數(shù)據(jù)是活的批準(zhǔn)并得到國 家支持的。 4.稀缺就稀缺在商業(yè)落地的變現(xiàn)模式 毫不客氣地講,拓爾思是目前極少數(shù)能在人工智能領(lǐng)域賺到真金白銀的公司。 這里把公司的原話放出來—— “我們公司從去年以來,一直在研究,2018年,chatGPT 1.0 2.0 3.0都是開源的,我們一直在訓(xùn)練。openAI打開了我們的思路,我們在做中文大模型。在訓(xùn)練大模型的過程中,又引出了話題。對中文的理解,海外訓(xùn)練中文模型就不行。中文有本身的語境和知識結(jié)構(gòu),圍繞著人工智能和各個環(huán)節(jié),涉及到的知識點(diǎn)和數(shù)據(jù)路線,從采集到整理展現(xiàn)安全,拓爾思都實(shí)現(xiàn)了。公司的銷售一共只有200多人,盯著一萬多家大中型客戶,大力拓展渠道銷售,我們都把垂直的用戶變成了我們的渠道。我們所有公司的收入結(jié)構(gòu)在2021年年報(bào)中,現(xiàn)在一萬多家客戶,未來目標(biāo)是要發(fā)展十萬家百萬家,把客單價(jià)降低。比如我們有一款好的產(chǎn)品,未來很有想象空間。我們在2021年占比有3.7億是我們的數(shù)據(jù)服務(wù),我們有大量的數(shù)據(jù)采集。我們不做系統(tǒng)集成的項(xiàng)目,我們做人工智能、大數(shù)據(jù)還有數(shù)據(jù)安全的平臺。我們公司在六大板塊都有我們的業(yè)務(wù)場景,如果說未來我們有多大的市場空間,建議關(guān)注拓爾思的公眾號,拓爾思原來給人的印象是什么都做,實(shí)際上我們只做六件事情,圍繞著金融、政府、媒體、輿情、安全、專利在做。我們一直認(rèn)為拓爾思最大的優(yōu)勢,是我們開源的能力。在數(shù)據(jù)要素的白皮書上,是展示的比較清楚的。 我們把數(shù)據(jù)采集下來,會再加工,調(diào)用API借口,我們大屏幕服務(wù)509家機(jī)構(gòu),包括大部分媒體和政 府單位。 除非把我們的團(tuán)隊(duì)拿走,excel表拿走,我們不可能采集任何不符合中國意識形態(tài)的采集點(diǎn)。我們最早服務(wù)的對象是新 華社、wj部等。ZY網(wǎng) 信 辦我們每年有一兩個億的收入,輿情分為正輿情和反輿情,我們做了大量大數(shù)據(jù)的工作,哪些是合理合規(guī),還有不合理不合規(guī)的。我們要做所有的數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)注,每天實(shí)施動態(tài)的變化。全國現(xiàn)在到目前為止,509家機(jī)構(gòu)和我們建立了一個商業(yè)模式,每年給十萬和近千萬的服務(wù)費(fèi),這些服務(wù)費(fèi)我們采用KPI接口的服務(wù)包,給他們提供幫助。大家一定要關(guān)注數(shù)據(jù)要求,我們已經(jīng)深入了四五十頁張的數(shù)據(jù)說明書。 我們以縣為單位,所有企業(yè)的基本情況,比大家所熟悉的天嚴(yán)查、企查查要多很多,把很多數(shù)據(jù)采集下來,對每一個企業(yè)的風(fēng)險(xiǎn)異動等等,形成一個大屏。我們公司圍繞全國2萬多個產(chǎn)業(yè)園區(qū)打上了電子圍欄。還有金融研報(bào),是我們一直想為大家提供服務(wù)的行業(yè)。我們庫里有44萬篇研究報(bào)告,我們所有的數(shù)據(jù)都有了。我們主要圍繞三大塊,主要是金融風(fēng)控、精準(zhǔn)招商等。 我們給大家介紹一個海貝數(shù)據(jù)庫,我們做搜索型數(shù)據(jù)庫,我們最懂?dāng)?shù)據(jù)發(fā)展的過程。我們投了一家,叫南達(dá)通用,中國的數(shù)據(jù)庫發(fā)展,是經(jīng)歷了一個過程?,F(xiàn)在大家講的搜索引擎,講要滅掉搜索引擎的,都是滅到上面一拍,谷歌、百度等。我們要自己檢索、自己加工,我們數(shù)據(jù)庫哪來做什么用呢? 你們記住,你們用的都是M 國開源的數(shù)據(jù)庫。 拓爾思沒有To C的基因,但是有做To C的數(shù)據(jù)整理,你們打開手機(jī)搜索小程序,數(shù)星電報(bào),所有券商沒有標(biāo)注不公開的研報(bào),我們都收集了。 Q:我們數(shù)據(jù)積累這塊,有可能把我們數(shù)據(jù)賣給大廠嗎? A:我們成立以來,沒發(fā)生一起數(shù)據(jù)訴訟,我們有自然語言處理的能力,知道哪些該干哪些不該干。我們的數(shù)據(jù)采集下來,都是自己用的。我們的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),我們不賣文章。自然語言處理的背后涉及到分詞,涉及到語法的理解。我們因?yàn)橛幸幌盗械臄?shù)據(jù),我們沒有醫(yī)療數(shù)據(jù),沒有產(chǎn)業(yè)數(shù)據(jù),可以和有產(chǎn)業(yè)數(shù)據(jù)的公司合作研究,這塊有很大的空間。我們已經(jīng)和很多數(shù)據(jù)公司展開合作了。我們對國內(nèi)人工智能的公司做什么,我們是比較清楚的。 Q: 優(yōu)勢這塊? 媒體和公文寫作?未來的競爭是加劇的? A:對,未來競爭是加劇的。未來展開這方面的業(yè)務(wù),招商銀行獲取一個項(xiàng)目的過程中,我們一年二三個億的收入,是通過招投標(biāo)進(jìn)行的。我們在招標(biāo)中擊敗了達(dá)摩院,達(dá)摩院的人數(shù)是我們的十倍。歷史數(shù)據(jù)到目前為止,很多媒體都沒想到這點(diǎn),很多媒體已經(jīng)不存在了。但是只要出現(xiàn)在互聯(lián)網(wǎng)上的,我們都取下來。隨著我們采集經(jīng)驗(yàn)的豐富,還有我們的加工能力。 Q: 政策數(shù)據(jù)同質(zhì)化比較嚴(yán)重,有可能形成同一份稿件? A: 你說的是異想,zy人m政 府的官網(wǎng),是拓爾思做的,里面3000多萬的項(xiàng)目,是我們做的,我們要收很多的服務(wù)費(fèi),gwy政策文件庫,全國唯一版本,我們最懂政 府,最懂政 府的信息化?,F(xiàn)在很多文件,只放一天,第二天就下架了。全國圍繞一個政策下來,從ZY到地方政 府要發(fā)三胞胎,80%你查不到,我們公司的優(yōu)勢是,垂直管理,幾級政 府的文件我們都能拿到。 Q: 互聯(lián)網(wǎng)公開文件不能爬到嗎? A: 公開文件不一定在互聯(lián)網(wǎng)上,很多信息你是找不到的。為什么有天眼查、企查查、招標(biāo)網(wǎng)呢,招標(biāo)信息你抓不到,這才有這些公司生存的空間。大模型提供了一個底座,我們做專業(yè)模型的結(jié)合。到目前為止,我們在每一個垂直領(lǐng)域,要找有優(yōu)勢的客戶。不能因?yàn)槿A為有大模型,就把大家給pass了?!?br> 可以說,拓爾思算是目前人工智能方向?yàn)閿?shù)不多真正有實(shí)力、有底氣、有盈利、有壁壘的好公司。就在3月29日,首份中國AIGC產(chǎn)業(yè)全景報(bào)告出爐,拓爾思入選國內(nèi)最值得關(guān)注的50家AIGC機(jī)構(gòu),代表了業(yè)界對公司的高度認(rèn)可。 同時(shí),還有一些騰訊方面關(guān)聯(lián)的利好。 3月30日【騰訊高級執(zhí)行副總裁湯道生:騰訊正研發(fā)類ChatGPT聊天機(jī)器人】財(cái)聯(lián)社3月30日電,騰訊集團(tuán)高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生向澎湃新聞記者表示,騰訊正在研發(fā)類ChatGPT聊天機(jī)器人。對于騰訊的聊天機(jī)器人是集成到QQ、微信,還是通過騰訊云向B端用戶服務(wù),湯道生說:“都會有?!标P(guān)于下一代互聯(lián)網(wǎng)的話題,微軟、字節(jié)跳動、Meta、字節(jié)跳動等科技公司均已收縮VR/XR的團(tuán)隊(duì),如何看待全真互聯(lián)網(wǎng)、元宇宙似乎正逐漸褪去,湯道生表示,XR只是元宇宙的一個形態(tài),這里面還有很多不同的應(yīng)用,不是帶著頭盔擋住眼睛才叫元宇宙。(澎湃新聞)(來自財(cái)聯(lián)社APP) 而剛巧,拓爾思晚上互動回復(fù)進(jìn)行了呼應(yīng) 其實(shí)這都是預(yù)料中的事情,好公司永遠(yuǎn)會發(fā)光,只是等待個時(shí)機(jī)。事實(shí)上,拓爾思這個標(biāo)的個人認(rèn)為是可以無懼短線波動長拿的。 最后用公司自己總結(jié)的優(yōu)勢來收個尾: ①專注NLP20年,2018年公司定位語義智能,2020年開始研究和使用預(yù)訓(xùn)練模型。 ②在AIGC領(lǐng)域已經(jīng)部署了超過百家以上的用戶。 ③以高質(zhì)量行業(yè)大模型+領(lǐng)域知識數(shù)據(jù)為公司戰(zhàn)略。 ④大規(guī)模優(yōu)質(zhì)數(shù)據(jù)資產(chǎn)和AI工程化落地能力是拓爾思核心優(yōu)勢。 ⑤10000家以上優(yōu)質(zhì)行業(yè)客戶的迭代升級,“錢”景可期。 |
|