小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

終于搞懂了如何構(gòu)建自己的 AI 助理

 網(wǎng)羅燈下黑 2023-06-01 發(fā)布于河南

這一年 AIGC 健步如飛,想跟上這波時(shí)代的浪潮,少不了要面對(duì)模型訓(xùn)練中的兩大難點(diǎn):原始訓(xùn)練數(shù)據(jù)量大,訓(xùn)練結(jié)果精度要求高。

換句話說,如何高效、安全地完成數(shù)據(jù)和 AI 處理任務(wù),是橫在每一個(gè)開發(fā)者面前的問題。

前幾天,我參加了最新一期的騰訊技術(shù)開放日 Techo Day 的線上活動(dòng),有了不少新感受。

Serverless 和數(shù)據(jù)湖

數(shù)據(jù)湖像一個(gè)魔法池塘,你可以收集和存儲(chǔ)大量的數(shù)據(jù)在其中,數(shù)據(jù)湖可以保存各種格式和類型的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等等。并在需要的時(shí)候快速地進(jìn)行處理和分析。就像湖里的魚,有的是鯉魚、有的是鮭魚、有的是鯊魚,總之各式各樣的。

而 Serverless 就像是一個(gè)魔法師,它可以讓你在無需管理服務(wù)器的情況下,編寫和部署應(yīng)用程序。你只需要告訴它你想要做什么,然后它就會(huì)自動(dòng)完成所有的魔法操作,讓你可以專注于業(yè)務(wù)邏輯和創(chuàng)新。

當(dāng) Serverless 魔法施加到數(shù)據(jù)湖的時(shí)候,你便可以高彈性、高效率的方式將數(shù)據(jù)入湖、格式轉(zhuǎn)換、數(shù)據(jù)壓縮、數(shù)據(jù)加密,使得數(shù)據(jù)可以在多種數(shù)據(jù)源和目的地之間自由游走。

AIGC 業(yè)務(wù)的場景和需求痛點(diǎn)

最新一期的《騰訊云工具指南》,里面有詳細(xì)解讀 Serverless 數(shù)據(jù)湖存儲(chǔ)在 AIGC 場景里的架構(gòu)與落地的全方位內(nèi)容,干貨滿滿。

下面讓我們展開來說說——

隨著前幾年人工智能的火爆,你可能經(jīng)常能聽到機(jī)器學(xué)習(xí)、深度學(xué)習(xí)這樣的新名詞,但這對(duì)于非業(yè)內(nèi)人來說感覺很遙遠(yuǎn),看似對(duì)自己的工作產(chǎn)生不了太大影響。

在此之前內(nèi)容的創(chuàng)作全靠 UGC(用戶生成內(nèi)容),這樣雖然能發(fā)揮用戶的創(chuàng)造性,但效率低下。其實(shí)很多工作都是有規(guī)律可循,所以又發(fā)展到了 CGC(計(jì)算機(jī)生成內(nèi)容),這帶來了效率提高,但創(chuàng)新性很低。

而現(xiàn)在,隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言生成技術(shù)為基石的 AIGC 的出現(xiàn),你可以用 AI 自動(dòng)幫你寫一封柳永風(fēng)格的情書;文字生成圖片、音頻、視頻等創(chuàng)造性的內(nèi)容;也可以用來分析用戶行為,提高營銷效果。甚至可以幫你押一波彩票啥的,它就像一個(gè)智能的助理!于是大家都開始感嘆:原來 AI 還可以這么玩?。?/span>

要想讓 AI 更加智能,就需要給它投喂海量高質(zhì)量知識(shí),這點(diǎn)如何保證呢?數(shù)據(jù)湖在機(jī)器學(xué)習(xí)和 GPU 訓(xùn)練各個(gè)階段都發(fā)揮著重要作用。從各種數(shù)據(jù)源中收集到五花八門、格式各異的原始未加工數(shù)據(jù)(Raw Data)需要統(tǒng)一存儲(chǔ),避免數(shù)據(jù)分散重復(fù)難以管理。清洗、轉(zhuǎn)換、訓(xùn)練、存儲(chǔ)又需要 GPU 和 高性能存儲(chǔ)的加持,所以對(duì)存儲(chǔ)的吞吐量也有極高的要求。

既然內(nèi)容是 AI 生成的,就可能會(huì)出現(xiàn)涉政、涉 H、涉恐結(jié)果的輸出,如何把控風(fēng)險(xiǎn),免被約去喝茶,還需要做很多內(nèi)容審核的工作?;烁叱杀居?xùn)練生成的內(nèi)容,如何管理才能便于內(nèi)容的重利用和在企業(yè)之間分發(fā),也需要綜合考慮。

騰訊云存儲(chǔ) AIGC 解決方案

數(shù)據(jù)集下載與預(yù)處理

當(dāng)我們談?wù)摍C(jī)器學(xué)習(xí)模型的訓(xùn)練,就像是在談?wù)撘粋€(gè)小孩子的成長,需要給他提供足夠的營養(yǎng)和教育。在機(jī)器學(xué)習(xí)中,數(shù)據(jù)集就像是小孩子的食物,它們需要具有豐富性、代表性和可靠性,才能夠讓模型變得更加聰明和具有更好的預(yù)測能力。

通常數(shù)據(jù)的來源是多樣化的,包括國內(nèi)外公開數(shù)據(jù),私有消息隊(duì)列,關(guān)系型數(shù)據(jù)庫等中間件中已有的數(shù)據(jù)。

由于國內(nèi)某些限制,往往我們無法獲取到足夠的高質(zhì)量數(shù)據(jù)集,因此,我們需要去國外的網(wǎng)站上拉取數(shù)據(jù)集,以獲取更加全面、高質(zhì)量的數(shù)據(jù)集。

當(dāng)然,這也需要遵守相關(guān)法規(guī)和規(guī)定,避免產(chǎn)生其他風(fēng)險(xiǎn)。

但是,下載大規(guī)模的數(shù)據(jù)集需要耗費(fèi)大量的時(shí)間和帶寬資源,而且經(jīng)常會(huì)遇到各種網(wǎng)絡(luò)原因,使得效率低下。

要知道,隨著去年 OpenAI 推出 ChatGPT,各獨(dú)角獸大廠、垂直領(lǐng)域內(nèi)企業(yè)都紛沓而至,蓄勢待發(fā)準(zhǔn)備在 AI 領(lǐng)域分一杯羹。所以每個(gè)環(huán)節(jié)的效率都提高,最后才可能脫穎而出。

數(shù)據(jù)遍布在不同的地理位置,要盡可能在離數(shù)據(jù)源較近的地方下載然后處理,如何做到就近處理,這就依賴全球多地域都分布了具備 TB 級(jí)公網(wǎng)帶寬的計(jì)算存儲(chǔ)資源。所以這種規(guī)模的玩家,不是大廠還真的玩不轉(zhuǎn)。

對(duì)于上述涉及到的所有數(shù)據(jù)入湖、數(shù)據(jù)處理、數(shù)據(jù)出湖各階段組件,都可以通過云原生和 Serverless 的方式高彈性靈活擴(kuò)展。

加速數(shù)據(jù)訓(xùn)練過程

將 AI 用在不同領(lǐng)域內(nèi),對(duì)訓(xùn)練的性能有著不同的要求。

COS 是一種對(duì)象存儲(chǔ)服務(wù),可以作為數(shù)據(jù)的底座,它就像是一個(gè)大倉庫,可以存放所有的數(shù)據(jù)。而 GooseFS 分布式文件系統(tǒng),可以作為 COS 的加速層,提供快速的數(shù)據(jù)訪問服務(wù),讓數(shù)據(jù)處理更加高效。GooseFS 可以針對(duì)不同領(lǐng)域內(nèi)的場景,配置不同級(jí)別的緩存,加速訓(xùn)練效率。

在自動(dòng)駕駛領(lǐng)域,需要大量的數(shù)據(jù)來進(jìn)行訓(xùn)練和優(yōu)化,以提高自動(dòng)駕駛的準(zhǔn)確性和穩(wěn)定性。舉個(gè)例子來說,如果你是一輛自動(dòng)駕駛汽車,你需要學(xué)習(xí)如何識(shí)別道路標(biāo)志、識(shí)別障礙物、判斷交通信號(hào)燈、規(guī)劃路徑等各種技能,這些都需要大量的數(shù)據(jù)來進(jìn)行訓(xùn)練和優(yōu)化。而且,由于每個(gè)地區(qū)的交通規(guī)則和道路情況都有所不同,所以需要收集大量的數(shù)據(jù)來進(jìn)行訓(xùn)練和優(yōu)化。

如果自動(dòng)駕駛汽車只有幾個(gè)數(shù)據(jù)點(diǎn)來進(jìn)行訓(xùn)練,那么它可能會(huì)像一個(gè)新手司機(jī)一樣,經(jīng)常迷路、闖紅燈、撞車等,這可不是我們想要的結(jié)果。所以,為了讓自動(dòng)駕駛汽車變得更加可靠和安全,就需要大量的數(shù)據(jù)來進(jìn)行訓(xùn)練和優(yōu)化,這就需要大量的算力和存儲(chǔ)空間來支持。

GooseFS 可以通過構(gòu)建全閃緩存系統(tǒng),滿足自動(dòng)駕駛領(lǐng)域海量數(shù)據(jù)的訓(xùn)練需求。這個(gè)全閃緩存系統(tǒng)是由獨(dú)立的存儲(chǔ)集群構(gòu)建而成,可以提供高速的數(shù)據(jù)讀取和寫入,大大提高了訓(xùn)練效率。

而在圖像生成領(lǐng)域。例如 Stable Diffusion,它的訓(xùn)練目標(biāo)是圖像分類和圖像生成。雖然圖像數(shù)據(jù)量也很大,但是相比于自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)量,它的數(shù)據(jù)集要小很多。

GooseFS 使用 GPU 節(jié)點(diǎn)配備的 NVMESSD 作為緩存介質(zhì),結(jié)合上百臺(tái)規(guī)模,可以構(gòu)建成 PB 量級(jí)的統(tǒng)一命名緩存空間,滿足圖片訓(xùn)練數(shù)據(jù)集的緩存需求。

而 ChatGPT3.5 是一種基于自然語言處理的模型,它的訓(xùn)練目標(biāo)是生成自然語言文本。雖然自然語言數(shù)據(jù)量很大,但是相比于自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)量,它的數(shù)據(jù)集要小很多。

針對(duì)這個(gè)量級(jí)的訓(xùn)練數(shù)據(jù),可以基于 GPU 節(jié)點(diǎn)的內(nèi)存,構(gòu)建一個(gè) MEM-Based Global Cache,每個(gè) GPU 節(jié)點(diǎn)只需要提供部分內(nèi)存,整個(gè) GPU 訓(xùn)練集群就可以構(gòu)建數(shù)十 TB 的緩存空間,訓(xùn)練數(shù)據(jù)集通過內(nèi)存緩存后,既可大幅提升數(shù)據(jù)訪問效率。

所以,不同的模型和領(lǐng)域需要不同的數(shù)據(jù)量來進(jìn)行訓(xùn)練和優(yōu)化,這就需要我們根據(jù)實(shí)際情況來進(jìn)行選擇。相比起從對(duì)象存儲(chǔ) COS 中直接讀取,可以提升數(shù)十倍數(shù)據(jù)訪問速度。

全方位審核推理過程

內(nèi)容的合規(guī)主要包括了數(shù)據(jù)源、用戶問題、AI 生成的答案。

依稀記得前幾年,某視頻平臺(tái)出現(xiàn)了一些涉及未成年人的不良內(nèi)容,引起了廣泛關(guān)注。如果當(dāng)時(shí)這些平臺(tái)有較為完善的內(nèi)容審核系統(tǒng),就可以及時(shí)發(fā)現(xiàn)并刪除這些不良內(nèi)容。

但內(nèi)容又有文字、圖片、音視頻等,如果只進(jìn)行關(guān)鍵詞審核,很難識(shí)別這些內(nèi)容。通過 OCR 技術(shù),可以對(duì)圖片或視頻中的文字進(jìn)行識(shí)別審核。

有時(shí)用戶會(huì)使用含有歧義或隱喻的語言發(fā)布違規(guī)內(nèi)容,如謾罵、歧視等。如果只進(jìn)行關(guān)鍵詞審核,很難識(shí)別這些內(nèi)容。但是,通過上下文語義審核,可以根據(jù)上下文語境,識(shí)別和處理這些違規(guī)內(nèi)容。

道高一尺魔高一丈,技術(shù)之間的對(duì)抗,攻守雙方,只要增高對(duì)方攻擊成本就算勝出。

數(shù)據(jù)萬象已經(jīng)提供了多個(gè)預(yù)設(shè)的審核模板,包括色情、政治、廣告、暴力等多個(gè)場景和類型,這些預(yù)設(shè)模板都是基于強(qiáng)大的 AI 技術(shù)和豐富的數(shù)據(jù)資源,可以快速、準(zhǔn)確地識(shí)別違規(guī)內(nèi)容,同時(shí)針對(duì) AIGC 場景,數(shù)據(jù)萬象也定制了專用模型和策略。

舉個(gè)栗子,當(dāng)用戶上傳一張圖片時(shí),數(shù)據(jù)萬象會(huì)自動(dòng)進(jìn)行內(nèi)容審核。如果圖片中包含色情內(nèi)容,審核結(jié)果將會(huì)被標(biāo)記為違規(guī),同時(shí)提供違規(guī)描述和違規(guī)截圖,方便用戶進(jìn)行修正。

當(dāng)然,如果用戶需要定制化審核規(guī)則,也可以根據(jù)自己的業(yè)務(wù)需求和風(fēng)險(xiǎn)等級(jí),制定不同的審核策略。這些定制化審核規(guī)則可以設(shè)置審核類型、審核場景、審核閾值等內(nèi)容,提高審核效率和準(zhǔn)確性。

數(shù)據(jù)萬象的審核機(jī)制就像一位“安檢員”,為用戶和公司保駕護(hù)航,讓上傳的內(nèi)容更加安全合規(guī)。

管理推理結(jié)果

內(nèi)容管理的必要性在于,AI 生成的內(nèi)容往往存在質(zhì)量不一、真實(shí)性不足、版權(quán)問題等多種問題,需要進(jìn)行管理和控制,保護(hù)用戶和公司的利益。

以一家互聯(lián)網(wǎng)教育公司為例,該公司提供在線教育服務(wù),需要大量的教育內(nèi)容來支持其業(yè)務(wù)。為了提高教育內(nèi)容的質(zhì)量和效果,該公司使用了 AI 生成內(nèi)容的技術(shù),生成了大量的教育文章、視頻和音頻。在這種情況下,內(nèi)容管理非常必要,包括以下幾個(gè)方面:

● 內(nèi)容修改:對(duì)通過 AI 生成的內(nèi)容進(jìn)行修改,提高內(nèi)容的質(zhì)量和可讀性。例如,對(duì)生成的文章進(jìn)行刪減、改寫、排版等,以提高文章的可讀性。

● 內(nèi)容保護(hù):保護(hù) AI 生成的內(nèi)容的版權(quán)和知識(shí)產(chǎn)權(quán),防止其他人進(jìn)行侵權(quán)和抄襲。例如,采用數(shù)字水印等技術(shù),對(duì)教育內(nèi)容進(jìn)行保護(hù)。

● 內(nèi)容分發(fā):將 AI 生成的內(nèi)容分發(fā)到不同的平臺(tái)和渠道,提高內(nèi)容的曝光和傳播效果。例如,將教育視頻發(fā)布到視頻網(wǎng)站、將教育文章發(fā)布到博客等。

通過內(nèi)容管理,可以對(duì)通過 AI 生成的教育內(nèi)容進(jìn)行有效的控制和管理,提高內(nèi)容的質(zhì)量和可信度。

騰訊云企業(yè)網(wǎng)盤結(jié)合數(shù)據(jù)萬象這種云原生和 serverless 的數(shù)據(jù)處理能力,如圖像壓縮、版權(quán)保護(hù)、智能化標(biāo)簽、以圖搜圖等,提供一體化辦公生態(tài),輕松和騰訊云已有辦公體系構(gòu)建智能化辦公體驗(yàn)。

提供和 Windows 本地操作同樣的體驗(yàn),支持協(xié)同辦公、移動(dòng)辦公以及公有云、私有云靈活部署等功能,提高協(xié)同工作效率。

結(jié)語

騰訊云擁有強(qiáng)大的 GPU 算力,這就像是一臺(tái)超級(jí)計(jì)算機(jī),幫助用戶快速處理復(fù)雜的數(shù)據(jù)和 AI 任務(wù)。

高性能存儲(chǔ)解決方案使得數(shù)據(jù)傳輸速度快,幫助用戶快速獲取和傳輸數(shù)據(jù),減少等待時(shí)間。

另外,騰訊云還提供了完善的內(nèi)容審核和管理工具,可以幫助用戶保障數(shù)據(jù)的安全和合規(guī)性,讓用戶更加放心地使用騰訊云的服務(wù)。

在云原生和 Serverless 的加持下,用戶不需要擔(dān)心服務(wù)器的配置和管理,可以專注于數(shù)據(jù)和 AI 處理任務(wù)。幫助用戶省去很多煩惱。

總而言之,騰訊云在 AIGC 場景下的算力、性能、內(nèi)容審核和管理都是行業(yè)內(nèi)標(biāo)桿,可以幫助企業(yè)更加高效、安全地完成數(shù)據(jù)和 AI 處理任務(wù)。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多