大模型除了好玩之外有啥用?
其中一個(gè)很好的應(yīng)用方向就是構(gòu)建基于大模型的知識(shí)庫。
無論是個(gè)人還是企業(yè),無論生活還是工作,在信息大爆炸的時(shí)代,我們都積累了大量的信息(文檔)。如何高效檢索,成了一個(gè)大問題。
傳統(tǒng)知識(shí)庫的檢索方式往往比較弱,只能基于關(guān)鍵詞檢索,返回結(jié)果也比較死板。
而結(jié)合了大模型強(qiáng)大的語意理解能力之后,檢索體驗(yàn)和效率就會(huì)有巨大的飛躍。
今天結(jié)合大模型知識(shí)引擎LKE,來嘗試創(chuàng)建一個(gè)自己的知識(shí)庫應(yīng)用。
這個(gè)應(yīng)用主要是實(shí)現(xiàn)的功能就是,把各類文檔制作成知識(shí)庫,然后通過 DeepSeek 進(jìn)行快速高效檢索和呈現(xiàn)。
文章主要是分為兩塊:一個(gè)是如何制作,一個(gè)是效果測(cè)試。
首先,我們來快速創(chuàng)建一個(gè)知識(shí)庫應(yīng)用。
關(guān)于這個(gè)大模型知識(shí)引擎 LKE,在之前的兩篇文章中已經(jīng)提到過。就不做過多介紹了。
直接根據(jù)這個(gè)網(wǎng)址打開這個(gè)平臺(tái)就可以了。
https://lke.cloud.tencent.com/lke
第一次使用,注冊(cè),認(rèn)證,可能要點(diǎn)時(shí)間,但是并沒有門檻,都可以快速通過。目前這個(gè)階段,全部可以免費(fèi)體驗(yàn),是0成本學(xué)習(xí)技能的好時(shí)候。
1.創(chuàng)建應(yīng)用
進(jìn)入大模型知識(shí)引擎之后的第一步,是創(chuàng)建一個(gè)應(yīng)用。
在應(yīng)用管理中,點(diǎn)擊新建應(yīng)用,設(shè)置圖標(biāo)和輸入應(yīng)用名稱,點(diǎn)擊新建。
2.切換模型
應(yīng)用創(chuàng)建完成之后,就需要進(jìn)行具體的設(shè)置了,首先是切換模型。
根據(jù)上圖操作,將生成模型,切換成 DeepSeek-R1.這樣就能用上 R1 強(qiáng)大的中文理解和推理能力了。
這里的思考模型,主要影響意圖識(shí)別的效果。
這里的生成模型,主要用于閱讀理解和答案生成。
R1 和 V3 的區(qū)別:
R1是強(qiáng)化學(xué)習(xí)(RL)驅(qū)動(dòng)的推理模型,在數(shù)學(xué)、代碼和推
理任務(wù)中與 OpenAl-01 表現(xiàn)相當(dāng)。與DeepSeek助
手深度思考模式為同款模型
V3是擁有6710億參數(shù)的混合專家(MoE)語言模型,采
用多頭潛在注意力(MLA)和 DeepSeekMoE 架
構(gòu),結(jié)合無輔助損失的負(fù)載平衡策略,優(yōu)化推理和
訓(xùn)練效率。
3.創(chuàng)建知識(shí)庫
點(diǎn)擊頂部的菜單,切換到知識(shí)管理界面。
這個(gè)界面主要就是管理各種文檔。
知識(shí)庫的類型這里其實(shí)還有兩個(gè)大類。
一個(gè)是文檔類。
適合大量文檔的場(chǎng)景。
一個(gè)是問答類。
問答類主要是一問一張,特別適合那種問答場(chǎng)景。
我們以文檔為例子,開始創(chuàng)建知識(shí)庫。
所謂知識(shí)庫,就是很多知識(shí)聚集在一起就成了知識(shí)庫。而知識(shí)具體的載體就是各種文件或者在線網(wǎng)頁。
點(diǎn)擊導(dǎo)入功能,可以從網(wǎng)頁或者本地文件中導(dǎo)入。
網(wǎng)頁導(dǎo)入:
只需要輸入一個(gè)網(wǎng)址,點(diǎn)擊獲取網(wǎng)頁內(nèi)容就可以了。比如我貼了一個(gè)關(guān)于“iPhone 16 Pro Max - 技術(shù)規(guī)格” 的網(wǎng)址。讓他抓取詳細(xì)的參數(shù)信息。
導(dǎo)入文檔:
點(diǎn)擊箭頭區(qū)域或者直接把文件拖動(dòng)到這個(gè)區(qū)域,然后點(diǎn)擊導(dǎo)入文件,就可以了。
目前支持的文檔類型下:
文檔支持pdf、doc、docx、ppt、pptx,單個(gè)文件不超過200MB;
xlsx、xls、md、txt、csv,單個(gè)文件不超過20MB;
圖片支持jpg、png、jpeg,單個(gè)文件不超過50MB
基本涵蓋了常見文檔。
我這里只選了 txt,pdf來做測(cè)試。選了幾本金庸小說,然后選了幾個(gè)電腦主板的PDF文檔。
知識(shí)庫上傳完成之后,需要經(jīng)過幾個(gè)階段的處理。
主要包括解析,學(xué)習(xí),待發(fā)布。(還有一個(gè)審核~~)
這個(gè)過程和上傳內(nèi)容的字符量有關(guān)系。測(cè)試階段,不要上傳太大的文件,會(huì)消耗很多 token配額。
等文檔狀態(tài)變成已經(jīng)學(xué)習(xí),待發(fā)布的時(shí)候,就證明知識(shí)庫已經(jīng)就位了,可以使用了。
4.啟用知識(shí)庫
回到應(yīng)用配置界面,啟用一下知識(shí)庫。其實(shí),這兩項(xiàng)都是默認(rèn)開啟的。
右上角還有一個(gè)高級(jí)設(shè)置。
點(diǎn)擊高級(jí)設(shè)置之后,可以調(diào)整檢索策略,文檔設(shè)置,問答設(shè)置。
檢索策略
混合檢索:同時(shí)執(zhí)行關(guān)鍵詞檢索和向量檢索,推薦在需要對(duì),字符串和語義關(guān)聯(lián)的場(chǎng)景下使用,綜合效果更優(yōu)。
語意檢索:推薦query與文本切片重疊詞匯少,需要語義匹配的場(chǎng)景
文檔設(shè)置
文檔召回?cái)?shù)量:檢索返回的最高匹配度的N個(gè)文檔片段
文檔檢索匹配度:根據(jù)設(shè)置的匹配度,將找到的文本片段返回給大模型,作為回復(fù)參考。值越低,意味著更多的片段被召回,但也可能影響準(zhǔn)確性,低于匹配度的內(nèi)容將不會(huì)被召回。
問答設(shè)置
問答回復(fù)方式:直接回復(fù)和潤(rùn)色后回復(fù)。
問答召回?cái)?shù)量:同上
問答檢索匹配度:同上
可以根據(jù)實(shí)際需求,和實(shí)際測(cè)試情況,調(diào)整這些參數(shù)。剛開始可以全部使用默認(rèn)配置。
5.測(cè)試知識(shí)庫
當(dāng)文檔學(xué)習(xí)完成,參數(shù)設(shè)置完畢,就可以開始測(cè)試你的知識(shí)庫應(yīng)用了。
我就針對(duì) iPhone16Promax提一個(gè)問題。
原來網(wǎng)頁信息如下:
問答情況如下:
點(diǎn)擊參考來源,可以查看原文片段。
首先,我問的是iPhone16,沒加 promax 這個(gè)后綴。一個(gè)是我偷懶了,一個(gè)是測(cè)試一下它能否基于文檔找到 promax 的信息。
其次,我沒問“外觀”這個(gè)關(guān)鍵詞,而是直接問顏色。也是要考驗(yàn)它是否直接做關(guān)鍵詞匹配,還是有自己的理解能力。
從思考過程來看,首先它找對(duì)了位置,其次它還想了一下 iPhone16 和 promax 的問題。
最終的回答完全準(zhǔn)確,而且做了一個(gè)備注(這是 iPhone16promax 的規(guī)格)。
雖然這個(gè)問題看似很簡(jiǎn)單,但是已經(jīng)可以體驗(yàn)大模型加持后的檢索能力了。
更多測(cè)試,我們留在文末,現(xiàn)在先把流程走完。
6.發(fā)布知識(shí)庫
當(dāng)你感覺測(cè)試得差不多了,就可以點(diǎn)擊右上角的發(fā)布了。
點(diǎn)擊發(fā)布的意義,主要在于,發(fā)布之后,當(dāng)前的配置就對(duì)后續(xù)的接口生效了。如果不發(fā)布,那么所有修改只是在測(cè)試界面有效,不會(huì)影響已發(fā)布的應(yīng)用。
發(fā)布這個(gè)過程很快就會(huì)完成。
完成之后會(huì)有提示。
然后可以去發(fā)布管理->調(diào)用信息界面。
獲取體驗(yàn)鏈接,可以直接立即體驗(yàn),也可以分享鏈接,分享二維??。
7.體驗(yàn)知識(shí)庫
復(fù)制上面的鏈接,就可以打開一個(gè)單獨(dú)對(duì)話頁面了。
界面很簡(jiǎn)潔,可以發(fā)送問題,也可以發(fā)送圖片,輸入框運(yùn)行輸入 12000 個(gè)字。如果是個(gè)人使用,其實(shí)用這個(gè)界面就可以了。
結(jié)合上一期講的DeepSeekR1 聯(lián)網(wǎng)功能,別看操作簡(jiǎn)單,沒花一分錢,但是功能卻很給力了。
8.后續(xù)操作
可以根據(jù)應(yīng)用接口和Appkey 等信息,接入任何系統(tǒng)。比如網(wǎng)址,桌面軟件,手機(jī)APP。
由于這是針對(duì)企業(yè)用戶的服務(wù),一般來說騰訊不會(huì)也不敢偷你數(shù)據(jù),對(duì)于數(shù)據(jù)安全級(jí)別不是很高的場(chǎng)景,完全可以通過這種方式快速構(gòu)建個(gè)人或者公司的大模型知識(shí)庫。
除此之外主要是看后續(xù)收費(fèi)情況,貴的話,只能棄了。便宜,就可以直接用起來。
9.更多測(cè)試
在上面的測(cè)試中,我只測(cè)試了從網(wǎng)頁導(dǎo)入的 iPhone 規(guī)格參數(shù)的問題。其實(shí)我還上傳了好幾份電腦主板的用戶手冊(cè),搞了一個(gè)裝機(jī)的分類。
那么我們就來問一點(diǎn)主板相關(guān)的問題吧。
比如主板上有多少風(fēng)扇接口?
有多少個(gè) SATA口?
有多少個(gè) M2 接口?
支持哪些型號(hào)的CPU。
因?yàn)閮?nèi)部有設(shè)定,如果有文檔,必須先查看文檔,沒有文檔,就大模型自己回答。
那些有參考的文檔的基本就是基于我們自己的數(shù)據(jù)來回答的。由于沒有啟用聯(lián)網(wǎng)功能,所以絕對(duì)可以排除它聯(lián)網(wǎng)查詢這個(gè)資料的可能性。
如果要排除大模型自己的知識(shí)儲(chǔ)備,我們可以自己編一個(gè)數(shù)據(jù)測(cè)一測(cè)它。
下面是我讓 DeepSeekR1編的 iPhone20 的參數(shù):
然后,開始問相關(guān)問題:
iPhone20 實(shí)在是太強(qiáng)了??。
300W 磁吸充電,五分鐘充滿。
24GDDR6X 內(nèi)存。
0.8納米180億晶體管
64核心NPU,宙斯引擎,算力 1200TOPS。
......
上面的信息應(yīng)該是全對(duì),一個(gè)字母都不差。
上面的問題都偏理工科,理工科的人也特別需要這中知識(shí)庫。
下面,來點(diǎn)趣味測(cè)試。
聊聊金庸的小說《神雕俠侶》。
不查不知道,一查嚇一跳。原來尹志平都改名甄志丙了....
想當(dāng)年,看神雕,意難平,就是因?yàn)檫@個(gè)男人。
最后一個(gè)提問,它都思考完了,但就是不給結(jié)果。。。
大家都是成年人,何必呢!!!
這么測(cè)下來,整體效果還是可以的。
主要是實(shí)現(xiàn)過程也很簡(jiǎn)單!
如果,你對(duì)某些問題不滿意,或者想拒絕回答一些問題,也可以在后臺(tái)效果調(diào)優(yōu)功能里面進(jìn)行設(shè)置。
本文主要是是分享一種實(shí)現(xiàn)大模型知識(shí)庫的方案,并作了一些簡(jiǎn)單的測(cè)試。有這方面需求的人,可以根據(jù)自己的數(shù)據(jù)和使用場(chǎng)景,去試試看。
- 同時(shí)登頂中美的DeepSeek,談贏麻了還有點(diǎn)早
- Deepseek基礎(chǔ)界面認(rèn)識(shí)全解【附圖解】
- DeepSeek vs ChatGPT:人工智能的兩大巨頭對(duì)比,哪個(gè)更適合你?
- 拯救你服務(wù)繁忙的DeepSeek!白嫖2000萬tokens!DeepSeek模型免費(fèi)用!
- Deepseek安卓手機(jī)如何下載?【2025年最新版附圖解】
- 大家都吹爆Deepseek, 但我獨(dú)寵秘塔搜索
- 國(guó)內(nèi)首個(gè)對(duì)標(biāo)o1的推理模型發(fā)布:DeepSeek-R1-Lite初體驗(yàn)!
- 簡(jiǎn)單搞定DeepSeek服務(wù)器繁忙,白嫖滿血版R1,包教會(huì)!
- 一覺醒來,美股崩了;始作俑者,是DeepSeek。
- DeepSeek是什么?跨境賣家如何利用AI工具提升運(yùn)營(yíng)效率
本文鏈接:http://www.tondou.cn/post/1825.html ,轉(zhuǎn)載需注明文章鏈接來源:http://www.tondou.cn/
- 喜歡(10)
- 不喜歡(2)