免费阅读
返回
菜单
上一章查看最新章节下一章

第314章 Y搜出海(6143)

作品:我真的有一座法师塔作者:画画太岁
如果本章错误,请点击报错10秒纠正

较有利。

“Y搜所用的搜索技术和传统搜索技术完全不同,传统的搜索技术是下载链接后对链接赋权索引建立数据库。”

“而Y搜,是通过大模型分析学习目前互联网上十七亿个网页的数据连接,针对于哪些链接的质量可能更高进行概率性的判定,依据这种概率,给出搜索结果。”

“因此,Y搜并不需要特别多的服务器来存储这些网页具体数据,只是这些链接的索引都被大模型‘学习’了而已。我们只需要储存链接就可以了。”(注1)

“当用户进行搜索的时候,大模型会自动依据用户的意图或自己的判断,给出其认为符合用户需求的链接。”

“至于说爬取频率的问题,其实这并没有这么难,根据internetlivestats实时数据,互联网目前有13亿网页,其中百分之五十都是空链接或失效链接。”

“去掉这些,只有六亿多,六亿的链接中,又有接近四个亿网页是‘非活跃网站’。”

“橘子的算法是依据‘数据标记’进行判断,已经爬取的‘数据标记’并未改变的情况下并不会重复爬取,在‘数据标记’被改变后,橘子大模型才会主动爬取更新的网页,确保自身的数据处于最新,同时再新建一个‘数据标记’。”

“这种技术的好处在于,我们不需要像千寻和古狗一样,建立那么多那么大的数据中心。”

“一个占地两万平米的单层数据中心,应该就足够满足全大周用户的搜索需求,投入可能只相当于古狗的百分之一不到,目前Y搜使用的是阿狸云。”

“当然,如果还要开发其他业务的话,比如目前的千寻和古狗的网盘、百科、文库、地图、邮件等功能,还是需要很大的数据中心来做支撑。”

“另外这个技术还有一个好处就是非常便于审核和过滤,在审核过滤规则确定的情况下,Y搜可以更为精准的过滤需要审核的信息,避免误伤。”

“AI时代,未被污染的数据太重要了,但现在大周互联网上的周文数据污染情况过于严重,训练大模型的效果很差。”

“这其中相当一部分是由于审核误伤所导致的,造成周文数据可训练度差,因此在Y搜的算法之下,可以精准识别需要过滤的搜索结果,降低97.98%的数据误伤。”

“这一条虽然短时间内看不出来什么,但时间长了,对整个大周的互联网数据资源都有相当大的好处。”

“带宽和千寻目前的带宽需求

…。。
   本章没完,请点击下—页继续阅读!如果被转码了请退出转码或者更换浏揽器即可。
  温馨提示:亲爱的读者,如果你觉得本站还好,为了避免丢失和转马,请勿依赖搜索访问,建议你使用[华为刘揽器]或[Firefox火狐刘揽器]访问并收蔵【北京小说】 m.beijingxiaochou.com。我们将会持续为你更新,还建议你注册会员使用书架功能追书阅读更方便。
上一页 12345下一页
上一章查看最新章节下一章
临时书架加入书签回顶部↑

看了《我真的有一座法师塔》的书友还喜欢看

每日一卦,我搜山打猎粮满仓
作者:大威天龙
简介: 【饥荒打猎】【种田争霸】【美女后宫】

穿越王朝末年,正值饥...
更新时间:2026-03-04 21:27:29
最新章节:第一卷 第241章 大败
我以天机觅长生
作者:烟雨梦清
简介: 【盗天机:示我之生机。】【东行一日,炎火泉现,饮泉淬体,可解情毒之厄。
更新时间:2026-03-04 21:23:00
最新章节:第一百二十三章 修行之法
王府里来了个捡破烂的崽崽
作者:三颗小石头
简介: 宁王妃带回了一个爱捡破烂的幼崽,自从她进了王府,王府从此一飞冲天:祖母的眼睛能看清楚...
更新时间:2026-03-04 21:13:00
最新章节:第一卷 第556章 不够
柴刀流漫画大师
作者:神奇柠檬茶
简介: “哈?渣男?你们自愿的凭什么说我是渣男?”……坂本健重生东京,一周目,把现实当成恋爱...
更新时间:2026-03-04 20:33:31
最新章节:第273章 炎热夏日
我在唐朝当神仙
作者:青木有信
简介: “弟子李白,愿随仙人学仙问道,真心不悔!”

“丹丘生,孟夫...
更新时间:2026-03-04 21:00:00
最新章节:第555章 岑参开始打听(+3)
企图逃离黑泥文反派
作者:妖妃兮
简介: 邬平安穿书到这个低等妖魔肆意的乱世,初次见到书中被誉为黑泥反派的姬玉嵬时,他才十八,...
更新时间:2026-03-04 21:00:00
最新章节:69 第 69 章
书名:

本站若有图片广告属于第三方接入,非本站所为,广告内容与本站无关,不代表本站立场,请谨慎阅读。

Copyright © 2020 北京小说 All Rights Reserved.kk

SiteMap