传奇1997

狂花非叶

首页 >> 传奇1997 >> 传奇1997最新章节(目录)
大家在看 全球高武 我的1979 腾飞我的航空时代 高考以后,我才重生 重生工业帝国 俗人回档 渔人传说 万族之劫 不良之年少轻狂 老衲要还俗 
传奇1997 狂花非叶 - 传奇1997全文阅读 - 传奇1997txt下载 - 传奇1997最新章节 - 好看的都市生活小说

第47章 搜索引擎的研发

上一章 目 录 下一页 阅读记录

隋波安抚好了左清泉之后,也答应她,等考试周之后,会让她负责一些相对轻松的工作。

比如公司现在还没有专门的行政部门。

可以让她和张轩两个人先组成CEO办公室,兼管公司内部行政综合事务,像法务、公关、后勤、文件报告汇总之类的事情。

这也是一种锻炼。

可以从这些内部的职能工作,让他们全面的熟悉和理解公司正规化运作的流程和模式。

等左清泉离开之后,隋波想了想,还是觉得应该去看看王川团队的研发进展。

随着这段时间各项目展开,无论是庞勇还是周枫、王川他们都觉得技术力量不够,又各自从学校里拉了一些同学进入团队,整个技术团队扩张的很快。

当时隋波在外地,就让左清泉去找了赵宁,把公司隔壁的两间办公室也都租了下来。

周枫、许朝军带领的校内网开发团队和王川带领的搜索引擎研发团队,都从原来的办公室分了出来,易趣那个办公室里只留了电商团队。

新业务的研发团队分别在两个新办公室里闭关。

一推开门,隋波有些惊讶的看到,不大的房间里,中间是一张长桌,长桌上一个紧挨一个的摆放着十几台电脑,将长桌挤得满满的。

一帮少年们头发乱糟糟,眼圈发黑,眼睛发光的盯着电脑屏幕,浑然忘我的噼里啪啦敲打着键盘。

桌上的电脑之间就算稍微有点空隙,也都摆满了方便面火腿肠之类的速食品。

要不是那些电脑屏幕上,显示的一行行代码,简直就是一个小型黑网吧的现场!

王川坐在最靠里的一台电脑前,眉头紧锁,盯着屏幕,似乎正在思索什么难题。

别看这个场面,看起来好像是一群泡吧的颓废网瘾少年。

隋波可是清楚,这帮少年们都是计算机天才!

王川直接从学校里拉了不少水木计算机国家集训队的队友来,组成项目团队攻关搜索引擎!

隋波想了想,回去找左清泉。

让她找附近的餐厅预订每天的饭菜,送到公司来,再买几箱饮料、咖啡、面包饼干之类的小食品,放到几个研发团队的办公室里。

估计不仅王川团队,庞勇、周枫他们那儿也都一样。

这帮技术男们敲起代码来,都是没日没夜的。

没有打扰其他人的工作,他悄悄把王川叫出来,在自己办公室里,和他专门交流研发情况。

目前搜索引擎项目最大的困难在于,没有可供参考的对象。

虽然可以参考一些国外的资料和论文,但因为涉及到一些核心技术,是无法通过网络查找到的,都需要自行开发。

隋波点头表示同意。

这个时候Google还不存在呢,要到9月份的时候,布林和佩奇才会在加州一个车库里开始创业。

百度更是没影的事儿,老李还在搜信里混呢。

现阶段,无论是国外的Lycos、AltaVista、Infoseek(搜信),雅虎搜索引擎;还是国内搜狐推出的所谓全中文搜索引擎,都还是以人工分类目录为主的网站检索服务。

说是搜索引擎,其实更像是目录导航网站……

尽管其中一些搜索引擎已经有了网页关键词检索、用户点击量排序等一些创新,但本质上,还是需要大量的人工编辑的目录式搜索引擎(Directory Search Engine)。

而隋波希望王川团队开发的,则是全新的,通过技术程序,自动在互联网上通过超链接网页进行全文检索的机器人搜索引擎(Robot Search Engine)。

这样的话,就需要从头做起,开发一整套完整的技术体系。

其中包括网络爬虫(Web Crawler)服务、索引服务、缓存服务、日志服务等几大模块,各模块之间互相影响,构成了整个搜索引擎体系。

从开发量上,技术难度是远远大于目录式检索技术的。

首先说网络爬虫,也称网络蜘蛛(Web Spider),这项技术是基于Web的自动化浏览程序,通过网页链接(URL),爬虫不断的通过互联网中获得新的网页数据,下载页面数据形成后台数据库。

可以说,网络爬虫抓取数据是搜索引擎工作流程的第一步。

爬虫的体系架构直接关系到搜索引擎每天数据的采集量,而抓取策略则关系到搜索结果的数据质量,数据的更新策略则关系到系统资源的利用率。

这只是第一步,采集了大量数据信息之后,还需要通过自然语言处理(NLP),将文本信息分解为结构化数据和价值性数据。

这里面就又存在一个问题,目前国外的搜索引擎都是英文分词,而中文比较特殊,最小单位是字,但具有语义的最小单位是词。

所以,在中文分词这一部分,就需要技术团队单独进行开发。

通过建立词库、采用条件随机概率分布模型、词性标注、语义相似度、已存句法分析、情感倾向分析等,通过各种模型判断,让程序理解抓取到的关键词中文的语义,才能提高搜索的准确性和查全率。

这还只是其中比较小的开发困难。

比如,搜索引擎的核心就是通过海量数据抓取后的快速检索,而抓取的数据越多,当庞大的数据存储在数据库里,就需要构建快速存取数据的分布式存储架构。

这章没有结束^.^,请点击下一页继续阅读!

喜欢传奇1997请大家收藏:(m.shaonianshuwu.com)传奇1997少年书屋更新速度全网最快。

上一章 目 录 下一页 存书签
站内强推 遮天 家有悍妻怎么破 大荒蛮神 飞天 银狐 盖世仙尊 崛起1892 医等狂兵 福气包带着空间重生了 风驭 诡秘之主 逆天小农民 顾莲宅斗日记 一品嫡妃 大魏读书人 天启预报 长风万里尽汉歌 大奉打更人 重生年代福宝妻 我是仙凡 
经典收藏 我的艺人天天想退出娱乐圈 无奈闯入娱乐圈 在太平间当保安的日子 和明星老婆离婚之后 娱乐之天皇 娱乐:演员的自我修养 全球娱乐公敌 娱乐哈哈哈哈哈 大王饶命 一开始,我只想做演员 我的娱乐那个圈 全球高武 国产球王的娱乐圈二三事 明星养成系统 复数重生 小农民大明星 妖孽至尊兵王 中国龙组2 神帝归来 全球修行纪元 
最近更新 全球高武 我的1979 腾飞我的航空时代 高考以后,我才重生 重生工业帝国 重塑千禧年代 修真聊天群 饲养全人类 俗人回档 我家老婆来自一千年前 渔人传说 超品相师 万族之劫 不良之年少轻狂 老衲要还俗 当医生开了外挂 穿越八年才出道 超时空垃圾站 都市狂少 重生之再铸青春 
传奇1997 狂花非叶 - 传奇1997txt下载 - 传奇1997最新章节 - 传奇1997全文阅读 - 好看的都市生活小说