不仅是警告!—-百度站长平台发布Web2.0反垃圾详细攻略
一、web2.0站点与垃圾内容
由于大多数web2.0建站系统存在漏洞,攻克技术成本较低,且群发软件价格低廉,容易被作弊者利用,近期我们发现大量web2.0站点被群发的垃圾信息困扰。这些垃圾群发内容无孔不入,除论坛、博客等传统的web2.0站点受到困扰外,现已蔓延到微博、SNS、B2B商情页、公司黄页、分类信息、视频站、网盘等更多领域内,甚至连新兴的分享社区也受到了影响。从以前的论坛帖子、博客日志,扩展到供求信息页、视频页、用户资料页,这些任何由用户填写和生成内容的地方,都会被作弊者发掘利用,形成大量的web2.0性质的垃圾页面。
搜索引擎在发现web2.0性质的垃圾页面后必将做出相应应对,但对真正操作群发的作弊者很难有效的打击,所以作弊者容易利用web2.0站点极低成本且自身安全这些特点,做出更多危害网站、危害用户、危害搜索引擎的行为。若网站自身管理不严控制不力,很容易成为垃圾内容的温床;有些网站为了短期流量而对垃圾内容置之不理,这无异于饮鸩止渴。网站不应仅仅是平台的提供者,更应该是内容的管理者,积极维护网站自身质量非常重要。若网站任由垃圾内容滋长,不仅会影响网站的用户体验,同时也会破坏网站口碑和自身品牌建设,造成正常用户流失,严重时,还会使搜索引擎降低对网站的评价。
对于作弊者来说,在web2.0站点上发布垃圾内容的目的就是被搜索引擎收录,如果不能让垃圾页面在网站和搜索引擎上消失,他们依然会持续不断地产生更多垃圾内容。百度站长平台希望和站长一起打击垃圾页面,帮助网站良性发展,共同维护互联网生态环境。
二、哪些内容会被百度判别为垃圾内容
一切对用户无意义,且会伤害用户的内容,就是垃圾内容。我们总结了以下几种比较典型的案例,以示说明:
1,与网站或论坛版块主题不符的内容
群发者通常都是大面积群发内容,多数情况下不会注意站点及版块主题,有时我们会在视频网站中见到“XXX医院治疗白癫风效果好”的内容,会在化妆品论坛发现航空公司的虚假电话,会在音乐网站中找到商品推销信息(当然不是卖CD的)等等。对于这些主题明确的站点或论坛,清理垃圾内容的意义不仅在于保证网站体验,也是从自身发展考虑维护用户忠诚度,提高核心竞争力的事情。举例:
http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html 网站主题为化妆品,出现“找小姐”等不良内容广告
http://cang.baidu.com/cases99/snap/f84bec4e99508525a9e67fce.html 网站主题为视频,出现明显商业广告性质的医疗信息
2,欺骗搜索引擎用户的内容
1)垃圾信息为了在众多搜索结果中脱颖而出、吸引用户注意,通常会使用诱人的标题,或在内容中添加大量关键词,有别于真实用户发帖时使用自然语言表达的情况。举例:
http://cang.baidu.com/cases99/snap/c2c0b07346650b4d292e0368.html “优酷土豆%守望的天空29集”–有悖于普通用户发布信息的习惯。
2)有些帖子内容是一段没有任何意义的文字,或者随意采集来一篇文章,而中间穿插了一些热门关键词。举例:
http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html
http://cang.baidu.com/cases99/snap/1baad31c3d640eeceb11823d.html
3)有些文章看标题以为在说A事,而主要内容却在讲B,且与A毫无关系。举例:
http://cang.baidu.com/cases99/snap/ce87d21d625937ebd9eee4c2.html
http://cang.baidu.com/cases99/snap/c17615311d6d4531bb4b33cc.html
4)对于视频音频网站来说,无论内容上传者是否为恶意,只要视频或音频文件不能满足用户需求或者与标题所述不符都应该清除掉。举例:
http://cang.baidu.com/cases99/snap/c8ea73b9a98c51205104b3c1.html 乍一看以为是电视剧专辑,实际视频平均不足1分钟
http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html 视频内嵌入了联系方式,名为介绍武艺,实际是在推广另一艺人,视频站点成为其免费的推广平台。
3,欺骗网站诈取分帐式广告收益的内容
部分web2.0站点为了鼓励用户上传内容,会设计一套现金鼓励机制,比如视频网站,根据视频前面的广告展现量来计算用户收益,少数分成用户会采取一些不正当的手段从搜索引擎骗取流量,从站方诈取分成收益。如大量上传短小视频,并在视频网页上堆积诱人的关键词。
4,恶意利用web2.0网站为自己做推广、谋福利的内容。举例:
http://cang.baidu.com/cases99/snap/16107c3e4e885c024d29ed38.html
http://cang.baidu.com/cases99/snap/1e7b322fb94512c064e0fec0.html
视频内嵌入了联系方式,名为介绍武艺,实际是在推广另一艺人,视频站点成为其免费的推广平台。
5,有违法律法规的不良信息,如诈骗中奖联系方式、虚假联系电话、不良信息。举例:
http://cang.baidu.com/cases99/snap/79ff52406a9358986d115dc8.html
http://cang.baidu.com/cases99/snap/30c36a2b013ae249aacfbc3e.html
http://cang.baidu.com/cases99/snap/af71c5ec8b83e2eed1cb783d.html
http://cang.baidu.com/cases99/snap/f4633d781c76393f9b11343d.html
三、网站管理员面对垃圾内容,如何应对
出于对网站自身发展的考虑,为了使搜索引擎能够提供更加公平的结果,为了维护互联网生态环境,以及给网民提供更好的上网体验,我们认为web2.0站点或论坛版块里存在上述内容是非常不合适的,网站管理员应对垃圾内容进行重点清理,可以采取以下措施:
1,删除垃圾内容,并将这些页面设置为404页面后,及时通过百度站长平台http://zhanzhang.baidu.com/ 的死链工具提交死链列表。不仅令百度对站点的自我清理行为及时响应,更方便站点主动控制网站内容在搜索引擎的呈现情况。
2,提高注册用户门槛,限制机器注册
1)群发软件通常使用自动的程序探测论坛默认的注册文件名、发帖文件名。管理员可以不定期的修改注册用户文件名、发帖文件名;注册、发帖按钮使用图片;与程序默认的不同,可以防止被自动程序搜索到。
2)发帖机通常是机器注册,行为模式单一。管理员可添加一些需要人工操作的步骤,有助于限制机器注册。 如:使用验证码;限制同一邮箱注册ID的数量,同时启用邮箱验证;使用更为复杂的验证机制;经常更换注册问答。
3)除了在注册处设置门槛外,还可以控制新用户权限。如要求完成上传头像、完善用户信息等人工操作步骤后才开放发帖功能;在一定时间内限制新用户发帖;限制新用户发布带链接的帖子,待达到一定级别后再放开。
3,严控机器发帖行为,如使用验证码、限制短时间内连续发帖等。
4,建立黑名单机制,将群发常用词、广告电话和网址等加入黑名单,对含有黑名单内容的帖子进行限制或清除。黑名单应该不断维护,以堵截原有垃圾词汇发生变形和新生垃圾词汇。
5,对站内的异常进行监控。发现注册量、帖子数,甚至站点流量爆增后,及时发现和查找原因。
6,对站点内用户的行为进行监控
1)部分异常用户的ID结构有别于普通用户,如使用无意义的字母数字、或几个单个汉字的无序组合,如:gtu4gn6dy1、蝶淑琴;使用商业词作为ID,如:轴承天地7、hangkongfuwu123。
2)发布内容间隔过短
3)发布的内容绝大部分非常类似
4)发布的大部分内容里含有类似的特征,如某个网址、电话、QQ号码等联系方式
7,不允许发布带有可执行代码的内容,避免弹窗、跳转等严重影响用户体验的情况发生。
8,对部分web2.0位置提及的链接,使用“nofollow”进行标记,如:bbs签名内的链接、BLOG回复ID自置的链接
http://cang.baidu.com/spamcase/snap/a3103920926c494f0e3030ad.html
9,论坛中的广告、灌水版块,建议加上权限限制,或者禁止搜索引擎收录。
10,关注建站程序的安全更新,及时安装补丁程序。保障用户账号安全,避免发生盗用正常用户账号或历史沉寂用户账号发布垃圾内容的情况发生。
nofollow–节省google的抓取效率
很多朋友会把网站的不需要URL放在ROBOTS.TXT中这样google就不会去抓取这些URL了,这样也许不会有什么错误,可是细心的朋友会发现虽然用ROBOTS.TXT屏蔽了但是google每次还是会去刺探这些URL的 (为什么我能知道他会刺探呢?google webmaster tool 中就能体现的出来—-反映出你ROBOTS.TXT的错误信息只有在刺探的情况下才能得知),同时google蜘蛛在一定的时间内在你网站上面的抓取量是一定的,这样就会由于每次的刺探导致抓取量减少,可是利用nofollow就会不一样的,使用了nofollow后google看到就直接不会抓取,不会浪费抓取次数。 所以利用nofollow会提高爬虫的效率。
5.1
压力很大,可是弹力也越大 。。。。共勉
累啊
SEO你伤不起。。。。。。大半夜还未入眠。。。。。让我情何以堪
马云:写给在工厂上班的同学们
或许你现在背井离乡,生活过的马马虎虎,拿着2-3千的工资,有电视看有电脑玩,这就够了,但是未来在哪里?
下面的话请耐心看完,也许会对你有一些的帮助!
每年,制造业都会吸纳很大一部分大学毕业生,在这些职场新人庆幸找到工作,对未来充满憧憬的时候,他们的前辈——已在制造业内打拼了几年的师兄师姐们——却怀着深深的忧虑,他们不知道未来会怎样?他们不知道何时会被抛弃?
职业生涯的O形路口
不管何种企业,大学毕业生进入其中从事研发、业务、生产、采购、人事等工作都要从零学起。两三年过去了,这些大学生的职位会从储干、技术员、工程师慢慢做到主管,工资也从2K、3K变为5K。看起来有着不错的职业发展,然而事实上他们中大部分人的职位会停留在工程师及主管这个阶段,工资也会停留在3K至4K左右,之后再难有进展。从主管至经理,工资发展到5K以上对绝大多数大学生来说是很难实现的。当大部分人在前进的道路上停留下来后,他们就将在职业生涯的O形路口无休止地循环,看不到尽头,当尽头出现之日,很可能就是他们被抛弃之时。
一个公司中,最有技术含量并创造最大利润的是研发部与业务部,但制造业公司往往都只是一个代工车间。那些外资企业,他们的研发、销售中心都放在国外,中国的公司仅仅只是作为产品制造环节。虽然这些公司在国内也设有研发中心和销售中心,但产品的原创设计都在国外完成,国内的研发人员只是接收图纸,然后安排开模,将产品实现。这种情况下,国内的研发工程师更确切地说只是一个产品实现技术员,至于设计方法、设计理念、工程技能和他们关系不大,他们也很难掌握真正的核心技术。外企在国内设立的销售中心功能更加单一,主要是接收国外业务人员转过来的制造订单,并跟踪订单完成情况确保出货,销售技巧、营销手段、市场开拓这些都与他们绝缘。而国内民营企业在这些方面则更为不堪。
其他与产品制造有关的如生产、品管、生管、采购等职位,其中的技术含量或者说从业人员的价值更低。技术含量低则意味着门槛低,门槛低则意味着不可替代性低,不可替代性低则意味着被淘汰的可能性高。在企业中,生产、品管、生管、采购人员被老板炒鱿鱼是最多的,你上午还在上班,或许下午人事就通知你离开。制造业公司的人事部每天做的就是致力于招人,或者说低工资招人,而不是致力于留住人,因为人才市场上有的是价廉物美的新毕业生。当年,你花了一年左右的时间就能轻松胜任所担任的职务,那么你的师弟师妹凭什么就不可以呢?尤其是在外资企业,他们往往以每月1千多的工资招募一个大学毕业生,两年后,当他的工资需要增长时,将其换掉,再招一个毕业生,如此往复循环,将人力成本控制到最低。这些企业的核心竞争力就是廉价的劳动力成本。
老话说男怕入错行,入行后想再转行的难度显而易见。当你进入制造行业,再转入其他行业的可能性极低。你只能在这个行业内转,如果哪天离心力过大,被甩出圈子,那将是一切悲剧的开端。当城市产业升级,人到中年的你又如何自我升级?当工厂搬迁,拖家带口的你难道又开始候鸟迁徙?当公司关闭,已显富态的你难道又开始奔走在各个人才市场,忍受着招聘人员的白眼和无耐,与那些刚走出学校的大学生竞争?
制造业公司普遍缺乏培训提升机制,处在公司中层的大学生在公司里并没有不可替代的作用,高层职位有限且要求很高,后来者中又有很多优秀者,在整个人才需求不断扩大的情况下,新求职者的期望下探,中间层处在前无进路后有追击的尴尬之中,看起来失去自己生存空间的日子并不遥远。长江后浪推前浪,前浪恐怕真的只能死在沙滩上了。
要知道你并不处于一个大锅饭或者铁饭碗的行业,逆水行舟,当不利的环境出现时,你是否能确保被抛弃的那些人中必定没有你……?
与世隔绝的社会生活
人是社会化的生物,和前程黯淡相比,与世隔绝的工厂生活更能使人自卑与绝望。你努力挣扎向上,想脱出现有的阶层,最终发现是那么的无力,而年华却已老去。
当你走出大学进入工厂,你会发现自己的生活世界是那么狭小,你的活动范围基本是工厂、出租屋、超市。你和生产线上那些天天重复同一个工作的普工并没有什么区别。除了上班和睡觉,你最重要的活动就是去超市购买所需的生活用品。其他的社会生活最多也就是与同事打牌、喝酒,你建立不起自己的社会资源。你孤身一人在外地打拼,身边没有父母亲人,只有一帮同病相怜的同事,当你需要帮助的时候,需要维护自己的权益的时候,身边的人都无能为力。你的生活圈是那么的狭窄,人际交往显得那么苍白。有一天,你离开了现在的工厂去到另外一个地方,现有的同事朋友都会失去联系,你需要在新的公司重新来过。那无奈的漂泊注定了总是在重复地画着大小不一但形状相似的圈。
春夏秋冬四季转换,你的工作服也在冬夏间轮转,你和所有的外地人都没有明显区别。在本地人眼中你们都只是打工的而已。如果你很乐观的话,倒是可以把公司的工作服看作是一种福利,冬夏各两套,从周一穿到周五周六,基本上不需要再多买什么衣服。毕竟你可以自由地穿自己衣服的时间一周也只有那么一两天。
此外,工厂食堂每天会给员工提供伙食标准为十块钱左右的工作餐。伙食费有些公司要从员工工资里扣除,有些公司则当作一种福利完全免费。但食堂饭菜的难以下咽很多人都深有体会,发霉的面包、没削皮的土豆、黄色的青菜、无从查证的劣质油等等,花样百出。在外租住的员工还可以在周末时自己改善一下伙食,住在宿舍的只能奢望偶尔在饭店里的应酬了。
公司提供的宿舍则多为四人间、八人间。当然,条件远比不上大学的集体宿舍。很多人为了有自己的私人空间,情愿每个月花费三四百块钱租一个十多平米的房间,这种房间多为厨、卫、阳台三位一体。蚁居于这样的房子里,关上门则如同囚禁在一个封闭的牢房里,打开门则所有的东西一目了然,没有隐私可言。然后,你会购买一些简单得不能再简单的家具,包括必备品桌子、凳子、衣架。而洗衣机、冰箱、空调则是绝对的奢侈品。一是需要花钱,无力承担;再就是房间太小,摆放不下。也有些已婚人士一家两口或三口挤住在这个小房子里,区别就是家具相对更完整一些。但这里给不了你家的感觉,你只是一个租客,你只是暂住在这里,当你买东西的时候你会时时考虑以后搬家会不会太麻烦,你不知道明天是否还在这里。当房东需要提高租金时,你是没有多少谈判的能力的,要么接受新的租金,要么就搬走。
在这种生活状态下,婚姻成为很多大学生不敢面对的问题。你的生活圈决定了你交际的人大多和你一样,大家同病相怜,没有能力去摘取爱情的果实。工厂里三十左右的单身柜族比比皆是,不是不想结婚,是找不到结婚的人,是不敢面对没有房子的婚姻,是不敢去想孩子的抚养问题,是不敢承担那贫贱夫妻百事哀的未来!“宁愿坐在宝马中哭泣,也不愿坐在自行车后笑”,听起来功利,却也包含一种无奈。
如果你已成婚,那最让你纠结的就是孩子的入学以及对父母的照顾。你只是暂住在本地,你的孩子没有权力上那些好的公办学校,或者说你没有能力交那么大一笔的赞助费,而民办学校的教学质量又不能让你放心。毕竟,读书是你能想到的唯一能改变自己孩子未来的救命稻草。你只好无奈地将你年幼的儿女送回老家,回到爷爷奶奶身边成为留守儿童。每周的电话是你最开心的时刻,在外的苦累在孩子的笑声中都会消融。你在心里默默企求上苍,让自己的父母和孩子平平安安,无病无灾。任何一点风吹雨打就可能让你刚刚起步的家陷入泥沼。
你每年只能回家一到两次看一下逐渐老去的父母和日渐长大的孩子。因为没有假期,因为没有存款,因为路途太远往返不便,因为所有的因为。为了生存,你离开生活了二十年的家乡,但在他乡却无力构建一个属于自己的家,如同水中浮萍,没有根,心也不能降落。
明天在哪里?
来到城市的大学生对未来最大的期望是能走出父辈贫苦生活的轮回,让自己进入更高一个阶层,为下一辈创造一个更好的起点。但当你已年入不惑,自身可以贩卖的价值已所剩无几,而城市却不再需要你的时候,你难过落魄地回到老家,让你的儿女从你二三十年前的起点重新出发,再画着一个和你一样的圆?作为大学生的你无力改变自己的命运,难道你能保证你的下一代能顺利地考上大学并改变命运……?
经济改革的初期、扩招后大学生毕业的初期、经济处于上升周期等等这些都极易让找到工作特别是较满意工作的***,你极易停下自己前进的脚步,但十五年、二十年后,情况还会和现在一般乐观吗?失业真的是那么遥不可及吗?当它来临的时候,你将发现你被整个世界所抛弃!当你四十岁左右的时候失去工作,没有任何收入来源,你将如何面对年迈的父母、苦难相随的伴侣、十七八岁的孩子?!
城市很大,外面的世界也很精彩,在这个只许进很难出的围城里,作为打工的大学生们你是否有了足够的储备以避免属于你的精彩落幕呢?!
忠告:打工只能求生存!创业才是唯一的追求!成功才是目标。
平台有三个:可以创造一个平台;也可以购买一个平台;还可以借用一个平台。
概念的选择:做事(寻求生存);市场(寻求生意);趋势(寻求发展)。选择大于努力!选择不对,努力白费。
改变:改变自己;帮助他人改变;改变环境。只有改变,才能成就自己。
如果你现在感觉很触动,很现实,不放好好的静下心来好好的想想自己的未来在哪里,自己是愿意拿着两三千,三四千的工资安稳的想这样生活着,还是有自己的理想,社会是残酷的,师哥师姐们用他们的亲身体会告诉了我们,再大的理想会在我们打工安稳的工厂生活中给磨灭的!
此时的你不防想想:
1、我的理想是什么?(我想很大一部分同学不知道吧,很盲目,其实我也是)
2、我下一个目标在哪里?(当你把第一个想通的时候,这个就是你眼前摆着的问题,是你拟定计划的开始。)
3、我有能力做什么?(这是一个最关键的问题,但也是一个次要的问题,因为能力是培养的,当你的理想和目标都明确是,只要你坚持不懈的向着自己的理想和目标走去,能力自然就要得到提高!但现在你一定要认清自己的能力,这样才能为自己定好目标。
windows主机开启Gzip
今天和大家说的是windows主机开启Gzip,至于为什么开启Gzip压缩,开启这个压缩有什么好处不是我们今天的重点(以后有时间在和大家分享下)
首先需要给存放压缩的文件建立一个文件夹同时必须给这个文件可以写入的权限(这个是一个前提)不然是不会成功的 如果是动态文件就没有这个必要了 因为它的页面是每次都动态生成的,压缩完就放弃 这个文件是做为临时目录使用的
然后在IIS管理器中,“网站”上面右键-属性,不是下面的某个站点,而是整个网站。进入“服务”标签,选上启用动态内容压缩,静态内容压缩。然后选中网站下面那个服务器扩展,新建一个服务器扩展。名字无所谓(Gzip),下面的添加文件的路径是: c:\windows\system32\inetsrv\gzip.dll,然后启用这个扩展
同时用记事本打开c:\windows\system32\inetsrv\MetaBase.xml 我们需要对这个文件进行修改利用查找功能找到 找到Location =“/LM/W3SVC/Filters/Compression/gzip用于设置gzip压缩,找到Location =”/LM/W3SVC/Filters/Compression/deflate“用于设置deflate压缩 至于gzip压缩和deflate压缩的区别以后有时间在和大家分享 对照图片自己进行设计
注意:建立文件夹时候一定要注意文件夹要有写入的权限 同时MetaBase.xml在保存这个文件夹的同时需要停止 “IIS Admin Service” 这个服务 最后重启Iis就可以生效了
http请求大致过程
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP,使HTTP客户(如Web浏览器)能够从HTTP服务器(Web服务器)请求信息和服务,HTTP目前协议的版本是1.1.HTTP是一种无状态的协议,无状态是指Web浏览器和Web服务器之间不需要建立持久的连接,这意味着当一个客户端向服务器端发出请求,然后Web服务器返回响应(response),连接就被关闭了,在服务器端不保留连接的有关信息.HTTP遵循请求(Request)/应答(Response)模型。Web浏览器向Web服务器发送请求,Web服务器处理请求并返回适当的应答。所有HTTP连接都被构造成一套请求和应答
Web浏览器与Web服务器之间将完成下列7个步骤:
(1) 建立TCP连接
简单说下google的sitemap中的一些信息
好久没有更新文章了,主要是工作太忙了,总是觉得一天的时间好短,相信做seo的应该都有体会吧 时间不够用 一晃一个上午就过去了 .今天就来简单的说下google的sitemap中的一些细节的东西,也许有很多人已经知道了 …大牛就请飘过了 我写文章就两个目的 一个就是分享给那些 还不了解的seoer 还有一个就是在写的过程中 还能给自己加深下印象(本人脑子笨 其希望体谅) 同时把自己的思路在用文字表达出来的过程中还能有其他的一些新的体会(个人感觉这个非常重要)
Google 不保证一定会抓取所有网址并将其编入索引。但是,我们会使用站点地图中的数据了解网站的结构,这样可以让我们改进抓取工具的计划,并在日后能更好地对网站进行抓取。大多数情况下,网站管理员会因提交站点地图而受益,而决不会为此受到处罚。
- 网站含动态内容。
- 您的网站中包含在 Googlebot 抓取过程中不易发现的网页,例如含有富 AJAX 或图片内容的网页。
- 网站为新网站且指向该网站的链接不多。(Googlebot 会跟随链接从一个网页到另一个网页抓取网页,因此,如果您的网站没有很好地链接,我们可能很难发现它。)
- 网站有大量内容页存档,这些内容页彼此之间没有很好地链接,或根本就没有链接。
从上面引用的 大家都知道google的sitemap可以帮助网站解决收录的问题 可是还有一个隐含的信息不知道大家是否有发现
Google 不保证一定会抓取所有网址并将其编入索引。但是,我们会使用站点地图中的数据了解网站的结构,这样可以让我们改进抓取工具的计划,并在日后能更好地对网站进行抓取
下面我们一句一句来分析
Google 不保证一定会抓取所有网址并将其编入索引
从这个就可以说明为什么我们在google web master tool看到已经提交的网址的数量是一定的 可是真正网页索引中的实际网址总是低于已经提交的网址的数量
我们会使用站点地图中的数据了解网站的结构,这样可以让我们改进抓取工具的计划,并在日后能更好地对网站进行抓取
从上面的引用可以看到google可以从你提交的sitemap提供的数据去了解你网站的结构,那么站点地图里面都提供了哪些值得googlebot去了解的数据呢?我们进行一步一步的细分
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
lastmod标记 是来告诉google上次修改网页的时间,这个是在访问地图的时候会告知同时也不是必须的
所以google把这个属性设置成可选 因为google还可以从http头《这个以后我有时间给和大家讲解的》
了解这个网页是否更新
changefreq标记 这个标记说明网页可能发送的更改频率 这个标记一般是提示googlebot的并不是像
robots那种是命令式的要googlebot必须去遵守 所以google可以遵循也可以不遵循 尽管这样googlebot
在作出决定的时候还是会考虑这个信息的,所以也设置成了可选项
priority标记 这个标记说明的网站上面所有网页的相对优先等级(这个特别在注意的是 这个标记是针
对的是一个网站上面所以的网页而言)前提是同一个网站 而不是不同网站上不同页面之间的 所以这里
希望大家明白 这个优先等级的范围是从1.0-0.1 极其重要---一点都不重要这里有大家也许会认为 那
么我可以把我的网页全部设置成1.0这样排名就非常好了 其实这样的做法是错误的(违背了了同一个网
站的前提了 再次说下这里优先等级是对于同一个网站中不同的页面而言的) 这个选项也设置了可选
google对priotity标记的解释
设置网页的优先级绝不会影响您的网站在 Google 搜索结果中的排名。搜索引擎在同一网站的不同
网址之间进行选择时会用到此信息,因此,您可以使用此标记来增加相对重要的网页显示在搜索
索引中的几率。优先级值不会影响您的网页与其他网站上网页的比较结果。由于该值是相对于您网站上的
其他网页而言的,并不是相对于整个网络中的其他网页,因此为您网站上的所有网址指定高优先级对
您网站的搜索排名并没有帮助。此外,将所有网页设置为同一优先级也不起作用。
1:虽然google把这个标记设置成可选但是如果添加上这个标记可以告诉googlebot我们的同一个网站
中不同网页的重要程度关系 这里就是权重的体现 这个权重是相对于站内的不同页面体现出来的.
2:了解搜索引擎的工作的大致原理的人应该知道 有这么一个控制器是他是控制爬虫的要爬的网站和爬的频率
等其他 他们把网站地图中收集的一些有用的信息提供给控制器 然后有控制器根据这些信息来指导爬虫爬取
我们的网站 这里重点介绍下priotity标记提供的信息的作用:搜索引擎的资源也是有限的 不可能一次性把所有的
页面全部抓全 这样就考虑到一个就是在有限的资源里面和既定的时间内抓取那些重要的高质量的页面 在短时间内
(特别是新站)搜索引擎是没有办法判断这个网站中哪个页面重要哪个页面不重要 这个时候我们就用priotity标记
来帮助他判断哪些页面是重要的哪些是不重要的
小学老师死的早 哎 写的不好还望不要喷
google 管理员添加的小功能
现在,网站站长工具中的“Googlebot 抓取方式”功能提供了一种向Google提交全新的URL以及更新URL的收录方法。如果您像Googlebot那样成功抓取了一个URL,那么,您将会看到提交该URL到我们的索引这一选项。当您以这样的方式提交URL后,通常在一天之内,Googlebot就会抓取该URL。然后,我们会考虑是否将其列入我们的索引中。但请注意,我们不保证以这种方式提交的每一个URL都会被收录;我们仍然会使用常规流程——也就是我们用于发现其他URL的流程,来评估某一URL是否适合我们的索引。
这一新功能可在多种情况下为您提供帮助:如果您刚刚推出了一个新网站,或者增加了一些重要的新页面,您可以要求Googlebot立即查找并抓取它们,而不是等待我们去发现它们。您也可以提交已经收录过过,但有内容更新的URL,以刷新这些URL,比如说,如果您更新了关于自己将在本周末举办的活动的某些关键内容,并希望能够确保我们及时看到这些更新,您可以求助于 “Googlebot 抓取方式”。又或者,您不小心发布了一些本无意发布的信息,在从网站上删除这些信息之后,也希望能对我们的缓存版本—网页快照进行更新,在这时候,“ Googlebot 抓取方式”也可以提供帮助。
如何提交一个URL
首先,使用“诊断程序”> “ Googlebot 抓取方式”,抓取您想要提交给Google的URL。如果成功抓取了该URL,那么,您将会在该被抓取的URL旁边,看到一个新的“提交到索引”的链接。

一旦您点击“提交到索引”,就会看到一个对话框,让您选择是否只提交一个URL,还是该URL及其所有链接页面。

在提交单个URL时,我们每周的最高限额是提交50次;提交带有全部链接页面的URL时,限额是每月10次。您可以在 “Googlebot 抓取方式”页面上看到剩余的提交次数。提交的任何URL上的页面内容都应该适用于Google网页搜索,所以,如果您想提交图像或视频,则应该使用。
在未经审查的情况下向Google提交URL
除了对 “Googlebot 抓取方式”进行本次更新外,我们还更新了“添加您的URL到Google”表单。现在,该表单已更名为。它具有和”Googlebot 抓取方式”功能相同的向索引提交网页方面的配额限制,但不要求验证所涉及网站的所有权,因此,您可以提交任何想要抓取和索引的URL。

请注意,Googlebot在及时发现并抓取新内容上表现得已经相当好,所以您不需要强迫对网站上的每项变化或者更新都使用这个工具。不过,如果您想加快某一URL抓取或收录的速度,不妨考虑使用抓取URL表单或网站站长工具中经过更新的”Googlebot 抓取方式”功能来提交该URL。如果您有更具体的问题,请在这里发表您的评论,或访问我们的网站管理员帮助论坛。
浅谈百度三种中文分词技术
中文分词技术是搜索引擎对于用户提交查询的关键词,搜索引擎用中文分词把词按照一定的规格,将一个长尾词分割成几个部分,从而概括一段话的主要内容,让用户能更快速度的找到想要的内容。
搜索引擎最常用的几种分词方法有三种:
一、字符串匹配的方法;(字符串匹配的分词一般为3种:1.正向最大匹配法;2.逆向最大匹配法;3.最少切分)
二、理解分词方法;
三、统计分词方法。
字 符串匹配方法:在百度中搜索“我喜欢玩宠物连连看”而在百度排名第一位的是以标题和搜索的长尾词相符合,说明在网站条件相当的情况下,先显示标题匹配的网 页。这样文章标题中的长尾是在排名中非常重要的。而在百度第二页“我喜欢玩宠物连连看”用百度快照查看,很显然长尾词已经被分成“我喜欢,玩,宠物连连 看”而在外后已经被分成:“我,喜欢玩,宠物,连连看”,这种匹配方法是最少切分方式。
理解分词方法:当输入的字符串中包含≤3个中文字符的话百度分词就会直接接到数据库索引词汇;而当字符串长度》4个中文字符的时候,百度中分词会会把这个词分成若干个字符。如:百度搜索“电动车”。
统计分词方法:相邻的字同时出现的次数越多,中文分词就会可能把出现相邻的字当成你一个词。例如在百度中输入一个字符“网”而在下面百度也把“网站”标红了,这样可以看得出“网”与“站”这两个字符相邻出现的次数非常多,统计分词已经把“网站”纳入了词库。
对于百度中文分词的理解:
中文分词中强调一点:“按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配”;长尾词在文章中的间距也是决定文章排名的因素。如:“我喜欢玩宠物连连看”在百度第十三页的时候已经被分词成“我,喜欢,玩,宠物,连连,看”
全字匹配得到的词的权重会高于分开的词的权重。
根据自己的观察现在百度大部分都是使用的是正向匹配。
百度分词对于一句话分词之后,还会去掉句子中的没有意义的词语。