今早进入百度站长平台查看站内搜索时,发现百度站内搜索已全新升级到 2.0 版本!原先的站内搜索已经转移到了独立的二级域名:http://zn.baidu.com
进一步查看发现站内搜索新增了一个结果页样式设置功能:
包含如下三种自定义设置:
①、页面顶部设置
②、频道设置
③、结果样式模板
其中我比较感兴趣的是频道设置,可以更加接近搜索引擎的风格,比如百度搜索:
仔细研究了一下这个频道设置,发现要区分不同的频道,有 2 种途径:
①、不同频道使用不同的二级域名(一般大站常有的做法,比如 news.163.com);
②、提交行业模板数据,每一组 XML 数据使用面包屑标签breadCrumb来区分该内容所在频道;
很明显,张戈博客这种简单小站只能选择第二种方案,顺手把以前的 sitemap 脚本修改了下,就成功提交了!
下面分享这个 php 脚本的代码:
<?php require('./wp-blog-header.php'); header("Content-type: text/xml"); header('HTTP/1.1 200 OK'); $posts_to_show = 5000; echo '<?xml version="1.0" encoding="UTF-8"?>'; echo '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:mobile="http://www.baidu.com/schemas/sitemap-mobile/1/">' ?> <!-- generated-on=<?php echo get_lastpostdate('blog'); ?> Diy By 张戈博客(https://zhang.ge)--> <?php //不带链接的标签函数 function tagtext() { global $post; $gettags = get_the_tags($post->ID); if($gettags) { foreach ($gettags as $tag) { $posttag[] = $tag->name; } $tags = implode( ']]></tag><tag><![CDATA[', $posttag ); echo '<tag><![CDATA[' .$tags. ']]></tag>'; } } function get_page_title($page_id){ global $wpdb; $page_title = $wpdb->get_var("SELECT post_title FROM $wpdb->posts WHERE ID = '".$page_id."' AND post_status="publish" AND post_type="page""); echo $page_title; } /* 文章页面 */ header("Content-type: text/xml"); $myposts = get_posts( "numberposts=" . $posts_to_show ); foreach( $myposts as $post ) { ?> <url> <loc><![CDATA[<?php the_permalink(); ?>]]></loc> <lastmod><?php the_time('c') ?></lastmod> <changefreq>monthly</changefreq> <priority>0.6</priority> <data> <display> <title><![CDATA[<?php the_title(); ?>]]></title> <content><![CDATA[<?php echo strip_tags(apply_filters('the_content', $post->post_content));?>]]></content> <?php tagtext(); ?> <pubTime><?php the_time('c') ?></pubTime> <breadCrumb title="首页" url="<?php echo get_home_url(); ?>"/> <?php $category = get_the_category(); echo '<breadCrumb title="'.$category[0]->cat_name.'" '; $cat_ID = get_cat_ID($category[0]->cat_name); echo 'url="'.get_category_link($cat_ID).'"/>'; ?> <thumbnail loc="<?php if (has_post_thumbnail()){ echo get_post_thumbnail_url($post->ID); } else { //若主题自带特色图片函数,请填写到此处,比如 echo catch_first_image();(可留空) } ?>"/> </display> </data> </url> <?php } /* 文章结束 */ ?> <?php /* 单页面 */ $mypages = get_pages(); if(count($mypages) > 0) { foreach($mypages as $page) { ?> <url> <loc><![CDATA[<?php echo get_page_link($page->ID); ?>]]></loc> <lastmod><?php echo str_replace(" ","T",get_page($page->ID)->post_modified); ?>+00:00</lastmod> <changefreq>monthly</changefreq> <priority>0.6</priority> <data> <display> <title><![CDATA[<?php get_page_title($page->ID); ?>]]></title> <content><![CDATA[<?php echo strip_tags(apply_filters('the_content', get_page($page->ID)->post_content));?>]]></content> <pubTime><?php echo str_replace(" ","T",get_page($page->ID)->post_modified); ?>+00:00</pubTime> <breadCrumb title="首页" url="<?php echo get_home_url(); ?>"/> </display> </data> </url> <?php }} /* 单页面结束 */ ?> <?php /* 博客分类 */ $terms = get_terms('category', 'orderby=name&hide_empty=0' ); $count = count($terms); if($count > 0){ foreach ($terms as $term) { ?> <url> <loc><![CDATA[<?php echo get_term_link($term, $term->slug); ?>]]></loc> <changefreq>weekly</changefreq> <priority>0.8</priority> <data> <display> <title><![CDATA[<?php echo $term->name; ?>]]></title> <content><![CDATA[<?php echo $term->description; ?>]]></content> <breadCrumb title="首页" url="<?php echo get_home_url(); ?>"/> <breadCrumb title="<?php echo $term->name; ?>" url="<?php echo get_term_link($term, $term->slug); ?>"/> </display> </data> </url> <?php }} /* 分类结束 */?> </urlset>
将以上代码保存为 sitemap_hy.php 上传到 WordPress 网站根目录即可,然后在浏览器访问这个文件查看效果,比如:
https://zhang.ge/sitemap_hy.php
只要不报错就成功了!现在就可以前往百度站内搜索提交了:http://zn.baidu.com/cse/schema/sitemap
成功提交后,继续打开频道设置,参考下图将你博客的主要分类填入到相应栏位即可:
第二列留空则表示输出全部搜索结果,如果有面包屑,则表示从提交的 sitemap 中筛出相同面包屑的内容,全部填写完成后点击保存并查看效果了,比如,张戈博客的站内搜索地址:http://so.zhang.ge
提交结果后,就只能等待百度抓取数据并展现了,所以短时间内将如下显示:
隔了一晚上发现张戈博客的站内搜索已经开始展现数据了:
缩略图和标题都已经有了,但是内容却是一个【略】,再次看了下百度关于这个数据文件的说明。
content:如能提交全文,则不需要 spider 再抓取,既可以降低站点服务器压力,提升收录效率,也可以避免搜索系统解析误差。
好吧,既然如此,我就再折腾一下,让 content 输出文章内容!(上文代码已更新!)
最后,如果你对百度站内搜索比较感兴趣,还可以看看张戈博客的其他相关文章:
PHP 制作百度站内搜索绿色通道的网页列表数据文件
关于新版站内搜索和行业数据模板的分享就到此告一段落,下面我会继续研究下站内搜索的页面顶部设置和结果样式设置,敬请期待!