在QQ聊天窗口里面输入网址就回显示它的正文摘要如何实现的2016年7月8日网页q
大站门户站,腾讯免费做。=================11楼=====================
二楼说找description标签,但有些网站没有这个标签,你就要自己找别的方式取有用信息了。
在QQ聊天窗,不是输入所有网址,都有摘文信息,一般只算是腾讯自己内部的新闻或视频吧。
原理应该就类似这样吧,但具体我也没做过这些,也只是了解一点,你自己可以再多搜索下爬虫等相关技术。
正则只是用来获取自己想要的某些规则的内容,如,你只想要这个网页的QQ号,QQ号一些是6-10位数字,你要写一个匹配6-10数字的正则表达式,再去取值
正则只是用来获取自己想要的某些规则的内容,如,你只想要这个网页的QQ号,QQ号一些是6-10位数字,你要写一个匹配6-10数字的正则表达式,再去取值
如果你要做这个,也只能去解析该网址返回的数据文档,再从中,用正则等方式去获取自己想要网站摘要等信息,再显示出来。
如果你要做这个,也只能去解析该网址返回的数据文档,再从中,用正则等方式去获取自己想要网站摘要等信息,再显示出来。
二楼说找description标签,但有些网站没有这个标签,你就要自己找别的方式取有用信息了。=================4楼=====================
不单纯是爬虫,可能需要一些高精确率信息抽取的算法支持。=================7楼=====================该回复于2014-03-3017:13:42被管理员删除=================8楼=====================
正则只是用来获取自己想要的某些规则的内容,如,你只想要这个网页的QQ号,QQ号一些是6-10位数字,你要写一个匹配6-10数字的正则表达式,再去取值
qq也就他自己的能读取新闻内容而已,其实也不是摘要,就新闻内容去掉了html标签的前几十个字而已。。
原理应该不难,说白了就是ajax技术,输入完网址,把该网址自动提交到腾讯的后台进行处理,然后处理完,把返回的信息再显示出来。
抽取算法基本很难实现。。记得看过一条新闻说是谷歌收购一个别人写的英文的自动摘要的东东,化了几百w美刀,不知道楼主能否达到这种境界?而且中文的还要涉及分词,要是楼主写出来了开源下啊。。嘿嘿
抽取算法基本很难实现。。记得看过一条新闻说是谷歌收购一个别人写的英文的自动摘要的东东,化了几百w美刀,不知道楼主能否达到这种境界?而且中文的还要涉及分词,要是楼主写出来了开源下啊。。嘿嘿
这方面就涉及到网络爬虫等相关技术了,百度,google就是这样去获取网络上公开站点的信息,然后把数据导入自己的数据库中,供用户查询。
抽取算法基本很难实现。。记得看过一条新闻说是谷歌收购一个别人写的英文的自动摘要的东东,化了几百w美刀,不知道楼主能否达到这种境界?而且中文的还要涉及分词,要是楼主写出来了开源下啊。。嘿嘿=================9楼=====================
征求大牛网页正文抽取算法及实现。=================14楼=====================肯定不是TX后台处理的,是QQ的客户端直接完成的,把网址进行验证,成功后取出部分文字,直接贴到网址下。=================15楼=====================网页信息抽取貌似没什么人研究啊=================16楼=====================顶一下!!!=================17楼=====================楼主解决这个问题了吗?如果您还有更好的解决方法,请在最下面评论中留下您的解决方法
原理应该不难,说白了就是ajax技术,输入完网址,把该网址自动提交到腾讯的后台进行处理,然后处理完,把返回的信息再显示出来。
不单纯是爬虫,可能需要一些高精确率信息抽取的算法支持。
一个网站首页的,内容,五花八门,有公司介绍,有联系方式,有手机号,QQ号,邮箱地址等等。。
原理应该就类似这样吧,但具体我也没做过这些,也只是了解一点,你自己可以再多搜索下爬虫等相关技术。
不单纯是爬虫,可能需要一些高精确率信息抽取的算法支持。
在QQ聊天窗,不是输入所有网址,都有摘文信息,一般只算是腾讯自己内部的新闻或视频吧。
如果是新闻,还有新闻标题,内容啊。。。
一个网站首页的,内容,五花八门,有公司介绍,有联系方式,有手机号,QQ号,邮箱地址等等。。
不单纯是爬虫,可能需要一些高精确率信息抽取的算法支持。
如果你要做这个,也只能去解析该网址返回的数据文档,再从中,用正则等方式去获取自己想要网站摘要等信息,再显示出来。
这方面就涉及到网络爬虫等相关技术了,百度,google就是这样去获取网络上公开站点的信息,然后把数据导入自己的数据库中,供用户查询。
原理应该不难,说白了就是ajax技术,输入完网址,把该网址自动提交到腾讯的后台进行处理,然后处理完,把返回的信息再显示出来。
正则只是用来获取自己想要的某些规则的内容,如,你只想要这个网页的QQ号,QQ号一些是6-10位数字,你要写一个匹配6-10数字的正则表达式,再去取值
楼上的是研究生学历?学术界貌似提出了一些算法:基于统计的、基于dom树的、基于视觉分块的、基于标签密度的。。。但是真正能用的系统貌似不多。=================10楼=====================这个小站的话需要给腾讯交钱的。除非你开发一个程序,偷偷安装到客户端,修改别人的QQ程序。
正则只是用来获取自己想要的某些规则的内容,如,你只想要这个网页的QQ号,QQ号一些是6-10位数字,你要写一个匹配6-10数字的正则表达式,再去取值
正则只是用来获取自己想要的某些规则的内容,如,你只想要这个网页的QQ号,QQ号一些是6-10位数字,你要写一个匹配6-10数字的正则表达式,再去取值=================6楼=====================
如果是新闻,还有新闻标题,内容啊。。。
这方面就涉及到网络爬虫等相关技术了,百度,google就是这样去获取网络上公开站点的信息,然后把数据导入自己的数据库中,供用户查询。
抽取算法基本很难实现。。记得看过一条新闻说是谷歌收购一个别人写的英文的自动摘要的东东,化了几百w美刀,不知道楼主能否达到这种境界?而且中文的还要涉及分词,要是楼主写出来了开源下啊。。嘿嘿
一个网站首页的,内容,五花八门,有公司介绍,有联系方式,有手机号,QQ号,邮箱地址等等。。
新浪,网易的新闻根本就无法回显你所谓的摘要=================13楼=====================
二楼说找description标签,但有些网站没有这个标签,你就要自己找别的方式取有用信息了。
原理应该就类似这样吧,但具体我也没做过这些,也只是了解一点,你自己可以再多搜索下爬虫等相关技术。
用户提出问题:在QQ聊天窗口里面,输入网址就回显示它的正文摘要,如何实现的,具体如下:通过互联网整理获得以下解决方法:=================1楼=====================服务器端xhr捉去数据分析得到description标签的内容返回就行了,这个标签一般放的都是摘要的多=================2楼=====================这个东西不是你能掌控的范围,是tencent的一些业务范畴。。。不是说你能开发的。。。=================3楼=====================在QQ聊天窗,不是输入所有网址,都有摘文信息,一般只算是腾讯自己内部的新闻或视频吧。
如果是新闻,还有新闻标题,内容啊。。。