快捷导航
        就是像这种样子的标题,只能爬显示出来的字数,有没有办法爬完整的?
        ball ball 大佬求教

        捕获2.PNG (106.4 KB, 下载次数: 5)

        捕获2.PNG
        举报 使用道具
        | 回复

        共 6 个关于本帖的回复 最后回复于 2019-12-6 22:10

        沙发
        Fuller 管理员 发表于 2019-12-2 21:57:45 | 只看该作者
        有几个可选方案:
        1,先检查一下DOM,看看有没有一个存了完整内容的节点。通常来说,显示长度是受前端控制的,浏览器可大可小,所以,这些内容一定预留了很长,根据实际屏幕大小截取。那么,DOM上一定会有更长的内容
        2,如果这个网站不是前端控制的,那么就要进入到每个帖子的详情页去夜夜在线看片完整的标题
        举报 使用道具
        板凳
        qingnianwenzhaishu 新手上路 发表于 2019-12-6 18:36:07 | 只看该作者
        Fuller 发表于 2019-12-2 21:57
        有几个可选方案:
        1,先检查一下DOM,看看有没有一个存了完整内容的节点。通常来说,显示长度是受前端控制 ...

        试了第二种,现在问题是二级链接爬取的每一条数据都存成了一个xml,而且是没有表头的。
        能不能二级链接的xml表都加上表头?
        或者多条数据存于一个xml?


        举报 使用道具
        地板
        Fuller 管理员 发表于 2019-12-6 20:30:13 | 只看该作者
        qingnianwenzhaishu 发表于 2019-12-6 18:36
        试了第二种,现在问题是二级链接爬取的每一条数据都存成了一个xml,而且是没有表头的。
        能不能二级链接的 ...

        参看这个文章,把xml转换成excel: https://www.gooseeker.com/doc/article-329-1.html
        举报 使用道具
        5#
        qingnianwenzhaishu 新手上路 发表于 2019-12-6 20:45:25 | 只看该作者
        Fuller 发表于 2019-12-6 20:30
        参看这个文章,把xml转换成excel: https://www.gooseeker.com/doc/article-329-1.html

        用这个,没有表头的也能合并吗



        举报 使用道具
        6#
        qingnianwenzhaishu 新手上路 发表于 2019-12-6 20:47:30 | 只看该作者
        Fuller 发表于 2019-12-6 20:30
        参看这个文章,把xml转换成excel: https://www.gooseeker.com/doc/article-329-1.html

        是二级链接有问题吗,可以爬出想要的效果,但是每一条数据都另存了一个xml还不加表头?会不会是规则哪里出了问题?
        举报 使用道具
        7#
        Fuller 管理员 发表于 2019-12-6 22:10:51 | 只看该作者
        qingnianwenzhaishu 发表于 2019-12-6 20:47
        是二级链接有问题吗,可以爬出想要的效果,但是每一条数据都另存了一个xml还不加表头?会不会是规则哪里 ...

        爬虫下载下来的原始结果文件就是xml文件,一个网页一个文件,要合并的话就先导入到数据库中,然后再导出来,就是excel格式的了
        举报 使用道具
        您需要登录后才可以回帖 登录 | 立即注册

        精彩推荐

        • 内容分析法中的抽样
        • 豆瓣电影的情感分析
        • 一本在线图书——社交网络分析介绍
        • 网络爬虫夜夜在线看片html片段时无法生成结果文件怎
        • 网络爬虫占满了c盘怎么清理

        热门用户

        GMT+8, 2020-1-13 18:33