返回列表 发新帖

python爬虫问题(新手)

[复制链接]

0

好友

3

主题

0

精华

终身VIP

积分
162
学分
105

终身VIP

发表于 2019-2-27 13:15:46 | 显示全部楼层 | 阅读模式
本帖最后由 82303224 于 2019-2-27 13:44 编辑

1. 刚接触这个,目的学会爬虫,编写漏洞插件,能写exp或poc 。
2.遇到一个爬虫问题:(练手网站)


  1. import requests
  2. from lxml import etree


  3. headers = {
  4. 'Referer':'http://tl.cyg.changyou.com/goods/public?area_name=%25E7%25BA%25B5%25E6%25A8%25AA%25E5%258F%258C%25E7%25BA%25BF&world_id=5089&world_name=%25E5%259C%25A8%25E6%25B0%25B4%25E4%25B8%2580%25E6%2596%25B9',
  5. 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36 '
  6. }
  7. url = 'http://tl.cyg.changyou.com/goods/public?area_name=%25E7%25BA%25B5%25E6%25A8%25AA%25E5%258F%258C%25E7%25BA%25BF&world_id=5089&world_name=%25E5%259C%25A8%25E6%25B0%25B4%25E4%25B8%2580%25E6%2596%25B9#goodsTag'
  8. r = requests.get(url,headers = headers).text
  9. s = etree.HTML(r)
  10. print(s.xpath('//*[@id="J_good_list"]/li/dl/dt/a/text()'))
  11. print(s.xpath('//*[@id="J_good_list"]/li/dl/dt/a/span/text()'))
复制代码
结果输出:C:\Users\admin\PycharmProjects\untitled\venv\Scripts\python.exe C:/Users/admin/PycharmProjects/untitled/5173.py
[' 最后的温柔づ', ' 傲战メ秋叶', ' tracy丶默然', ' 悠然Sir', ' CLC敷衍', ' 你狠皮哦', ' 一键妃凤', ' メ霜影', ' Angle贝贝', ' ′芍药.ゅ', ' 南柯灬一梦', ' 一席素衣人ご', ' 池羙人.m', ' 夢斷ご魂殇', ' 一棵海草丶', ' 小说', ' 做你怀中猫。', ' 双塔寺第一美', ' 鸢尾。ら', ' 超大凉的崩塌']
['[逍遥 男 102级]', '[逍遥 男 102级]', '[峨嵋 男 88级]', '[武当 男 106级]', '[丐帮 男 102级]', '[逍遥 女 92级]', '[唐门 女 89级]', '[峨嵋 女 89级]', '[唐门 女 89级]', '[鬼谷 女 96级]', '[天龙 男 102级]', '[逍遥 男 102级]', '[峨嵋 女 89级]', '[唐门 女 96级]', '[逍遥 女 106级]', '[唐门 男 100级]', '[天龙 男 97级]', '[天山 男 88级]', '[峨嵋 女 103级]', '[唐门 女 89级]']

Process finished with exit code 0

疑问一:怎么才能使 名字和等级对应连起来   如:[逍遥 男 102级] 最后的温柔づ
已解决:


  1. import requests
  2. from lxml import etree

  3. headers = {
  4. 'Referer':'http://tl.cyg.changyou.com/goods/public?area_name=%25E7%25BA%25B5%25E6%25A8%25AA%25E5%258F%258C%25E7%25BA%25BF&world_id=5089&world_name=%25E5%259C%25A8%25E6%25B0%25B4%25E4%25B8%2580%25E6%2596%25B9',
  5. 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36 '

  6. url = 'http://tl.cyg.changyou.com/goods/public?area_name=%25E7%25BA%25B5%25E6%25A8%25AA%25E5%258F%258C%25E7%25BA%25BF&world_id=5089&world_name=%25E5%259C%25A8%25E6%25B0%25B4%25E4%25B8%2580%25E6%2596%25B9#goodsTag'
  7. r = requests.get(url,headers = headers).text
  8. s = etree.HTML(r)
  9. print(s.xpath('//*[@id="J_good_list"]/li/dl/dt/a/text() | //*[@id="J_good_list"]/li/dl/dt/a/span/text()'))
复制代码
输出结果:C:\Users\admin\PycharmProjects\untitled\venv\Scripts\python.exe C:/Users/admin/PycharmProjects/untitled/5173.py
['[逍遥 男 102级]', ' 最后的温柔づ', '[逍遥 男 102级]', ' 傲战メ秋叶', '[峨嵋 男 88级]', ' tracy丶默然', '[武当 男 106级]', ' 悠然Sir', '[丐帮 男 102级]', ' CLC敷衍', '[逍遥 女 92级]', ' 你狠皮哦', '[唐门 女 89级]', ' 一键妃凤', '[峨嵋 女 89级]', ' メ霜影', '[唐门 女 89级]', ' Angle贝贝', '[鬼谷 女 96级]', ' ′芍药.ゅ', '[天龙 男 102级]', ' 南柯灬一梦', '[逍遥 男 102级]', ' 一席素衣人ご', '[峨嵋 女 89级]', ' 池羙人.m', '[唐门 女 96级]', ' 夢斷ご魂殇', '[逍遥 女 106级]', ' 一棵海草丶', '[唐门 男 100级]', ' 小说', '[天龙 男 97级]', ' 做你怀中猫。', '[天山 男 88级]', ' 双塔寺第一美', '[峨嵋 女 103级]', ' 鸢尾。ら', '[唐门 女 89级]', ' 超大凉的崩塌']

Process finished with exit code 0

引申出来的疑问: 如果  [逍遥 男 102级] 最后的温柔づ   中间我还想加点别的东西隔开,都是数字的时候就需要分隔符  如   第一个值2019101088,第二个值00   就会变成  201910108800就很不方便查看了   这样  2019101088----00   (---- 或其他
疑问二:翻页好像需要for循环。自己还不行来请教一下

快速回复 返回顶部 返回列表