博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫教程:jsonPath
阅读量:2069 次
发布时间:2019-04-29

本文共 1848 字,大约阅读时间需要 6 分钟。

jsonPath

这个是Python自带的轻量级的数据交换格式,这个与XML相较比不相上下.

json.loads()

  1. Python中的json 模块
    - 提供了四个功能 : dumps,dump,loads,load 用于字符串和Python数据类型进行转换

把Json格式字符串解码转换成Python对象 从json到python的类型转化对照如下:

'''想要学习Python?Python学习交流群:973783996满足你的需求,资料都已经上传群文件,可以自行下载!'''import jsonstrList = '[1, 2, 3, 4]'strDict = '{"city": "北京", "name": "范爷"}'json.loads(strList) # [1, 2, 3, 4]json.loads(strDict) # json数据自动按Unicode存储# {u'city': u'\u5317\u4eac', u'name': u'\u5927\u732b'}

json.dumps()

实现python类型转化为json字符串,返回一个str对象 把一个Python对象编码转换成Json字符串

从python原始类型向json类型的转化对照如下:

'''想要学习Python?Python学习交流群:973783996满足你的需求,资料都已经上传群文件,可以自行下载!'''import jsonlistStr = [1, 2, 3, 4]tupleStr = (1, 2, 3, 4)dictStr = {"city": "北京", "name": "范爷"}json.dumps(listStr)# '[1, 2, 3, 4]'json.dumps(tupleStr)# '[1, 2, 3, 4]'# 注意:json.dumps() 序列化时默认使用的ascii编码# 添加参数 ensure_ascii=False 禁用ascii编码,按utf-8编码json.dumps(dictStr) # '{"city": "\\u5317\\u4eac", "name": "\\u5927\\u5218"}'print(json.dumps(dictStr, ensure_ascii=False))# {"city": "北京", "name": "范爷"}

json.dump()

将Python内置类型序列化为json对象后写入文件

import jsonlistStr = [{"city": "北京"}, {"name": "范爷"}]json.dump(listStr, open("listStr.json","w"), ensure_ascii=False)dictStr = {"city": "北京", "name": "范爷"}json.dump(dictStr, open("dictStr.json","w"), ensure_ascii=False)

使用这个的好处

  1. 如果网页是用ajax来进行 数据交互的,

  2. 使用jsonPath 就是可以直接使用url 来进行获取数据,相对于其他就更加的方便

  3. 示例

我们以拉勾网城市JSON文件  为例,获取所有城市

from urllib.request import urlopenfrom urllib.request import Requestimport jsonpathimport jsonurl = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'request =Request(url)response = urlopen(request)html = response.read()# 把json格式字符串转换成python对象jsonobj = json.loads(html)# 从根节点开始,匹配name节点citylist = jsonpath.jsonpath(jsonobj,'$..name')print(citylist)print(type(citylist))fp = open('city.json','w')content = json.dumps(citylist, ensure_ascii=False)print(content)fp.write(content)fp.close()

 

转载地址:http://linmf.baihongyu.com/

你可能感兴趣的文章
转: 关于Linux与JVM的内存关系分析
查看>>
(转)Java 程序员必备的高效 Intellij IDEA 插件
查看>>
局域网(内网)docker安装及代理访问
查看>>
软考 英语学习
查看>>
maven 文件上传到远程服务器目录
查看>>
shell 脚本免密远程访问
查看>>
Linux平台Oracle多个实例启动说明
查看>>
在LINUX平台上手动创建数据库(oracle 10g)(在一个oracle服务器上启动两个实例)
查看>>
Oracle 10g 下载地址
查看>>
Linux 下 新增Oracle10g 实例
查看>>
LRM-00123 ORA-01078
查看>>
ORA-01102: cannot mount database in EXCLUSIVE mode
查看>>
专栏结语
查看>>
BERT 实战
查看>>
BERT 基础
查看>>
什么是 Transformer
查看>>
简述 XLNet 的原理和应用
查看>>
实战:为图片生成文本摘要
查看>>
论文复现:用 CNN 进行文本分类
查看>>
多复杂的 CNN 都离不开的这几个基本结构
查看>>