当前位置:首页 > 生活百科

json对象获取key值(js操作文件的读写)

栏目:生活百科日期:2025-05-14浏览:0

在爬虫开发的过程中,我们经常遇到一些 Ajax 加载的接口会返回 JSON 数据。如下图所示,是 Twitter 的用户时间线接口,返回了一段3000多行的深层嵌套 JSON:

其中的cursor这个字段,是请求下一页的必要字段,我必须把它的 value 值读取出来,拼接到请求 URL 中,才能请求下一页的内容。

现在问题来了,cursor字段在这个 JSON 里面的哪个位置?从最外层开始,我应该怎么样才能读取到最里面的这个cursor中的value字段的值?

我知道已经有一些第三方库可以直接根据字段名读取 JSON 内部任意深度的值,不过用别人的东西总没有自己写一个轮子来得过瘾。所以今天我们自己来手写一个模块,我把他叫做JsonPathFinder,传入一个 JSON 字符串和需要读取的字段名,返回从最外层开始直到这个字段的路径。

效果演示

我们用 Python 之父龟叔的 Twitter 时间线来作为演示,运行以后,效果如下图所示:

可以看到,从最外层开始一路读到cursor字段,需要经过非常多的字段名,对应到 JSON 中,如下图所示:

由于entries 字段列表中一共有20个元素,所以这里的18、19实际上对应了倒数第二条和倒数第一条数据。其中,倒数第二条的 cursor 对应的是本页第一条推文,而倒数第一条对应的是本页最后一条推文。所以当我们要往后翻页的时候,应该用的是倒数第一条的 cursor。

我们试着来读取一下结果:

非常轻松地获取到了数据。不需要再肉眼在 JSON 中寻找字段了。

原理分析

JsonPathFinder 的原理并不复杂,全部代码加上空行,一共只有32行,如下图所示:

因为一个字段在 JSON 中可能出现很多次,所以find_one方法返回从外层到目标字段的第一条路径。而find_all方法返回从外层到目标字段的所有路径。

而核心算法,就是iter_node方法。在把 JSON 字符串转成 Python 的字典或者列表以后,这个方法使用深度优先遍历整个数据,记录它走过的每一个字段,如果遇到列表就把列表的索引作为 Key。直到遍历到目标字段,或者某个字段的值不是列表也不是字典时结束本条路径,继续遍历下个节点。

代码第10-15行,分别对列表和字典进行处理。对于字典来说,我们分离 key 和 value,写作:

forkey,valueinxxx.items():...

对于列表,我们分离索引和元素,写作:

forindex,elementinenumerate(xxx):...

所以如在第11和第13行,使用生成器推导式分别处理字典和列表,这样得到的key_value_iter生成器对象,就可以在第16行被相同的 for 循环迭代。

我们知道,在 Python 里面可以迭代的对象除了字典和列表以外,还有很多其他的对象,不过我这里只处理了字典和列表。大家也可以试一试修改10-15行的条件判断,增加对其他可迭代对象的处理逻辑。

代码第16-22行,对处理以后的 key-value 进行迭代。首先记录到当前字段为止的迭代路径到current_path列表中。然后判断当前字段是不是目标字段。如果是,那么把当前的路径通过 yield 抛出来。如果当前路径的值是列表或者字典,那么把这个值递归传入 iter_node 方法,进一步检查内部还有没有目标字段。需要注意的是,无论当前字段是不是目标字段,只要它的值是列表或者字典,都需要继续迭代。因为即使当前字段的名字是目标字段,但也许它内部还有某个子孙字段的字段名也是目标字段名。

对于普通函数来说,要递归调用,直接return 当前函数(参数)就可以了。但是对于生成器来说,要递归调用,就需要使用yield from 当前函数名(参数)。

由于iter_node方法返回的是一个生成器对象,在 find_one和find_all方法中,for 循环每一次迭代,都能拿到一条从20行抛出来的到目标字段的路径。而在find_one方法中,当我们拿到第一条路径时,不再继续迭代,那么就可以节省大量的时间,减少迭代次数。

正确使用

有了这个工具以后,我们可以直接用它来解析数据,也可以用来辅助分析数据。例如,Twitter 时间线的正文是在full_text中,我可以直接用 JsonPathFinder 获取所有的正文:

但有时候,我们除了获取正文外,还需要每一条推文的其他信息,如下图所示:

可以看到, 这种情况下,我们可以先获取从外层到full_text的路径列表,然后再人工对列表进行一些加工,辅助开发:

从打印出来的路径列表里面可以看到,我们只需要获取globalObjects-&>tweets就可以了。它的值是20个字典,每个字典的 Key 是推文的 ID,Value 是推文的详情。这个时候,我们再人工去修改一下代码,也能方便地提取一条推文的全部字段。

“json对象获取key值(js操作文件的读写)” 的相关文章

cam软件有哪些(cam数控编程软件)

数控编程同计算机编程一样也有自己的&“语言&”,不同的是,现在计算机市场以微软的Windows为绝对优势。数控系统还没有哪一家占据绝对优...

php字符串函数大全(php处理字符串函数)

什么是多字节的字符串操作呢?其实不少的同学可能都已经使用过了,但我们还是要从最基础的问题说起。一个字符占几个字节并不是我们表面上看到的那样。正常情况下,一个数字...

做淘宝什么最赚钱,网上最畅销的10种商品

如果通过生意参谋你看到你的这个类目的人气有几千,转化率也有百分之10以上,并且在线商品数也不多,那么是完全可以做的,因为小众,所以竞争小,虽然同样市场也小,但是...

光碟刻录软件有哪些(5款好用的免费刻录软件)

2021年推荐的5款Linux系统最佳CD刻录机在Linuxcd刻录机的帮助下,你只需点击几下,就可以将高质量的内容刻录存储到任意的光学媒体存储设备中。Linu...

2020有什么好的创业项目,目前最有前景四个创业项目

感谢邀请!之所以抽出时间来回答这个问题,刚巧有一个91年的退伍转业军人,昨天几乎问了我一个相同的问题。在此整理一遍,避免今后有人提出类似重复性问题。背景;山东泰...

不想打工做什么好,月入2万的10个小生意推荐

说到“打工”这个词,越来越多的人产生畏惧,80后们几乎已经到了奔四的年龄,出来打工也有十几年了,在日复一日年复一年的打工生活中,逐渐产生疲倦感,随着年龄的增加更...

360网页弹窗广告怎么关闭(一键屏蔽弹窗广告的技巧)

之前给大家介绍了如何关闭FF弹窗广告,又有网友向小编咨询如何关闭360的广告弹窗,今天给大家介绍下如何关闭360的弹窗广告。360的弹窗广告都是从360浏览器内...

word如何删除分页符(删除所有分页符的方法)

Word文档想必大家一定都不陌生,工作和学习中都经常会用到word文档编辑,有时候会遇到莫名就多了一个空白页面的情况,还删除不了,真是让人崩溃。Word文档多...

dnf奶妈毕业装备选择(2023奶妈533防具排名)

DNF奶量装备要怎么选择?DNF如何打造一套最强奶妈角色呢,首先装备的选择是最重要的,很多小伙伴不太清楚怎么选择装备,这里我带来了一份详细攻略,希望可以帮助到大...

win10设置闪退怎么解决,win10打开设置闪退解决办法

Win10系统打开文件夹后闪退怎么办?近日一个用户反映,每次打开文件夹的时候都会出现闪退的问题,这是怎么回事呢?下面就给大家分享解决Win10系统打开文件夹闪退...