问答 查看内容
返回列表

下载数据集接口拉取的数据中有重复数据

134 1
发表于 2026-4-24 09:39:30 | 查看全部 阅读模式
本帖最后由 测试5375 于 2026-4-24 10:55 编辑

问题描述:调用接口 /public-api/data-source/{dsId}/token/{token} 下载数据集数据 时,发现下载的数据总数和bi的总数是一致的,但是内容有重复数据。
使用接口如下图

截图202604240929596458.png
使用下载数据集进行数据下载,因为这里的单次请求最大返回五万条条,所以需要分页返回,利用offset分页,看文档解释offset是偏移量,以前天22号的数据为例子,观远页面当日展示数据总量为218166条
截图202604240931103272.png
所以我们需要请求五次,每次的偏移量是50000,即offset 分别为 0,50000,100000,150000,200000, limit 一直为 50000, 我们同步过来的数据总量是正确的
截图202604240932104166.png
但是商品数据不对,通过api请求返回的所有日志中,以“洁柔百花香可湿水面纸140抽”这个商品为例,五次请求的日志展示总共82条
截图202604240933325926.png
但是在页面进行筛选结果是119条,
截图202604240934138351.png
所以造成了部分商品数据确实,部分商品数据增加了,因为同步过来的数据总量是一样的










评论1

观小浩Lv.9 发表于 2026-4-24 15:11:57 | 查看全部
您好,在取数过程中如果没有指定排序字段在多次分页取数时是可能出现数据重复的情况的,建议在取数接口增加排序字段(如果没有也可以使用数据集在etl里添加行号的方式使用行号排序下载)。
PS:建议使用新版本获取数据接口:https://api.guandata.com/apidoc/docs-site/345092/api-3470616

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信服务号
联系我们
电话:400-880-0750
邮箱:hello@guandata.com
Copyright © 2001-2026 观远社区 版权所有 All Rights Reserved. 浙 ICP 备15006424号-3
去回复 去发帖 返回顶部
快速回复 返回顶部 返回列表