矢量大数据(Geoanalytics Server)工具之“描述数据集”

0
分享 2020-05-18
测试环境: 单节点GA,1071版本,Linux版本。
测试数据:1500万条点记录,以csv文件形式存储在大数据文件共享上。

为什么使用这个工具?

我的原数据是一个2GB的csv文件,一般这样的数据是无法用excel或者其他工具直接打开的,无法轻易的浏览其全部面貌,也无法了解数据本身的记录是否完整等。

使用“描述工具集”,可以让我进一步了解这个数据集,我们先来看通过工具获得的结果。

工具输出结果1 -  统计表:

下面的这个统计表中,FIELD_NAME列出了csv文件中的所有字段名称;

我们看到针对于每一个字段和其属性值类型,会选择性的计算以下8个值,帮助我们了解每个字段的大致情况:

COUNT:所有条数
COUNT_NON_EMPTY: 具有有效几何的要素数
AVG:平均值
MIN:最小值
MAX:最大值
STDDEV:标准差
RANGE:范围,最大值与最小值的差
SUM:所有值的和
VAR:方差
ANY:随机取一个值
 

1.png



工具输出结果2 -  数据地理范围:

这份数据理论上是落在纽约范围内的,通过描述地理范围,我们知道这份数据中有异常数据,导致了整个地理范围大了很多。

2.png

 
工具输出结果3 - 可视化部分数据:
 
大数据文件共享中的数据量往往很大,且不能直接在portal中可视化,这个工具可以生成一个图层用来可视化部分数据,如下图:
 

3.png

 

总结一下使用“描述数据集”的好处:
 
  1. 数据的时间和几何信息是否被GA正确注册识别;
  2. 了解数据的属性字段值;
  3. 可视化部分数据,而不是一次绘制所有数据;
  4. 用部分测试数据测试工作流程;
  5. 计算数据的地理范围,了解数据的地理范围分布。

 
 
参考连接:
https://enterprise.arcgis.com/ ... t.htm
 

0 个评论

要回复文章请先登录注册