Xarray Interpolation, Groupby, Resample, Rolling, and Coarsen

basin = xr.open_dataset('http://iridl.ldeo.columbia.edu/SOURCES/.NOAA/.NODC/.WOA09/.Masks/.basin/dods')
basin

<xarray.Dataset>
Dimensions:  (Z: 33, X: 360, Y: 180)
Coordinates:
  * Z        (Z) float32 0.0 10.0 20.0 30.0 50.0 ... 4e+03 4.5e+03 5e+03 5.5e+03
  * X        (X) float32 0.5 1.5 2.5 3.5 4.5 ... 355.5 356.5 357.5 358.5 359.5
  * Y        (Y) float32 -89.5 -88.5 -87.5 -86.5 -85.5 ... 86.5 87.5 88.5 89.5
Data variables:
    basin    (Z, Y, X) float32 ...
Attributes:
    Conventions:  IRIDL

basin = basin.rename({'X': 'lon', 'Y': 'lat'})
basin

basin_surf = basin.basin[0]
basin_surf

<xarray.DataArray 'basin' (lat: 180, lon: 360)>
array([[nan, nan, nan, ..., nan, nan, nan],
       [nan, nan, nan, ..., nan, nan, nan],
       [nan, nan, nan, ..., nan, nan, nan],
       ...,
       [11., 11., 11., ..., 11., 11., 11.],
       [11., 11., 11., ..., 11., 11., 11.],
       [11., 11., 11., ..., 11., 11., 11.]], dtype=float32)
Coordinates:
    Z        float32 0.0
  * lon      (lon) float32 0.5 1.5 2.5 3.5 4.5 ... 355.5 356.5 357.5 358.5 359.5
  * lat      (lat) float32 -89.5 -88.5 -87.5 -86.5 -85.5 ... 86.5 87.5 88.5 89.5
Attributes:
    long_name:  basin code
    CLIST:      Atlantic Ocean\nPacific Ocean \nIndian Ocean\nMediterranean S...
    valid_min:  1
    valid_max:  58
    scale_min:  1
    units:      ids
    scale_max:  58

xarray.DataArray

'basin'

lat: 180
lon: 360

nan nan nan nan nan nan nan nan ... 11.0 11.0 11.0 11.0 11.0 11.0 11.0

array([[nan, nan, nan, ..., nan, nan, nan],
       [nan, nan, nan, ..., nan, nan, nan],
       [nan, nan, nan, ..., nan, nan, nan],
       ...,
       [11., 11., 11., ..., 11., 11., 11.],
       [11., 11., 11., ..., 11., 11., 11.],
       [11., 11., 11., ..., 11., 11., 11.]], dtype=float32)

Coordinates: (3)

Z
()
float32
0.0
gridtype :
0
units :
m
```
array(0., dtype=float32)
```
lon
(lon)
float32
0.5 1.5 2.5 ... 357.5 358.5 359.5
standard_name :
longitude
pointwidth :
1.0
gridtype :
1
units :
degree_east
```
array([  0.5,   1.5,   2.5, ..., 357.5, 358.5, 359.5], dtype=float32)
```

lat

(lat)

float32

-89.5 -88.5 -87.5 ... 88.5 89.5

standard_name :: latitude
pointwidth :: 1.0
gridtype :: 0
units :: degree_north

array([-89.5, -88.5, -87.5, -86.5, -85.5, -84.5, -83.5, -82.5, -81.5, -80.5,
       -79.5, -78.5, -77.5, -76.5, -75.5, -74.5, -73.5, -72.5, -71.5, -70.5,
       -69.5, -68.5, -67.5, -66.5, -65.5, -64.5, -63.5, -62.5, -61.5, -60.5,
       -59.5, -58.5, -57.5, -56.5, -55.5, -54.5, -53.5, -52.5, -51.5, -50.5,
       -49.5, -48.5, -47.5, -46.5, -45.5, -44.5, -43.5, -42.5, -41.5, -40.5,
       -39.5, -38.5, -37.5, -36.5, -35.5, -34.5, -33.5, -32.5, -31.5, -30.5,
       -29.5, -28.5, -27.5, -26.5, -25.5, -24.5, -23.5, -22.5, -21.5, -20.5,
       -19.5, -18.5, -17.5, -16.5, -15.5, -14.5, -13.5, -12.5, -11.5, -10.5,
        -9.5,  -8.5,  -7.5,  -6.5,  -5.5,  -4.5,  -3.5,  -2.5,  -1.5,  -0.5,
         0.5,   1.5,   2.5,   3.5,   4.5,   5.5,   6.5,   7.5,   8.5,   9.5,
        10.5,  11.5,  12.5,  13.5,  14.5,  15.5,  16.5,  17.5,  18.5,  19.5,
        20.5,  21.5,  22.5,  23.5,  24.5,  25.5,  26.5,  27.5,  28.5,  29.5,
        30.5,  31.5,  32.5,  33.5,  34.5,  35.5,  36.5,  37.5,  38.5,  39.5,
        40.5,  41.5,  42.5,  43.5,  44.5,  45.5,  46.5,  47.5,  48.5,  49.5,
        50.5,  51.5,  52.5,  53.5,  54.5,  55.5,  56.5,  57.5,  58.5,  59.5,
        60.5,  61.5,  62.5,  63.5,  64.5,  65.5,  66.5,  67.5,  68.5,  69.5,
        70.5,  71.5,  72.5,  73.5,  74.5,  75.5,  76.5,  77.5,  78.5,  79.5,
        80.5,  81.5,  82.5,  83.5,  84.5,  85.5,  86.5,  87.5,  88.5,  89.5],
      dtype=float32)

Attributes: (7)
long_name :
basin code
CLIST :
Atlantic Ocean Pacific Ocean Indian Ocean Mediterranean Sea Baltic Sea Black Sea Red Sea Persian Gulf Hudson Bay Southern Ocean Arctic Ocean Sea of Japan Kara Sea Sulu Sea Baffin Bay East Mediterranean West Mediterranean Sea of Okhotsk Banda Sea Caribbean Sea Andaman Basin North Caribbean Gulf of Mexico Beaufort Sea South China Sea Barents Sea Celebes Sea Aleutian Basin Fiji Basin North American Basin West European Basin Southeast Indian Basin Coral Sea East Indian Basin Central Indian Basin Southwest Atlantic Basin Southeast Atlantic Basin Southeast Pacific Basin Guatemala Basin East Caroline Basin Marianas Basin Philippine Sea Arabian Sea Chile Basin Somali Basin Mascarene Basin Crozet Basin Guinea Basin Brazil Basin Argentine Basin Tasman Sea Atlantic Indian Basin Caspian Sea Sulu Sea II Venezuela Basin Bay of Bengal Java Sea East Indian Atlantic Basin
valid_min :
1
valid_max :
58
scale_min :
1
units :
ids
scale_max :
58

basin_surf.plot(vmax=10)

<matplotlib.collections.QuadMesh at 0x7f8e4dcb73d0>

basin_surf_interp = basin_surf.interp_like(ds.sst, method='nearest')
basin_surf_interp.plot(vmax=10)

<matplotlib.collections.QuadMesh at 0x7f8e4db88d00>

ds.sst.groupby(basin_surf_interp).first()

<xarray.DataArray 'sst' (time: 708, basin: 14)>
array([[-1.8       , -1.8       , 23.455315  , ..., -1.8       ,
         3.3971915 , 24.182198  ],
       [-1.8       , -1.8       , 23.722523  , ..., -1.8       ,
         0.03573781, 24.59657   ],
       [-1.8       , -1.8       , 24.601315  , ..., -1.8       ,
        -0.26487017, 26.234186  ],
       ...,
       [ 0.6758132 ,  6.504184  , 29.279463  , ..., 10.920228  ,
        15.955025  , 29.41976   ],
       [-0.7937442 ,  3.0715032 , 27.608435  , ...,  5.4078875 ,
        10.673693  , 27.7558    ],
       [-1.8       , -0.06063586, 25.881481  , ...,  0.5253569 ,
         7.267694  , 26.163145  ]], dtype=float32)
Coordinates:
  * time     (time) datetime64[ns] 1960-01-01 1960-02-01 ... 2018-12-01
    Z        float32 0.0
  * basin    (basin) float64 1.0 2.0 3.0 4.0 5.0 ... 10.0 11.0 12.0 53.0 56.0
Attributes:
    long_name:     Monthly Means of Sea Surface Temperature
    units:         degC
    var_desc:      Sea Surface Temperature
    level_desc:    Surface
    statistic:     Mean
    dataset:       NOAA Extended Reconstructed SST V5
    parent_stat:   Individual Values
    actual_range:  [-1.8     42.32636]
    valid_range:   [-1.8 45. ]
    _ChunkSizes:   [  1  89 180]

basin_mean_sst = ds.sst.groupby(basin_surf_interp).mean()
basin_mean_sst

<xarray.DataArray 'sst' (time: 708, basin: 14)>
array([[18.585493 , 20.757555 , 21.572067 , ...,  6.238062 ,  6.889794 ,
        26.49982  ],
       [18.705065 , 20.81674  , 21.902279 , ...,  4.8877654,  5.44638  ,
        26.577093 ],
       [18.845842 , 20.865038 , 22.031416 , ...,  4.686406 ,  5.5322194,
        27.908558 ],
       ...,
       [19.84992  , 21.960493 , 20.389412 , ..., 17.571943 , 18.184528 ,
        29.336565 ],
       [19.424026 , 21.722925 , 21.061403 , ..., 13.461868 , 13.863244 ,
        28.755905 ],
       [19.265354 , 21.512274 , 21.814356 , ...,  9.417906 , 10.607256 ,
        27.905243 ]], dtype=float32)
Coordinates:
  * time     (time) datetime64[ns] 1960-01-01 1960-02-01 ... 2018-12-01
    Z        float32 0.0
  * basin    (basin) float64 1.0 2.0 3.0 4.0 5.0 ... 10.0 11.0 12.0 53.0 56.0

df = basin_mean_sst.mean('time').to_dataframe()
df

	Z	sst
basin
1.0	0.0	19.284992
2.0	0.0	21.178225
3.0	0.0	21.127054
4.0	0.0	19.845881
5.0	0.0	8.131749
6.0	0.0	15.084384
7.0	0.0	28.494108
8.0	0.0	26.619698
9.0	0.0	0.310854
10.0	0.0	1.547191
11.0	0.0	-0.816617
12.0	0.0	12.085889
53.0	0.0	14.338935
56.0	0.0	28.465738

import pandas as pd
basin_names = basin_surf.attrs['CLIST'].split('\n')
basin_df = pd.Series(basin_names, index=np.arange(1, len(basin_names)+1))
basin_df

               Atlantic Ocean
               Pacific Ocean 
                 Indian Ocean
            Mediterranean Sea
                   Baltic Sea
                    Black Sea
                      Red Sea
                 Persian Gulf
                   Hudson Bay
              Southern Ocean
                Arctic Ocean
                Sea of Japan
                    Kara Sea
                    Sulu Sea
                  Baffin Bay
          East Mediterranean
          West Mediterranean
              Sea of Okhotsk
                   Banda Sea
               Caribbean Sea
               Andaman Basin
             North Caribbean
              Gulf of Mexico
                Beaufort Sea
             South China Sea
                 Barents Sea
                 Celebes Sea
              Aleutian Basin
                  Fiji Basin
        North American Basin
         West European Basin
      Southeast Indian Basin
                   Coral Sea
           East Indian Basin
        Central Indian Basin
    Southwest Atlantic Basin
    Southeast Atlantic Basin
     Southeast Pacific Basin
             Guatemala Basin
         East Caroline Basin
              Marianas Basin
              Philippine Sea
                 Arabian Sea
                 Chile Basin
                Somali Basin
             Mascarene Basin
                Crozet Basin
                Guinea Basin
                Brazil Basin
             Argentine Basin
                  Tasman Sea
       Atlantic Indian Basin
                 Caspian Sea
                 Sulu Sea II
             Venezuela Basin
               Bay of Bengal
                    Java Sea
  East Indian Atlantic Basin
dtype: object

df = df.join(basin_df.rename('basin_name'))

df.plot.bar(y='sst', x='basin_name')

<AxesSubplot:xlabel='basin_name'>

Earth and Environmental Data Science

Xarray Interpolation, Groupby, Resample, Rolling, and Coarsen

Contents

Xarray Interpolation, Groupby, Resample, Rolling, and Coarsen#

Interpolation#

Groupby#

Split Step#

Map & Combine#

Aggregations#

Transformations#

Coarsen#

An Advanced Example#

Earth and Environmental Data Science

Xarray Interpolation, Groupby, Resample, Rolling, and Coarsen

Contents

Xarray Interpolation, Groupby, Resample, Rolling, and Coarsen#

Interpolation#

Groupby#

Split Step#

Map & Combine#

Aggregations#

Transformations#

Grouby-Related: Resample, Rolling, Coarsen#

Resample#

Rolling#

Coarsen#

An Advanced Example#