Overblik over fremgangsmåden
I SCS er vandløbshabitaternes byggesten repræsenteret som en række lag, der hver især repræsenterer forskellige kategorier af fysiske karakteristika (f.eks. størrelse, hældning). Hvert lag består af flere klasser (f.eks. vandløb, bæk, lav gradient, høj gradient). Lagene blev konstrueret ved hjælp af induktive metoder baseret på mønstre i empiriske data i modsætning til deduktive metoder, der er baseret på regionalisering af landskabet. Kilder til de empiriske data, der er anvendt til at udlede vandløbsklasser, er angivet i tabel 1. Gennem tidligere undersøgelser og anmodninger fra en række naturforkæmpere og vandløbsøkologer6,25 udvalgte vi seks vandløbshabitatlag, som kunne kortlægges i vandløbsstrækningsopløsning, og som formodedes at udøve en stærk kontrol med den økologiske funktion og sammensætningen af det økologiske samfund. Disse omfattede (i rækkefølge af faldende økologisk betydning): størrelse, gradient, hydrologi, temperatur, vandløbsnetværkets forgrening og dalens indsnævring.
En vigtig overvejelse ved udvælgelsen af lag og fastlæggelse af partitioner mellem klasser var tilgængeligheden af dokumenterede metoder til klassifikationsmetoder og tærskelværdier mellem klasser. Derfor valgte vi fortrinsvis lag, der understøttes af allerede eksisterende og offentliggjorte klassifikationer, eller hvis tidligere klassifikationer ikke var tilgængelige, var vi afhængige af litteraturen til at bestemme brud og tærskelværdier til at opdele værdier (f.eks. gradient) i klasser, når de var tilgængelige. Da klassificeringsresultater påvirkes af den anvendte tilgang, anvendte vi flere alternative tilgange, hvis de var tilgængelige, ved udviklingen af klasser inden for lagene.
Prediktorvariabelkompilering
Informationer om størrelse, gradient og netværksforgrening blev afledt fra NHDPlus V2-datasættet. Diskrete in situ-observationer af hydrologi, temperatur og flodkanalkarakteristika (dalafgrænsning) krævede imidlertid, at vi udviklede modeller til ekstrapolering af disse klasser til vandløbsstrækningsniveauet. Der blev samlet i alt 66 landskabs-, klima-, topografiske og jordbundsvariabler for de afvandingsområder, der bidrager til hver enkelt vandløbsstation, og for hele afvandingsnetværket opstrøms for hvert vandløbsstrækningsområde i USA (tabel 2 (kun tilgængelig online)). Heraf blev 44 leveret af Stream Cat-databasen26 (https://www.epa.gov/national-aquatic-resource-surveys/streamcat), 21 fra NHDPlus V2-datasættet og en fra WorldClim (http://worldclim.org/version2) (tabel 2 (kun tilgængelig online)). I ca. 2 % af observationerne manglede der værdier for variabler, der var opsummeret for afvandingsnetværk over hvert vandløbsstrækningsområde (primært StreamCat-data). Vi brugte pakken Multivariate Imputation by Chained Equation (MICE) i R-programmeringsmiljøet27 til at estimere de mest sandsynlige værdier for manglende variabler på grundlag af de værdier, der er til stede for andre variabler. For hver variabel med manglende værdier angav vi en binær matrix, der angiver, hvilken delmængde af prædiktorer der skal bruges til at estimere manglende værdier under imputeringen. Der blev udviklet separate Predictive Mean Matching-modeller for hver ufuldstændig variabel27.
Størrelse
I sammenligning med andre klasser var udviklingen af klassifikationsordninger for størrelse og gradient ikke afhængig af in situ-observationer eller udvikling af prædiktive modeller (f.eks. hydrologi). Vi brugte to størrelsesrelevante variabler, der er tilgængelige via NHDPlus V2-datasættet, til at tilvejebringe alternative klassifikationer af vandløbsstørrelse: Strahler-strømorden og gennemsnitlig årlig afstrømning (repræsentativ for forhold med minimal menneskelig påvirkning). Vandløbsordenen beskriver vandløbsmiljøernes dendritiske karakter28 og anvendes almindeligvis til at karakterisere frekvensfordelingen af vandløbsstørrelser over store regioner eller globalt29. Begrænsningerne ved vandløbsorden er imidlertid, at ordenen kan påvirkes af omfanget af den kortlagte hydrografi30 , og at afstrømningen kan variere meget på tværs af klimaregimer for en given orden. Ligeledes kan det også være problematisk at anvende afvandingsområdet til at karakterisere størrelsen, da afstrømningen pr. arealenhed også vil variere dramatisk på tværs af regioner med meget varierende klima30. Alternativt kan et vandløbs størrelse karakteriseres ved den strøm, det transporterer. Dette kræver imidlertid, at der fastlægges en standardiseret metode til opdeling af vandløbsklasser på grundlag af vandføringen. Da de geometriske love for vandløbets organisation (f.eks. hyppighed, vandløbslængde, afvandingsområde) er baseret på vandløbets orden31 , giver ordenen en universel fysisk skabelon til at opdele den store kontinentale variation i afstrømning på grundlag af konsekvente tærskelværdier. For at udvikle en afstrømningsbaseret størrelsesklassificering beregnede vi medianafstrømningen for alle NHDPlus V2 vandløbsstrækninger i henhold til Strahler-ordenen for vandløb og brugte derefter midtpunkter mellem disse værdier til at skabe afstrømningsbrud som tærskelværdier for størrelsesklasser. (Bemærk: Variabler, der anvendes i den hydrologiske klassifikation, er standardiseret ved den gennemsnitlige årlige afstrømning og påvirkes således ikke af vandløbenes størrelse).
Gradient
Gradientværdier (dvs. vandløbsbundshældning) blev også angivet som en egenskab for NHDPlus V2-strømsstrækninger. Vandløbsbundshældninger blev målt for hver vandløbslinje som andelen af stigningen i højde i forhold til vandløbslinjens afstand32. Udglattede højdedata blev udledt fra 10-m digitale højdemodeller (DEM) for landet. De maksimale og minimale højder blev anvendt til at bestemme stigningen, som blev divideret med den samlede længde af strømningslinjen. Så vidt vi ved, er de mest udbredte gradienttærskler fastsat af Rosgen4 , som skelner mellem kanalmorfologier baseret på gradient, bredde-dybde-forhold, indskrænkning og sinuositet. Flere bestræbelser på at klassificere vandløb har også baseret sig på disse gradienttærskler til at opdele klasser6,9,25. Vi overtog disse brud for at udvikle gradienttyper og kortlagde disse til vandløbsstrækninger.
Hydrologi
I løbet af de sidste to årtier er der udviklet adskillige hydrologiske klassifikationer på regionale til globale skalaer ud fra diskrete observationer af vandløbsovervågningsstationer2,18,33. Generelt kræver udvikling af induktive hydrologiske klassifikationer, at man samler in situ-observationer af afstrømning, opsummerer afstrømningen i hydrologisk statistik og derefter grupperer observationerne på grundlag af ligheder i hydrologiske egenskaber22. For nylig udviklede McManamay et al.34 en hydrologisk klassifikation for hele USA baseret på naturlige vandløbsafstrømningsmønstre på 2.600 vandløbsstationer fra US Geological Survey (USGS) med opstrøms vandløbsoplande, der repræsenterer den mindst forstyrrede tilstand for deres respektive region. Efter nedbrydning af 110 hydrologiske statistikker i 13 komponent-scoringer ved hjælp af Principal Components Analysis (PCA) blev vandløbsstationer sandsynliggjort til en af 15 hydrologiske klasser ved hjælp af optimale Gaussian mixed model clustering-algoritmer, der blev fastlagt ved hjælp af Bayesian inference34. Disse klasser repræsenterer variation i hydrologiske mønstre i modsætning til variation i afstrømningsmængden, da alle størrelsesrelaterede hydrologiske statistikker blev standardiseret med den gennemsnitlige daglige vandføring før PCA og klyngedannelse.
Denne usikre klassifikation (dvs. blød klyngedannelse) er fleksibel, idet den karakteriserer vandløb som teoretisk set delende medlemskab i mange klynger33,35. I modsætning hertil er “hårde” klyngeteknikker som f.eks. afstandsbaserede hierarkiske agglomerative metoder (f.eks. Ward-metoden)36 relativt ligetil, lettere at forstå og giver indlejrede og skarpe medlemskaber22. Vi brugte således Wards agglomerative metode til at klynge de 2600 USGS-strømstandpunkter ved hjælp af de 13 PC-scoringer og bestemte derefter en række optimale antal klynger på grundlag af en visuel gennemgang af dendrogrammet.
Alle USGS-strømstandpunkter blev rumligt forbundet med NHDPlus V2-strømsstrækninger. Ved hjælp af prædiktorvariabler i tabel 2 (kun tilgængelig online) konstruerede vi random forest-klassifikationsmodeller37 i R-programmeringsmiljøet for at forudsige hydrologisk klassetilhørsforhold og ekstrapolerede derefter hydrologiske klasser til alle NHDPlus V2-strømsstrækninger.
Temperatur
Sammenlignet med hydrologi er temperaturklassifikationer mindre almindelige3,38,39 , muligvis på grund af færre temperaturdata sammenlignet med afstrømning. For nylig grupperede Maheu et al.3 ca. 130 målestationer (repræsentative for referenceforhold) i hele USA i forskellige typer termiske regimer på grundlag af en række statistikker, der beskriver størrelse og variation. Denne multivariate tilgang giver et multivariat alternativ til de univariate sommertemperaturklasser, som vi genererede. Placeringerne af de målepunkter, der blev anvendt i Maheu et al.s klassifikation, blev erhvervet fra forfatterne og blev rumligt forbundet med NHDPlus V2 vandløbsstrækninger. Ved hjælp af 65 af de prædiktive variabler udviklede vi en tilfældig skovmodel til Maheu et al.s klasser for vandløbsstrækninger i hele USA. Da temperaturen er en funktion af vandløbenes størrelse, udelukkede vi Qwsa fra modellen (dvs. gennemsnitlig årlig vandføring divideret med afvandingsområdet).
Som et alternativ udviklede vi en simpel temperaturklassificering baseret på naturligt forekommende gennemsnitlige sommervandtemperaturværdier om sommeren. Flere undersøgelser tyder på, at divergerende termiske regimer i vandløb primært påvirkes af den naturlige variation i sommertemperaturværdierne (juli-augustgennemsnit)3,40,41. Desuden er sommertemperaturværdierne blandt de mest let tilgængelige data fra offentlige og ikke-offentlige kilder. Vi samlede vandløbsvandtemperaturdata for 5 907 lokaliteter fra flere kilder, herunder Deweber & Wagner41 (n = 2893), Hill et al.40 (n = 566), USGS-målere med daglige registreringer (n = 2184), USGS sæsonbestemt feltovervågning (n = 240) og andre temperaturdata fra loggere, der er opstillet af myndigheder (n = 24) (tabel 1). For at fastlægge en passende optegnelseslængde for temperaturdata var det nødvendigt at finde en balance mellem at minimere usikkerheden i juli-august-gennemsnittene og at have for få prøver til at sikre en passende regional repræsentation. Jones og Schmidt42 har f.eks. givet anbefalinger for de optegnelseslængder, der er nødvendige for at minimere usikkerheden i forbindelse med estimering af termiske regimemetrikker; hvis man fulgte disse retningslinjer, ville det imidlertid have reduceret de ovennævnte USGS-optegnelser alene (n = 2424) med 70-90 %. Endvidere omfattede Jones og Schmidts vurdering månedlige maksimum-, minimums- og intervalmetrikker, mens vores analyse var baseret på en grovere halvårlig gennemsnitsmetrikker (juli-august), som vi anser for mindre følsom over for variation fra år til år end ekstreme temperaturer (Supplerende fil 1). Ved hjælp af 22 USGS-standpunkter i hele USA og konfidensbånd fra Jones og Schmidt anslår vi, at 1-2 sæsoner med data kan give et pålideligt skøn over de gennemsnitlige temperaturer i juli-august inden for 1 °C med en konfidens på henholdsvis 80 % og 90 % (Supplerende fil 1). Vi screenede steder for at sikre, at registreringsperioden faldt inden for 1995 til 2015, og at data var tilgængelige i mindst 60 på hinanden følgende dage i juli og august.
Alle temperatursteder blev rumligt forbundet med NHDPlus V2 vandløbsstrækninger. Vi bestemte derefter referenceforhold for overvågningsstederne ved hjælp af indikatorer for jordforstyrrelser og opstrøms dæmningsregulering. Landforstyrrelser blev vurderet ved hjælp af National Fish Habitat Partnership (NFHP) 2015 habitatvurdering, som giver scorer for forringelse af habitater fra “meget lav” til “meget høj” forstyrrelse inden for NHDPlus vandløbsstrækningssegmenter43. Vi evaluerede graden af opstrømsregulering fra opstemninger ved hjælp af graden af regulering (DOR) (% af den årlige afstrømning, der lagres af opstrømsliggende dæmninger)44 , som leveres af StreamCat. Temperaturovervågningsstationer med risikovurderingsscorer som “meget lav” eller “lav” og DOR < 4 % (hvilket indikerer ringe indflydelse fra reservoirer44,45) blev bestemt som repræsentative for referenceforhold, hvilket resulterede i 1764 lokaliteter, der også opfyldte vores kriterier for rekordlængde. Af disse blev 70 % af observationerne indhentet fra Deweber & Wagner41 (n = 1211) eller Hill et al.40 (n = 33). Af de resterende 520 observationer havde 71,7 % mindst 2 sæsoner med data.
Ved hjælp af det samme prædiktorensemble som ovenfor udviklede vi tilfældige skove til at forudsige sommertemperaturer for referencesteder og ekstrapolerede derefter disse værdier til alle NHD-strækninger. Vi brugte brud i frekvensfordelingen af de amerikanske vandtemperaturer til at opdele sommertemperaturerne i klasser. Ved hjælp af estimerede sommertemperaturværdier for alle vandløbsstrækninger anvendte vi en Jenks Natural Breaks46 -procedure til at opdele temperaturerne i 2 til 20 klasser, hvorefter vi baserede os på optimal tilpasningsevne og tabelnøjagtighed for at bestemme det mest sparsomme antal klasser, der forklarer størstedelen af informationen. I mangel af en begrundet tilgang til fysisk baseret partitionering af klasser er Jenks-metoden optimal til univariat klyngedannelse af rumlig information, da den søger at minimere variationen inden for klasser, mens den maksimerer variansen mellem klasser46.
Netværksbifurkation
Mens vandløbsstørrelsen indfanger den langsgående variation af økologiske funktioner langs et vandløbskontinuum15, er biflodsknudepunkter og vandløbsdivergenser også vigtige, da de skaber diskontinuiteter i langsgående processer47. Vandløbsknudepunkter, især de forskellige størrelser af vandløb, der udgør kryds, har stor indflydelse på levesteder og biologisk mangfoldighed48. Desuden kan sammensætningen af det økologiske samfund ændre sig dramatisk med nærheden til vandløbsknudepunkter49. For at indfange forskelle i netværkskonfigurationer og situationer med divergenser skabte vi to bifurcationsklasser. For det første skabte vi klasser, der tog højde for kombinationer af forskellige størrelser af bifloder, der danner et sammenløb i den opstrøms ende af hvert vandløbsstrækningsområde. For det andet udviklede vi klasser, der angiver vandløbsstrækninger som hoved- eller sekundære kanaler under afledninger, og hvor vandløb modtog strøm fra afledninger opstrøms.
De fleste individuelle vandløbsstrækninger i NHDplus V2-datasættet repræsenterer forskellige hydrologiske træk i vandløbsnetværk, der er defineret af vandløbsoprindelse, sammenløb af bifloder og krydsninger med søer og reservoirer50 . Topologiske relationer mellem NHDplus V2 vandløbsstrækninger er angivet i en “fra-til”-tabel, der definerer de opstrømsstrækninger, der bidrager til en given strækning (dvs. fra), og den nedstrømsstrækning, der modtager strømmen (dvs. til). Ved hjælp af “fra-til”-tabellen blev kombinationer af forskellige Strahler-strømsordener i den opstrøms ende af hvert strækningsområde kombineret for at skabe en kombination af biflods- og hovedstrømsstrækninger. F.eks. ville sammenløbet af et biflod af 1. orden og et biflod af 2. orden i den opstrøms ende af et system af 2. orden give følgende klasse: 2.12 (fig. 1a). I de fleste tilfælde var der kun to bifloder opstrøms. I sjældne tilfælde eller i situationer med divergenser samler tre eller flere bifloder sig opstrøms over et strækningsområde, og vi medtog op til fire opstrømsordener (f.eks. Fig. 1b, 5.511). I nogle tilfælde modtager vandløbsstrækninger strøm fra flere opstrømsliggende kanaladskillelser, dvs. opdelinger af en strækning i to eller flere kanaler i nedstrøms retning (fig. 1c). Da disse kanaler tildeles en vandløbsrækkefølge og skaber krydsninger, der efterligner sammenløb af bifloder, kræver klassificering af netværksforgreninger, at man medtager kanaladskillelser som en type sammenløb. I tilfælde af kanaladskillelse angiver NHDplus V2 strækninger som hovedkanaler (D1) eller sekundære kanaler (D2) (Fig. 1c). Vi brugte fra-til-tabellen til at identificere vandløbsstrækninger, der lå umiddelbart under sammenløbene af kanaldivergenser (DU), for at skelne disse fra biflodskonfusioner. Efter at have taget højde for disse divergenser observerede vi situationer med ikke-sanselige sammenfletninger af bifloder (f.eks. 5_5.5), der opstod, fordi NHDplus V2 ikke på passende vis udpegede alle situationer med kanaldivergenser. Da det var vanskeligt at afgøre, om hvert af disse strækninger var divergerende kanaler eller strækninger, der modtog strøm fra divergerende kanaler, henførte vi disse strækninger til en generisk divergensklasse (D).
Selv om de fleste sammenfletninger af bifloder i NHDPlus V2 er hydrologisk relevante, blev en delmængde af vandløbsstrækninger opdelt på ikke-betydelige punkter, såsom kvadrantkortgrænser, under digitaliseringen50 (fig. 1d). I tilfælde af bifurkationsklasser og divergenser ville disse opdelinger føre til ikke-sanselige krydsninger. For at korrigere disse tilfælde udarbejdede Wieferich et al.51 en tabel til identifikation af økologiske strækninger, som tildelte opdelte strækninger til fælles økologiske identifikatorer. I disse tilfælde tildelte vi alle strækninger, der tilhører den samme økologiske enhed, bifurkations- og divergensklassen for den strømafgående strækning længst opstrøms (Fig. 1d).
Valley Confinement
Den grad, i hvilken dale kontrollerer flodkanals laterale vandring, er en indikation af styrken af interaktionen mellem floder og deres flodsletter. Vi afgrænsede ubegrænsede dalbunde (dvs. polygoner) for alle NHDPlus V2 vandløbsstrækninger ved hjælp af værktøjet Valley Confinement Algorithm (VCA)52 i ArcMap 10.3. VCA estimerer vandløbskanalens bankfull-dybde ved hjælp af en empirisk funktion baseret på regionale nedbørsdata (http://www.prism.oregonstate.edu/normals) og afvandingsområde for hvert vandløbsstrækningsområde53. Nagle et al.52 foreslog 5X bankfull depth til bestemmelse af oversvømmelseshøjden, hvilket vi også fandt passende i betragtning af den rumlige opløsning af NHDplus og 30-m DEM-data (https://nationalmap.gov/elevation.html) for den omgivende topografi. På grundlag af det omgivende terræn, der er karakteriseret ved hjælp af DEM’er, anvendte VCA-programmet en algoritme til at skære oversvømmelseshøjden med den omgivende bjergskråning. Der blev anvendt vandområder for at undgå afgrænsning af dalbunde i oversvømmede områder.
Når dalbunde er afgrænset, er der behov for tærskelværdier for at klassificere vandløbsstrækninger som ubegrænsede, begrænsede eller et mellemliggende niveau. Det er f.eks. muligt, at en dalbund ikke omfatter hele vandløbsstrækningen eller ikke strækker sig sideløbende tilstrækkeligt langt ud over vandløbsbredderne til at blive klassificeret som ubegrænset. Dette kræver en vurdering af vandløbsbredden for hvert vandløbsstrækningsområde. Vi har samlet både in situ-feltobservationer og telemålingobservationer fra >52.000 steder for at udvikle en empirisk model til at forudsige flodbredden for alle vandløbsstrækninger i CONUS. Feltobservationer af flodbredden blev udledt fra Environmental Protection Agency’s National Rivers and Streams Assessment (n = 852) (https://www.epa.gov/national-aquatic-resource-surveys/nrsa), en litteraturgennemgang af flodbredder (n = 243)29 og North American River Width Data Set (n = 50.230) (http://gaia.geosci.unc.edu/NARWidth/). Disse datasæt overså imidlertid i vid udstrækning små vandløb og intermitterende systemer. For at sikre, at vi anslog bredden korrekt for disse vandløbstyper, blev vandløbsstrækninger stratificeret efter størrelse (se Størrelsesklassificering), og der blev udvalgt en tilfældig delmængde (n = 407) fra hele den amerikanske vandløbsstrækningspopulation. Der blev anvendt luftfotos til at estimere vandløbsbredden ved midtpunktet, opstrøms og nedstrøms enderne af hvert vandløbsstrækningsområde og derefter beregne en gennemsnitlig bredde. Der blev anvendt tilfældige skovmodeller til at forudsige flodbredden og ekstrapolere skønnene til alle vandløbsstrækninger. Estimater af flodbredden blev derefter brugt til at generere polygonbuffere omkring alle vandløbsstrækninger.
Vi overlejrede flodbredder og dalbunde for at bestemme status for dalbegrænsning. Hall et al.53 anså vandløbsstrækninger for at være ubegrænsede, hvis bredden af oversvømmelsesdalen er mindst fire gange bredden, mens vandløbskanaler med moderat interaktion med oversvømmelsesfladen har et forhold mellem oversvømmelsesfladen og bredden af bredden af bredden af bredden >24. Ud over den laterale udstrækning af oversvømmelsesfladerne krævede vores vurdering af indeslutningen også en undersøgelse af længden af hvert vandløbsstrækningsområde, der er dækket af dalbunde. Vandløbsstrækninger blev klassificeret som “ubegrænsede”, hvis en dalbund dækkede mindst 50 % af vandløbsstrækningens længde og havde en bredde, der var mindst fire gange så stor som flodens bredde. “Moderat begrænsede” vandløbsstrækninger havde dalbunde med en bredde på >4X flodbredden, men dækkede kun 25-50% af vandløbsstrækningens længde, eller hvis de dækkede mere end 50% af vandløbsstrækningens længde, havde dalbundene et forhold mellem bredden af flodsletten og flodbredden på mellem 2 og 4. Alle andre vandløbsstrækninger blev defineret som “indesluttede”
.