Dataanalys och bearbetning

All insamlad data till ett modelleringsprojekt måste granskas innan de används för modellering och det bör också säkerställas att inga motsägelsefulla data används eller ingår i datasetet. Det största svårigheten med att analysera kvaliteten på ett dataset är att det ”sanna” värdet på en parameter aldrig är känt då olika mätosäkerheter ingår i det uppmätta värdet när en parameter mäts. I ett slutet system så som ett reningsverk kan ytterligare kunskap om relationer mellan in- och utflöden och detaljerad processförståelse ge mer information om noggrannheten i mätdata. Ett systematiskt tillvägagångssätt att analysera data som ska användas för processmodellering kan sammanfattas till fyra generella steg som presenteras i figuren till höger och under nedanstående rubriker presenteras en sammanfattning av föreslagen arbetsgång för dataanalys och bearbetning enligt god modelleringssed.  
1. Feldetektion

Ett första steg att undersöka ett dataset för potentiella fel är sammanställa alla data, från respektive datakällor, och genomföra en enklare tidsserieanalys genom att plotta tidsserierna för de insamlade mätvärdena. Datavisualisering tillåter en överblick av generella trender och variation i data. Plottar gör det också enkelt att upptäcka skiftningar (plötsliga förskjutningar) i data och misstänkta felaktiga. Data kan också grupperas och kategoriseras efter belastningsförhållanden eller årstid för att minska variationen i data vilket kan göra dataanalysen lättare att genomföra. Olika statistiska mått kan tas fram för att beskriva datauppsättningarna, för normalfördelade parametrar kan exempelvis histogram och följande mått vara användbara:

  • min- och maxvärden,
  • medelvärden och median,
  • standardavvikelser, variationskoefficienter (cv-värde) och olika percentiler,
  • för skeva fördelningar, skevhetskoefficienten (coefficient of skewness),
Enkla rimlighetsbedömningar kan också genomföras för att analysera datakvaliteten hos vissa parametrar. Några enklare samband som snabbt kan visa om data innehåller uppenbara felaktigheter är exempelvis om data inte uppfyller:
  • Ntot ≡ TKN + NO3-N + NO2-N
  • TKN > NHx-N
  • Ptot > PO4-P
  • CODtot > CODfil > CODsol
  • CODtot > BOD7
  • TSS > VSS
  • MLSSRAS > MLSSAST
Skulle data inte klara av någon av rimlighetsbedömningarna kan granskningar av datakvaliteten genomföras för att försöka att hitta felkällan. Om undersökningarna inte kan påvisa någon orsak till motsägelsen i data kan all data från den mätningen tvingas att tas bort ur datasetet. Data som ligger utanför typiska intervall (potentiellt felaktiga extremvärden) bör dubbelkollas för rimlighet och korrekthet och separeras (eller tas bort) från datasetet om:
  • Korrektheten inte kan bekräftas (ex. genom att dubbelkolla datakällan)
  • Anledningen till extremvärdet inte är tydlig/uppenbar (om det t.ex. saknas information som styrker ovanliga belastningar under den rådande tidsperioden)
  • Data verkar vara korrekt och rimlig, men ligger så långt utanför normala dataintervall att extremvärdet har ett oproportionerligt stort bidrag till olika medelvärden
  • Data representerar en ovanlig driftsituation (ex. verket hade begränsad kapacitet på grund av underhåll)
Använda massbalanser för feldetektion

Att använda massbelastningar för att detektera extremvärden är ett bättre tillvägagångssätt än att använda koncentrationer då koncentrationer påverkas av flöden (ex. utspädning från regn). Mer avancerade rimlighetsbedömningar kan också genomföras där en användbar metod är att jämföra typiska masskvoter mellan olika processvariabler. Masskvoter är mindre beroende av och tillåter jämförelser med mer data från andra reningsverk.   

Massbalanser Massbalanser bygger på lagen om massans bevarande som säger att massan inom ett slutet system är konstant. Massbalanser kan generellt skrivas på formen:

Inflöde + Reaktion = Utflöde + Ackumulering

Massbalanser kan baseras på olika processvariabler, exempelvis på vattenflöde, COD, N, P och TSS. Fosfor är särskilt lämpat för massbalanser eftersom det återfinns i vatten och slamflöden från verket (dvs. bryts inte ner och avgår inte till luft). Fosforbalanser kan användas för att bedöma den generella datakvalitén, speciellt för flödesmätningar. Ett avancerat sätt att använda massbalanser för feldetektion är att sätta upp flera parallella massbalanser (massbalanser i samma system med olika processvariabler) eller överlappande massbalanser (massbalanser i olika överlappande system som delar en gemensam mätpunkt).

2. Fellokalisering

Fellokalisering baseras ofta på processerfarenhet (ex. att sannolikheten att det finns fel i data för överskottsslam är stor) men kan ibland också genomföras med ytterligare mätningar. Överlappande massbalanser kan användas för att lokalisera fel, eller i alla fall bidra till att skapa en bild av var felen ligger och ge idéer till valideringsexperiment. Överlappande massbalanser innehåller specifika mätpunkter i mer än en massbalans. Om en massbalans kan stängas men en annan överlappande massbalans inte kan stängas är felet sannolikt i en annan variabel (inte den överlappande). Om båda de överlappande massbalanserna inte kan stängas är sannolikheten stor att felet ligger i den variabel (flöde eller koncentration) som överlappar.

3. Felidentifiering

Efter att felkällan har lokaliserats bör orsaken till felet identifieras och kvantifieras.  Specifika mätningar kan behöva genomföras för att bestämma noggrannheten hos olika mätinstrument. Felkällor kan delas upp i fel i flödesmätningar, samplingsfel och fel i analytiska metoder. Några vanliga felkällor beskrivs nedan: 

  • Flödesmätningar kan vara en signifikant felkälla. Det är således bra att kontrollera flödesmätare, exempelvis genom att mäta tiden det tar för att fylla en känd volym.
  • Flödesfördelning kan vara ytterligare ett signifikant bidrag till då flödesmätningar ofta inte görs på samtliga delströmmar. Vanligtvis leder detta till osäkra antaganden vid modellering.
  • Provtagning (manuell och automatisk) är en annan vanlig felkälla. En representativ provpunktpunkt med homogen omblandning är viktigt, speciellt vid sampling av slam eller andra strömmar med en hög koncentration fast material
  • Analytiska metoder (laboratoriemetoder och onlinemätningar) kan bidra med mätfel på grund av flera olika orsaker. Några vanliga felkällor är provberedningen och provhantering (ex. lagring, homogenisering, delning av större inhomogent material, ofullständig nedbrytning etc.).
  • Onlinesensorer ställer krav på rutinmässigt underhåll och regelbunden kalibrering för att kunna tillhandahålla data av god kvalitet. För att kunna säkerställa mätdata av god kvalitet krävs att regelbunden kvalitetskontroll och användande av kontrollkort.
4. Bearbetning

Alla modeller för aktivslamprocessen är baserade på massbalanser och kommer att resultera i slutna balanser (med få undantag). Det är således viktigt att se till att alla de data som samlas in från reningsverk i modelleringssyfte också sluter samma massbalanser, inkonsekvent data kommer inte att ge meningsfulla simuleringsresultat. En enkel bearbetningsmetod är använda regressionsanalys för att ta fram en linjär regressionsmodell för att korrelera data med hög noggrannhet (ex. från specifika kontrollexperiment) till tidigare uppmätt data med tveksam noggrannhet. Regressionsmodellen kan sedan användas för göra nödvändiga korrigeringar till historiska data. Mer avancerade och sofistikerade metoder för att balansera data finns att tillgå.

Databearbetning inkluderar också att fylla igen luckor i data (genom att substituera värden), vilket kan vara nödvändigt om en specifik period behöver modelleras eller om det endast finns inkompletta dataset att tillgå för modelleringen. Om data saknas för vissa nyckelparametrar är litteraturvärden (för typiska populationsekvivalenter eller kvoter) ofta möjliga att använda. Ett annat alternativ är att använda data från en annan period med liknande driftsförhållanden. Det måste poängteras att detta måste genomföras med stor försiktighet för att undvika att introducera inkompatibla data. Det kan vara nödvändigt att genomföra nya mätningar för att kunna fylla igen luckorna i dataseten.  

När dataset av tillräckligt bra kvalitet väl har samlats in, balanserats och sammanställts behöver därefter dessa data konverteras till tillståndsvariabler som kan användas i de önskade delmodellerna. För mer information om detta se inlägget Karaktärisering av avloppsvatten.