Dataanalys och bearbetning

1. Feldetektion
Ett första steg att undersöka ett dataset för potentiella fel är sammanställa alla data, från respektive datakällor, och genomföra en enklare tidsserieanalys genom att plotta tidsserierna för de insamlade mätvärdena. Datavisualisering tillåter en överblick av generella trender och variation i data. Plottar gör det också enkelt att upptäcka skiftningar (plötsliga förskjutningar) i data och misstänkta felaktiga. Data kan också grupperas och kategoriseras efter belastningsförhållanden eller årstid för att minska variationen i data vilket kan göra dataanalysen lättare att genomföra. Olika statistiska mått kan tas fram för att beskriva datauppsättningarna, för normalfördelade parametrar kan exempelvis histogram och följande mått vara användbara:
- min- och maxvärden,
- medelvärden och median,
- standardavvikelser, variationskoefficienter (cv-värde) och olika percentiler,
- för skeva fördelningar, skevhetskoefficienten (coefficient of skewness),
- Ntot ≡ TKN + NO3-N + NO2-N
- TKN > NHx-N
- Ptot > PO4-P
- CODtot > CODfil > CODsol
- CODtot > BOD7
- TSS > VSS
- MLSSRAS > MLSSAST
- Korrektheten inte kan bekräftas (ex. genom att dubbelkolla datakällan)
- Anledningen till extremvärdet inte är tydlig/uppenbar (om det t.ex. saknas information som styrker ovanliga belastningar under den rådande tidsperioden)
- Data verkar vara korrekt och rimlig, men ligger så långt utanför normala dataintervall att extremvärdet har ett oproportionerligt stort bidrag till olika medelvärden
- Data representerar en ovanlig driftsituation (ex. verket hade begränsad kapacitet på grund av underhåll)
Använda massbalanser för feldetektion
Att använda massbelastningar för att detektera extremvärden är ett bättre tillvägagångssätt än att använda koncentrationer då koncentrationer påverkas av flöden (ex. utspädning från regn). Mer avancerade rimlighetsbedömningar kan också genomföras där en användbar metod är att jämföra typiska masskvoter mellan olika processvariabler. Masskvoter är mindre beroende av och tillåter jämförelser med mer data från andra reningsverk.
Inflöde + Reaktion = Utflöde + Ackumulering
Massbalanser kan baseras på olika processvariabler, exempelvis på vattenflöde, COD, N, P och TSS. Fosfor är särskilt lämpat för massbalanser eftersom det återfinns i vatten och slamflöden från verket (dvs. bryts inte ner och avgår inte till luft). Fosforbalanser kan användas för att bedöma den generella datakvalitén, speciellt för flödesmätningar. Ett avancerat sätt att använda massbalanser för feldetektion är att sätta upp flera parallella massbalanser (massbalanser i samma system med olika processvariabler) eller överlappande massbalanser (massbalanser i olika överlappande system som delar en gemensam mätpunkt).
2. Fellokalisering
Fellokalisering baseras ofta på processerfarenhet (ex. att sannolikheten att det finns fel i data för överskottsslam är stor) men kan ibland också genomföras med ytterligare mätningar. Överlappande massbalanser kan användas för att lokalisera fel, eller i alla fall bidra till att skapa en bild av var felen ligger och ge idéer till valideringsexperiment. Överlappande massbalanser innehåller specifika mätpunkter i mer än en massbalans. Om en massbalans kan stängas men en annan överlappande massbalans inte kan stängas är felet sannolikt i en annan variabel (inte den överlappande). Om båda de överlappande massbalanserna inte kan stängas är sannolikheten stor att felet ligger i den variabel (flöde eller koncentration) som överlappar.
3. Felidentifiering
Efter att felkällan har lokaliserats bör orsaken till felet identifieras och kvantifieras. Specifika mätningar kan behöva genomföras för att bestämma noggrannheten hos olika mätinstrument. Felkällor kan delas upp i fel i flödesmätningar, samplingsfel och fel i analytiska metoder. Några vanliga felkällor beskrivs nedan:
- Flödesmätningar kan vara en signifikant felkälla. Det är således bra att kontrollera flödesmätare, exempelvis genom att mäta tiden det tar för att fylla en känd volym.
- Flödesfördelning kan vara ytterligare ett signifikant bidrag till då flödesmätningar ofta inte görs på samtliga delströmmar. Vanligtvis leder detta till osäkra antaganden vid modellering.
- Provtagning (manuell och automatisk) är en annan vanlig felkälla. En representativ provpunktpunkt med homogen omblandning är viktigt, speciellt vid sampling av slam eller andra strömmar med en hög koncentration fast material
- Analytiska metoder (laboratoriemetoder och onlinemätningar) kan bidra med mätfel på grund av flera olika orsaker. Några vanliga felkällor är provberedningen och provhantering (ex. lagring, homogenisering, delning av större inhomogent material, ofullständig nedbrytning etc.).
- Onlinesensorer ställer krav på rutinmässigt underhåll och regelbunden kalibrering för att kunna tillhandahålla data av god kvalitet. För att kunna säkerställa mätdata av god kvalitet krävs att regelbunden kvalitetskontroll och användande av kontrollkort.
4. Bearbetning
Alla modeller för aktivslamprocessen är baserade på massbalanser och kommer att resultera i slutna balanser (med få undantag). Det är således viktigt att se till att alla de data som samlas in från reningsverk i modelleringssyfte också sluter samma massbalanser, inkonsekvent data kommer inte att ge meningsfulla simuleringsresultat. En enkel bearbetningsmetod är använda regressionsanalys för att ta fram en linjär regressionsmodell för att korrelera data med hög noggrannhet (ex. från specifika kontrollexperiment) till tidigare uppmätt data med tveksam noggrannhet. Regressionsmodellen kan sedan användas för göra nödvändiga korrigeringar till historiska data. Mer avancerade och sofistikerade metoder för att balansera data finns att tillgå.
När dataset av tillräckligt bra kvalitet väl har samlats in, balanserats och sammanställts behöver därefter dessa data konverteras till tillståndsvariabler som kan användas i de önskade delmodellerna. För mer information om detta se inlägget Karaktärisering av avloppsvatten.