Dataverwerking

Dataverwerking omvat alle stappen voor het integreren van data in de Amsterdam Datahub: Het extraheren van ruwe data uit de bronsystemen, transformeren, schonen en het opwerken van data. Data kan worden gerelateerd aan andere databronnen in de datahub. Hiermee krijgt u een geïntegreerd dataproduct dat klaar staat om er verdere informatieproducten van te maken, zoals API’s, kaarten, Business Intelligence of artificiële intelligentie. Alle operaties op data worden geautoriseerd en gelogd.

Datacenter Stadsarchief, Sciencepark.

Afbeelding links: Datacenter Stadsarchief, Sciencepark.
Afbeelding rechts: Internetstraat depot Stadsarchief.

Standaardoplossing

Voor de verwerking van data in de datahub gebruiken we een standaardoplossing. De architectuur van deze standaardoplossing omvat de Azure componenten, infrastructuur, autorisatie, connectiviteit en logging voor de verwerking van data in de datahub. Door deze standaardoplossing kunnen de datateams zich volledig richten op de verwerking van de data en de kennis van het domein.

Hoe helpen wij?

Wij helpen bij de kennisopbouw van datateammedewerkers in de standaardoplossing en de gebruikte Azure tooling. Dit doen we met documentatie, wiki pagina’s, informatiesessies en workshops.

Voorbereidingen

Bent u een medewerker van een datateam en heeft u een dataproduct dat u graag naar de datahub zou willen brengen? Lees hieronder hoe u kunt starten.

Baseline informatiebeveiliging Overheid (BIO)
Als eerste heeft het dataplatform een BIO analyse en de bijbehorende classificatie van de data nodig om de data in de datahub te kunnen verwerken. Deze kunnen worden aangevraagd bij de security officers van uw organisatie.
Solution Architecture overview
Het opstellen van de Solution Architectuur is onderdeel van het landen in de datahub. In deze stap wordt bepaald in hoeverre de extractie van de data uit de bronsystemen binnen de standaardoplossing van het dataplatform afgedekt kan worden.

Aan de slag

Wilt u beginnen en concreet aan de slag? Hier volgen de stappen die u moet ondernemen.

Voor de verwerking van data in de datahub gebruiken we Azure clouddiensten, meer specifiek DataFactory en DataBricks. DataFactory wordt gebruikt als ‘workflow’ voor het uitvoeren van databewerkingstaken. Met DataBricks worden de taken voor de databewerkingen zelf gemaakt. DataFactory en DataBricks zijn onderdeel van de Azure cloud. Met Azure, DataFactory en DataBricks heeft het Dataplatform een technische infrastructuur en de middelen om data veilig en secuur te verwerken voor de datahub.

Kennisopbouw
Kennisopbouw van datateammedewerkers van de standaardoplossing en van de gebruikte Azure componenten, met name van DataFactory en DataBricks.
Azure cost center code en Timetell project
Voor correcte financiële afhandeling, zijn een Azure costcenter code en een Timetell project code nodig.
Azure subscription en accounts
Op basis van de Solution Architectuur wordt bepaald of een eigen Azure subscriptie nodig is. Developers hebben een eigen Azure account nodig. Deze accounts moeten aan de Azure subscriptie van het datateam gekoppeld worden.
Amsterdam schema
Alle data in de datahub zijn verwerkt volgens de eisen van het Amsterdam Schema. Om te kunnen beginnen met het verwerken van de data, dient de data volgens Amsterdam schema beschreven te worden.

Contact

Heeft u vragen, wilt u graag meer weten over het dataplatform of wilt u graag aansluiten op het dataplatform?

Neem dan contact op via het onderstaande emailadres:
dataplatform@amsterdam.nl

Voor vragen omtrent het gebruik van basis- en kernregistraties neem contact op met:
gebruik.basisinformatie@amsterdam.nl