Atvērto datu vadlīnijas
Versija:
1.0 (2016.07.15)
Autors:
Uldis Bojārs (uldis.bojars@lumii.lv)
LU Matemātikas un informātikas institūts
http://opendata.lumii.lv/vadlinijas/1.0/
Šis dokuments sniedz ievadu atvērto datu tematikā un satur padomus un norādes uz papildus informāciju, kas var palīdzēt organizācijām atvērto datu ieviešanā.
Vadlīnijas ir domāta ikvienam, kuru interesē atvērto datu jautājumi. Šī ir dokumenta sākotnējā versija un laika gaitā tā tiks papildināta.
Komentārus lūdzu sūtīt uz autora e-pasta adresi. Komentāri tiks ņemti vērā veidojot jaunu un paplašinātu vadlīniju versiju.
Diskusijām par atvērto datu tēmām var izmantot Latvijas atvērto datu komūnas grupu:
https://groups.google.com/forum/?fromgroups#!forum/opendata_lv
1.1. Atvērtības jēdziena definīcija
1.2. Atvērto datu principi un kritēriji
1.2.1. 8 valdības atvērto datu principi
1.2.2. Globālā atvērto datu indeksa kritēriji
1.2.2. Atvērto datu publicēšanas 5-zvaigžņu shēma
2. Labā prakse atvērto datu ieviešanā
2.1. Organizatoriskais un plānošanas līmenis (Share PSI 2.0)
3.2. Atvērto datu portāli (pasaulē)
3.3. Atvērto datu portāli (Latvijā)
Atvērtie dati ir tādi dati, kuri visiem ir brīvi pieejami un izmantojami bez jebkādiem ierobežojumiem. Šos datus jebkurš drīkst modificēt un izplatīt tālāk.
Atvērto datu pieeja ir īpaši nozīmīga publiskajā sektorā (valsts un pašvaldību iestādēs, kultūras institūcijas, u.c.), kur tiek radīts, apstrādāts un izmantots liels apjoms dažādas sabiedrībai aktuālas informācijas.
Atvērto datu un metadatu jēdzieni ir definēti LR Informācijas atklātības likumā[1]:
Atvērtie dati — brīvi pieejama bezmaksas informācija bez atkalizmantošanas ierobežojumiem, kuru var rediģēt un automatizēti apstrādāt ar brīvi pieejamām lietojumprogrammām.
Metadati – strukturēta informācija, kas raksturo konkrētu informācijas kopumu.
Likums rekomendē publiskā sektora informāciju padarīt pieejamu atvērto datu veidā[2]:
(2) Ievērojot labas pārvaldības principu, iestāde pēc savas iniciatīvas nodrošina piekļuvi noteikta veida vispārpieejamai informācijai.
(21) Vispārpieejamai informācijai, ko ievieto internetā, iestāde pēc savas iniciatīvas, ja tas ir lietderīgi, nodrošina piekļuvi atvērto datu veidā kopā ar informācijas metadatiem.
Plašāks atvērto datu skaidrojums ir atrodams LR Vides un reģionālās attīstības ministrijas Atvērto datu lapā[3]:
Atbilstoši atvērto datu pamatprincipiem, informācija ir pieejama:
Ievērojot iepriekšminētos principus, tiek nodrošināta sākotnēja atbilstība atvērto datu idejai, tomēr, lai pilnvērtīgi varētu izmantot publicēto informāciju, tai jānodrošina:
Metadatos var iekļaut ziņas par informācijas autoru, atjaunošanas biežumu, informācijas struktūru un apzīmējumu nozīmi. Paredzams, ka ES koplietošanas risinājumos metadatu aprakstīšanai tiks izmantots DCAT standarts, tādēļ ir ieteicams izmantot šo standartu.
Atvērto datu pieejas pamatā ir ideja, ka informācija sabiedrībai ir jānodod tādā formā, lai to varētu apstrādāt, un ir jādod tiesības brīvi rīkoties ar šo informāciju.
Datu un satura atvērtības pamatus definē Open Knowledge Foundation (OKFN) izstrādātā Atvērto datu definīcija (The Open Definition), kura paskaidro jēdziena "atvērtība" nozīmi šajā kontekstā.
Atvērtības jēdziena definīcijas neformāls kopsavilkums ir:
"Atvērtos datus un saturu jebkurš var brīvi izmantot jebkādam mērķim, to modificēt un izplatīt tālāk".
Formāli atvērtības jēdzienu Atvērto datu definīcija (versija 2.1) definē kā nepieciešamo nosacījumu kopu, kuriem ir jāizpildās lai doto darbu (t.sk. saturu vai datu kopu) varētu uzskatīt par atvērtu:
1.1. Atvērta license vai statuss.
Darbam ir jābūt publiskā īpašumā (public domain), t.i. neaizsargātam ar autortiesībām, vai arī publicētam ar atvērtu licensi (skat. Atvērto datu definīcijas 2. nodaļu).
Nekādi papildus nosacījumi darba lietošanai (piem., lietošanas noteikumi vai datu publicētāja patenti) nedrīkst būt pretrunā ar šī darba publiskā īpašuma statusu vai atvērtās licenses nosacījumiem.
1.2. Pieeja
Darbam ir jābūt publicētam pilnībā, lejuplādējamam internetā bez maksas un, ja tas ir pieejams(citās formās) par maksu, tad šī maksa nedrīkst pārsniegt sapratīgu, vienreizēju reproducēšanas maksu.
Jebkurai informācijai, kas nepieciešama, lai varētu izpildīt licenses nosacījumus (piem., darba autoru vārdi, kas nepieciešami, lai atsauktos uz šo darbu), ir jābūt pieejamai komplektā ar Darbu.
1.3. Mašīnlasāmība
Darbam ir jābūt pieejamam mašīnlasāmā formā, kuru ir iespējams ērti apstrādāt ar datoru un kur ir iespējams piekļūt darba atsevišķiem elementiem un modificēt tos [4].
1.4. Atvērts formāts
Darbam ir jābūt pieejamam atvērtā formātā. Atvērts formāts ir tāds formāts, kurš neuzliek nekādus ierobežojumus (ne monetārus, ne arī citus ierobežojumus) datu lietošanai un kuru ir iespējams apstrādāt ar vismaz vienu brīvu atvērtā pirmkoda rīku.
Atvērto datu definīcijas turpinājumā (2. nodaļā "Open Licenses") tiek apskatīti nosacījumi, kuriem ir jābūt spēkā atvērto datu licensēm. Šie nosacījumi neierobežo iepriekš minētās datu izmantošanas brīvības, tomēr tie drīkst uzlikt par pienākumu datu izmantotājam, piemēram, saglabāt norādi uz datu avotu vai prasīt saglabāt no datiem atvasinātās informācijas atvērtību.
Lai palīdzētu atvērto datu publicēšanā un ļautu novērtēt esošo datu kopu atvērtību, ir izstrādāti atvērto datu publicēšanas principi un tiem atbilstošie datu atvērtības kritēriji. Šie principi norāda kā publicēt datus tā, lai tie tiešām būtu atvērti un būtu visiem pieejami un izmantojami.
Nozīmīgi un savstarpēji papildinoši atvērto datu principu komplekti, kurus apskatīsim šajā dokumentā, ir "8 valdības atvērto datu principi", "Globālā atvērto datu indeksa kritēriji" un "Atvērto datu publicēšanas 5-zvaigžņu shēma".
"8 valdības atvērto datu principi" (The 8 Principles of Open Government Data) apskata atvērtos datus no publiskā sektora informācijas atvērtības viedokļa[5]. Tie plašāk izvērš atvērto datu definīcijā norādītos nosacījumus[6]:
Pilnīgi - Visiem publiskajiem datiem ir jābūt pieejamiem. Publiskie dati ir dati, uz ko neattiecas privātuma, drošības vai privilēģiju ierobežojumi.
Primāri - Dati tiek publicēti tādi, kā tie tiek oriģināli savākti ar lielāko iespējamo detalizācijas pakāpi, nevis apkopotā vai modificētā formā.
Laicīgi - Dati ir pieejami pēc iespējas ātrāk, lai nodrošinātu savlaicīgu datu vērtību.
Pieejami - Dati ir pieejami visiem iespējamajiem lietotājiem un visiem iespējamajiem nolūkiem.
Automātiski apstrādājami - Dati ir saprātīgi strukturēti, lai nodrošinātu to automātisku apstrādi.
Nediskriminējoša pieeja - Dati ir pieejami ikvienam bez nepieciešamības reģistrēties.
Atvērts datu formāts - Dati ir pieejami brīvā datu formātā, pār kuru nevienam nav īpašas kontroles.
Brīvi no licenču ierobežojumiem - Uz datiem neattiecas autortiesību, patentu, preču zīmju vai komercnoslēpumu noteikumi. Saprātīgi privātuma, drošības un privilēģiju ierobežojumi var tikt atļauti, ja to nosaka citi likumi.
Starptautiskajā atvērto datu indeksā (OKFN Global Open Data Index), kuru ir izveidojis OKFN un kurā tiek novērtēta pasaules valstu valdības datu atvērtība, tiek izmantoti šādi datu kopu novērtēšanas kritēriji:
Šo kritēriju pamatā ir Atvērto datu definīcija un 8 valdības atvērto datu principi, tomēr tie ir papildināti ar jautājumiem, kas ļauj novērtēt datu kopu pieejamību arī tādām datu kopām, kas varbūt nav pilnībā atvērtas.
Katram indeksa kritērijam ir noteikts savs svars (2015. gada indeksā izmantotie svari ir robežās no 5 līdz 30 un visu kritēriju svaru kopsumma ir 100). Ar lielāku svaru ir novērtēta atvērtas licences esamība (30), datu pieejamība bez maksas (15) un datu pieejamība mašīnlasāmā formā (15).
Detalizēts Latvijas valdības atvērto datu (2014. gada) pētījums, kurā ir izmantoti OKFN indeksa kritēriji, ir publicēts Baltic Journal of Modern Computing. Latvija OKFN atvērto datu indeksa novērtējumā ir iekļauta kopš 2014. gada[7].
Uldis Bojārs, Renārs Liepiņš. The State of Open Data in Latvia: 2014. Baltic Journal of Modern Computing, Vol. 2 (2014), No. 3, 160-170. https://arxiv.org/abs/1406.5052
Apskatot Latvijas novērtējumu atvērto datu indeksā (2015. gadā: 31. vieta no 122) var secināt, ka vairums indeksā iekļauto datu kopu Latvijā ir publiski pieejamas, tomēr daudzas no tām nav mašīnlasāmā formātā un dati nav aktuāli vai arī netiek publicēti savlaicīgi. Ļoti būtisks trūkums ir tas, ka neviena no indeksā apskatītajām datu kopām Latvijā nav pieejama ar atvērtu licenci. Iespējams, ka datu publicētāju nodoms ir bijis šos datus publicēt kā atvērtus datus, tomēr, tā kā datiem nav pievienota atvērta licence, potenciālais lietotājs nevar būt pārliecināts, ka dati ir atvērti un ir brīvi un bez ierobežojumiem izmantojami.
Vislabākais veids, kā atvērtos datus padarīt visiem pieejamus, ir tos publicēt tīmeklī. Atvērto datu publicēšanas 5-zvaigžņu shēma ("5-star Open Data Scheme") apraksta labo praksi datu kopu publicēšanai tīmeklī, kuru ir formulējis tīmekļa izgudrotājs Tims Berners-Lī.
★ publicējiet datus tīmeklī (jebkādā formātā) ar atvērtu licenci
★★ publicējiet mašīnlasāmus, strukturētus datus (piem., Excel vai CSV tabula atbilst šim kritērijam, bet tabula PDF datnē - nē)
★★★ izmantojiet atvērtus formātus (piem., papildus Excel datnei publicējiem datus CSV formātā)
★★★★ izmantojiet URI, lai identificētu objektus datu kopās un norādītu uz tiem
★★★★★ saistiet datus kopā ar citiem datiem, nodrošinot papildus kontekstu un pilnībā izmantojot tīklošanās iespējas
Katrs nākamais 5-zvaigžņu shēmas līmenis pieņem, ka ir izpildīti arī iepriekšējo līmeņu nosacījumi. Piemēram, 3 zvaigžņu līmenī datiem ir jābūt publicētiem ar atvērtu licenci (1★), mašīnlasāmā, strukturētā formā (2★), izmantojot atvērtu formātu (3★).
5-zvaigžņu shēmas austākie līmeņi - 4★ (norādīt uz objektiem, izmantojot tīmekļa standartus un URI identifikatorus) un 5★ (saistīt datus kopā ar citiem datiem, tajos iekļaujot saites uz citu objektu URI) - atsaucas uz saistīto datu (Linked Data) principiem kā tīmeklī padarīt pieejamus mašīnlasāmus datus par objektiem un saitēm to starpā.
URI (Uniform resource identifier) ir standarta veids globālu, "tīmeklim draudzīgu" objektu identifikatoru veidošanai[8]. Jebkura tīmekļa adrese ir URI, tomēr URI var izmantot arī lai norādītu uz cita veida objektiem (t.sk. reāliem objektiem).
Izmantojot URI, uz datu kopām un to objektiem ir iespējams atsaukties no citiem datu avotiem un tīmekļa lapām.
Atvērtos datus, kuri ir publicēti saistīto datu (5★) formā, sauc par atvērtajiem saistītajiem datiem (Linked Open Data).
Publicējot atvērtos datus (vai gatavojoties to darīt), ir ieteicams ņemt vērā citu valstu un organizāciju pieredzi, kura ir pieejama starptautisko standartu, labās prakses (best practices) un jau realizētu atvērto datu projektu formā.
Tālāk dokumentā tiek apskatītas organizatoriskā līmeņa labās prakses, kuras ir tapušas Share PSI 2.0 tematiskā tīkla ietvaros[9].
Share PSI 2.0 projekta ietvaros tika apkopotas un izstrādātas labās prakses publiskā sektora atvērto datu ieviešanai. Tājās tiek apskatīti organizatoriski un plānošanas pasākumi, kuri ir nepieciešami veiksmīgiem atvērto datu projektiem.
Visas SharePSI labās prakses (LP) ir apskatāmas projekta vietnē: https://www.w3.org/2013/share-psi/bp/
Pilns šī projekta LP uzskatījums ir pārāk apjomīgs, lai to ietvertu šajā dokumentā, tādēļ tālāk tiek aprakstīta daļa no projekta labajām praksēm.
Šī nodaļa satur norādes uz papildus informāciju par atvērtajiem datiem.
"The 8 Principles of Open Government Data"
VARAM - Atvērtie dati
www.varam.gov.lv/lat/darbibas_veidi/e_parv/atvertie_dati/
"Pašvaldības un atvērtie dati"
http://providus.lv/upload_file/Projekti/Laba%20parvaldiba/faktu_lapa_final.pdf
Latvijas atvērto tehnoloģiju asociācijas informatīvajais materiāls "Atvērtie dati".
Atvērto datu apmācības materiāli (EK Joinup projekts, angļu valodā)
https://joinup.ec.europa.eu/node/70560/
Atvērtie dati, to publicēšanas vadlīnijas un normatīvi (EK Joinup projekta materiāli, latviešu val.)
http://www.slideshare.net/OpenDataSupport/atvertie-dati-varam21feb14
Eiropas Savienības atvērto datu portāls
http://www.europeandataportal.eu/
DataHub - atvērts, globāls datu portāls, kurā jebkurš var pievienot jaunas datu kopas (OKFN)
Lielbritānijas atvērto datu portāls
ASV atvērto datu portāls
Latvijā pagaidām nav izveidots valsts līmeņa atvērto datu portāls.
Latvijas atvērto datu entuziastu (opendata.lv) portāls
Rīgas pašvaldības atvērto datu portāls
[1] http://likumi.lv/doc.php?id=50601
[2] http://likumi.lv/ta/id/50601-informacijas-atklatibas-likums#p-564240
[3] http://www.varam.gov.lv/lat/darbibas_veidi/e_parv/atvertie_dati/
[4] Piemēram, tabula CSV vai XLS formā atbilst šim nosacījumam, bet tāda pat tabula PDF formātā dotajam nosacījumam neatbilst.
[5] "8 valdības atvērto datu principu" lapā ir pieejams šo principu anotēts saturs. Sākotnējā 8 valdības atvērto datu principu versija ir pieejama atsevišķā lapā: https://public.resource.org/8_principles.html
[6] Latviskā tulkojuma avots: http://opendata.lv/2011/08/05/kas-ir-open-data/
[7] http://index.okfn.org/place/latvia/
[8] Reizēm URI vietā tiek lietots termins IRI (Internationalized Resource Identifier), kurš identifikatoros ļauj izmantot ne tikai ASCII simbolus, bet arī citus izmantot Unicode simbolus. Ja neskaita kodējumu atšķirības, URI un IRI pilda vienu un to pašu funkciju.
[9] https://www.w3.org/2013/share-psi/bp/