Vaikka mediassa keskustellaan siitä, onko data uutta öljyä vai ei, yksi asia on selvä: kuten öljy, data tarvitsee paljon käsittelyä. Facebookista kasvaviin startup-yrityksiin, minkä tahansa menestyvän organisaation, joka käsittelee kasvavaa tietomäärää, on kyettävä järjestämään, käyttämään, turvaamaan ja käsittelemään dataa, jotta se voidaan muuntaa oivalluksiksi ja päätöksiksi.
Työkaluja ja myyjiä on monia, ja ne on otettava huomioon erityisesti yrityksen tarpeiden ja tehtävän kannalta. Tehtävästä riippumatta tavoitteena on kuitenkin viime kädessä löytää tiedonhallintatuote, joka tekee tiedosta mahdollisimman hyödyllistä ja minimoi samalla kustannukset, riskit ja resurssien käytön.
Tämä on luettelo tiedonhallintaohjelmistoista, mutta se ei ole kattava. Olemme laatineet säännöllisesti päivitettävän, kattavan lajiteltavan/suodatettavan luettelon datanhallintaohjelmistojen johtavista toimittajista, tutustu siihen rohkeasti.
Datanhallintaohjelmistot
Datanhallinta on laaja tieteenala, jolla on monia erilaisia painopisteitä ja työkaluja näiden painopisteiden hallintaan. Tiedonhallintaohjelmisto (Data Management Software, DMS) yhdistää tietueet useista tietokannoista, poimii, suodattaa, tiivistää tiedot menettämättä eheyttä ja häiriöitä.
Jotkut toimittajat ja ohjelmistot sisältävät useita toimintoja ja voivat poistaa tarpeen erilliselle työkalulle. Jos etsit hieman lisää taustatietoa tiedonhallinnasta, tutustu aiheeseen liittyvään blogikirjoitukseemme.
Voidaan jäsentää tiedonhallintaohjelmistoja näiden aiheiden ympärille
- Avoiman lähdekoodin tiedonhallintaohjelmistot: On olemassa lukuisia avoimen lähdekoodin tiedonhallintatyökaluja, jotka palvelevat useita alla mainittuja toimintoja.
- Tietojen suunnittelu:
- Tietoarkkitehtuurin ja tietomallin suunnitteluohjelmistot:
- Master- ja viitetietojen hallinta: Nämä ovat parhaiden käytäntöjen mukaisen tietokannan hallinnan perusta, ja ne auttavat organisaatioita hallitsemaan tietojaan eri liiketoimintayksiköissä
- Tietokannan hallinta: Nämä mallinnetut tietorakenteet on luotava tietokantoihin
- Asiakirjojen kerääminen ja analysointi: Dokumentit ja muu jäsentymätön sisältö asettavat haasteita erityisesti perinteisille tietokannoille. Erilaiset asiakirjakokoelmaratkaisut helpottavat jäsentymättömän sisällön hallintaa
- Metatietojen hallinta: Metatiedot ovat arvokkaita, sillä yksinkertaisimpien metatietokenttien, kuten päivitys- ja luomisaikojen, avulla yritykset voivat tunnistaa ongelmakohtia tiedoissaan ja analysoida tietojen luonti- ja päivitysprosesseja
- Tiedon laadunhallinta:
- Tietojen analysointi: Kun tietojen yhdistäminen (kerääminen) alkaa, tietojen laatua on seurattava, ja on olemassa lukuisia ratkaisuja tietojen laadun mittaamiseen ja parantamiseen
- Tietojen analysointi: Lopuksi, lukuisat ja eritasoiset ratkaisut antavat yrityksille mahdollisuuden analysoida tätä dataa
Avoimen lähdekoodin tiedonhallintaohjelmistot
Ennen kuin luokittelimme tiedonhallintatyökalut niiden ominaisuuksien perusteella, ajattelimme, että saatat pitää avoimen lähdekoodin ratkaisuja parempana niiden avoimuuden ja lisenssimaksujen puuttumisen vuoksi. Siksi aloitamme avoimen lähdekoodin tiedonhallintataulukolla:
Name | Founded | Status | Notes |
---|---|---|---|
Airtable | 2012 | Private | -Airtable on pilvipohjainen tietokantaohjelmisto Ilmaispaketti tarjoaa rajattomasti datataulukoita, 1 200 tietuetta per pohja, 2 Gt tiedostojen liitetilaa per pohja ja jopa 2 viikon tarkistus- ja tilannekuvahistorian. |
GraphDB-Ontotext | 2000 | Private | -GraphDB on graafinen tietokanta, joka tarjoaa pilvi- ja on-premise-käyttöönoton. |
MariaDB | 2009 | Private | -MariaDB kattaa samankaltaiset ominaisuudet kuin MySQL, mutta siihen on lisätty joitakin laajennuksia. -Fortune 500 -yritykset, jotka käyttävät MariaDB:tä: Deutsche Bank, DBS Bank, Nasdaq, Red Hat, ServiceNow, Verizon ja Walgreens |
Cubrid | 2008 | Private | -CUBRID on avoimeen lähdekoodiin perustuva tietokantajärjestelmä (DBMS), joka on optimoitu OLTP:hen. |
FirebirdSQL | 2005 | Private | -CouchDB on online-dokumenttitietokanta ja tallennusratkaisu yrityksille. -Työkalu tarjoaa ACID-semantiikan usean version samanaikaisuudenhallinnan avulla. |
Data-arkkitehtuuri ja tietomallien suunnittelu
Data-arkkitehtuuri on malleja, käytäntöjä tai sääntöjä, jotka ohjaavat sitä, mitä tietoja kerätään, miten niitä tallennetaan ja miten niitä käytetään. Se jaetaan edelleen yritysarkkitehtuuriin tai ratkaisuarkkitehtuuriin.
Tietomallinnus määrittelee ja analysoi tietojärjestelmien liiketoimintaprosesseissa tarvittavat tietovaatimukset. Tuotetaan kolmenlaisia tietomalleja, jotka etenevät käsitteellisestä mallista loogiseen tietomalliin ja päätyvät lopulta fyysiseen tietomalliin.
Kaikki nämä luokat auttavat järjestämään ja kartoittamaan tietoja, parantamaan niiden luotettavuutta ja myös läpinäkyvyyttä organisaatiossa.
Joitakin näihin tuotteisiin liittyviä hyödyllisiä työkaluja ovat mm:
Name | Founded | Status | Notes |
---|---|---|---|
Idera | 2004 | Private | -Datamallinnus -Tietokantojen hallinta redundanssin vähentämiseksi |
Teradata | 1979 | Julkinen | -Big Data -arkkitehtuuri, joka voidaan rakentaa useista data-alustoista |
Looker | 2011 | Erityinen | -Data-analyysi ilman SQL |
Tableau | 2003 | Public | – Nopea ad hoc analyysi ilman ohjelmointia -Automaattiset päivitykset tai live-yhteys |
Viite- ja masterdatan hallinta
Viitetiedot ovat masterdatan osajoukko, jota voidaan käyttää luokitteluun koko organisaatiossa. Joitakin yleisimpiä viitetietoja ovat postinumerot, valuutat, koodit ja muut luokitukset – mutta se voi olla myös organisaation sisällä ”sovittua” tietoa. Tämäntyyppisten tietojen hallinta on tärkeää, koska ne toimivat usein viitteenä useille järjestelmille.
Viitetietojen hallintaan on saatavilla useita apuvälineitä, joista tässä on muutamia:
Name | Founded | Status | Notes |
---|---|---|---|
ASG metaRDM | 1986 | Private | -Keskittyminen vaatimustenmukaisuuden tukemiseen |
Collibra Reference Data Accelerator | 2008 | Private | – Helppo käyttöönotto ja toteutus |
Informatica Cloud – MDM Reference 360 | 1993 | Julkinen | -Hyödyntää INFA Cloudin MDM-pohjaa |
Kalido by Magnitude Viitetiedonhallinta | 2014 | Private | -Embedded workflow engine for stewardship and governance |
Master Data Management (MDM) on kokonaisvaltainen menetelmä organisaation keskeisten tietojen määrittelemiseksi ja hallitsemiseksi viitekehyksen tarjoamiseksi. Tämän alan ohjelmistot tukevat asiakastietojen tunnistamista, yhdistämistä ja synkronointia eri tietolähteistä. Näitä tietoja käytetään useiden tietojen hallintaan ja hallintaan liittyvien aloitteiden tukena.
Joitakin suosittuja MDM-työkaluja ja -toimittajia ovat mm:
Name | Founded | Status | Notes |
---|---|---|---|
Orchestra Networks EBX | 2000 | Private | -Sisältää toiminnallisuuden master-, meta, ja viitetiedot |
Dell Boomi | 1984 | Julkinen | -ominaisuudet, kuten ’Boomi Suggest’ ja ’Boomi Assure’, jotka auttavat kehitystyössä ja testauksessa |
Stibo Systems | 1976 | yksityinen | -Painopiste monialaisessa MDM:ssä |
Profisee | 2007 | Private | -Teollisuuden rakentamat ratkaisut |
Tutustutaan yli 100 master data management -toimittajaan ja -työkaluun, tutustu lajittelevaan ja läpinäkyvään toimittajaluetteloomme, jossa lajittelimme toimittajat suosion, liiketoiminnan kypsyyden ja käyttäjätyytyväisyyden perusteella.
Tietokannan hallinta
Tietokannan hallinnalla on useita tavoitteita suorituskyvystä, tallennuksesta, turvallisuudesta ja muusta. Työkaluilla pyritään hallitsemaan tietoa koko sen elinkaaren ajan, mikä johtaa parempaan liiketoimintatietoon ja parempaan päätöksentekoon.
Joitakin yleisiä tehtäviä, joihin oikealla tietokannanhallintaohjelmistolla tulisi vastata, ovat:
- Sovelluksen viritys
- Vastausaikojen testaus
- Läpimenoaikojen testaaminen
- Tehonhallinta
On tärkeää pitää mielessä DBMS:n (Database Management System, DBMS) ja RDBMS:n (Regional Database Management System, RDBMS, RDBMS, RDBMS, RDBMS, RDBMS, RDBMS, RDBMS, RDBMS, RDBMS. DBMS on yleisnimitys erityyppisille tietokantojen hallintatekniikoille, joita on kehitetty viimeisten 50 vuoden aikana. 1970-luvulla syntyi relaatiotietokannan hallintajärjestelmä (RDBMS, Relational Database Management System), josta tuli nopeasti alan hallitseva teknologia. RDBMS:n tärkein tekijä on sen rivipohjainen taulukkorakenne, jolla voidaan yhdistää toisiinsa liittyviä tietoelementtejä, mikä saavutetaan tietokannan normalisoinnin avulla. 2000-luvulta lähtien ei-relationaaliset tai ei-SQL-tietokannat, kuten MongoDB, alkoivat yleistyä, mutta relaatiotietokannat ovat edelleen tärkeitä strukturoitujen tietojen tallentamisessa.
Joitakin tällä tieteenalalla toimivia toimittajia ovat mm:
Nimi | Valmistettu | Tilanne | Huomautuksia |
---|---|---|---|
Oracle Enterprise Manager | 1977 | Julkinen | -Tietokanta-ytimeen sisäänrakennetut itsehallintaominaisuudet Linux-käyttöjärjestelmään, Windows, Solaris, IBM AIX, UP-UX |
IBM DB2 | 1983 | Julkinen | -Linux, Unix, ja Windows -SQL-yhteensopivuus |
MongoDB | 2007 | Julkinen | -Työskentelee AWS:n, Azuren ja Google Cloudin kanssa -Monia versioita: Enterprise Advanced, Stitch, Atlas, Cloud Manager |
Document, Record, Content Management
Yrityssisällönhallinta, jota joskus kutsutaan asiakirjahallinnaksi, on prosessi, jossa tallennetaan, hallitaan ja seurataan päivittäisen liiketoiminnan asiakirjoja.
Joitakin yleisiä toiminnallisuuksia, joita minkä tahansa ratkaisun tulisi sisältää, ovat:
- Dokumenttiskanneri paperitekstien digitaalisten kopioiden tekemiseen
- Optinen hahmontunnistus (OCK) skannattujen asiakirjojen muuntamiseen
- Käyttäjälähtöinen käyttöoikeus
- Dokumenttien kokoaminen kaapin avulla luomiseen-ja-kansiorakenne
- PDF-muunnin
- Dokumenttien tallennus ja varmuuskopiointi
- Integraatiovaihtoehdot
- Yhteistyövälineet ja versionhallinta
Nimi | Luotu | Tilanne | Huomautukset |
---|---|---|---|
Alfresco | 2005 | Privaatti | -Valikoima työnkulku- ja yhteistyövaihtoehtoja |
Dokmee/Office Gemini | 2006 | Private | Hinnaltaan edullisempi vaihtoehto kuin jotkut |
Maxxvault | 2008 | Private | -Suoraviivainen käyttöliittymä |
eFileCabinet | 2001 | Private | -Vahva vaihtoehto etäryhmille |
Metatiedonhallinta
Metatiedonhallinta on toista dataa kuvaavien tietojen hallintaa. Siihen kuuluu myös prosesseja, joilla varmistetaan, että tiedot voidaan integroida ja hyödyntää koko organisaatiossa. Se on tärkeää määritelmien johdonmukaisuuden, suhteiden selkeyden ja tiedon linjaston ylläpitämiseksi.
Joitakin metatiedon hallintaan liittyviä yleisiä tehtäviä, jotka tulisi täyttää millä tahansa ohjelmistolla tai työkalulla, ovat mm. seuraavat:
- Metatietovarastot dokumentointia ja hallintaa sekä analyysien suorittamista varten
- Datan sukupuu, jotta voidaan määritellä datan alkuperä ja se, minne se on siirtynyt ajan mittaan
- Liiketoimintasanasto, jotta voidaan kommunikoida ja hallinnoida keskeisiä termejä
- Sääntöjenhallinta, jotta voidaan automatisoida täytäntöönpano. liiketoimintasääntöjen automatisoimiseksi
- Vaikutusanalyysi, jossa eritellään mahdolliset tietoriippuvuudet
Name | Founded | Status | Notes |
---|---|---|---|
Adaptive Metadata Manager | 1997 | Private | -Yli 20 vuoden kokemus useista yhteistyökumppanuuksista |
Data Advantage Group | 1999 | Private | -tunnettu käyttöönoton helppoudesta |
Informatica Metadata Manager | 1993 | Public | -Keskittyminen tiedonhallintaan ja analytiikkaan |
Smartlogic Semaphore | 2005 | Private | -Kaappaa tietovarantoihin liittyvät epäjohdonmukaiset ja epätäydelliset metatiedot |
Tietoluettelot automatisoi metatiedon hallinnan ja tekee siitä yhteistoiminnallista. Jos haluat lisätietoja datakatalogitekniikasta, lue rohkeasti artikkelimme.
Datan laadunhallinta
IBM:n mukaan Yhdysvaltain talous menettää vuosittain 3,1 biljoonaa dollaria huonon datan laadun vuoksi. Kun puhutaan datan kunnosta ja käytettävyydestä aiottuun tarkoitukseen, puhutaan datan laadusta. Joitakin tärkeimpiä korkean tiedonlaadun varmistamiseen liittyviä prosesseja ovat:
- jäsennys ja standardointi: Tekstikenttien pilkkominen osiinsa ja niiden arvojen muotoilu yhdenmukaisiksi asetteluksi valittujen kriteerien perusteella. Jotkin yleiset asettelut on määritelty alan standardeilla, käyttäjän määrittelemillä liiketoimintasäännöillä tai arvojen ja mallien tietopohjilla.
- Yleinen ”puhdistus”: Tietoarvojen päivittäminen niin, että ne ovat toimialuerajoitusten, eheysrajoitusten tai muiden liiketoimintasääntöjen mukaisia, jotka määrittävät organisaation tiedon vähimmäislaadun
- Profilointi: Data-analyysi tilastojen (metatietojen) keräämiseksi, jotta saadaan käsitys datan laadusta ja löydetään datan laatuun liittyvät ongelmat
- Seuranta: Prosessi, jolla varmistetaan tietojen yhdenmukaisuus organisaatiolle asetettujen laatusääntöjen kanssa.
- Rikastaminen: Sisäisesti säilytettävien tietojen arvon lisääminen lisäämällä niihin liittyviä attribuutteja ulkoisista lähteistä
Kaikkien harkitsemiesi tiedonlaatutyökalujen tulisi sisältää toiminnallisuutta kaikkiin edellä mainittuihin ja moniin muihin seikkoihin. Joitakin merkittäviä toimittajia ovat mm:
Name | Founded | Status | Notes |
---|---|---|---|
Talend Open Studio for Data Quality | 2005 | Public | -Avoimen lähdekoodin yli 400 sisäänrakennettua dataliitintä |
Ataccma | 2007 | Private | -Machine learning, Self-service data preparation, data catalog |
BackOffice Associates (BOA) | 1996 | Private | -Valikoima valmiita raportteja saatavilla |
Innovative Systems: Enlighten | 1968 | Private | -Addressin validointi- ja geokoodausominaisuus |
Tietovarastointi ja BI-hallinta
Tietovarasto on useista eri lähteistä peräisin olevien tietojen yhdistäminen, joka luo perustan Business Intelligence (BI) -hankkeelle. Kaikki tiedot tallennetaan tässä samassa muodossa, mutta älykkäät algoritmit, kuten indeksointi, mahdollistavat tehokkaan analysoinnin.
Business Intelligence on joukko menetelmiä ja työkaluja, joita organisaatiot käyttävät datan hyödyntämiseen ja sen perusteella parempiin tietoihin perustuvien päätösten tekemiseen. BI-alustat kuvaavat joko sitä, mitä yrityksessäsi tapahtuu juuri nyt tai mitä on tapahtunut – mieluiten reaaliajassa.
Jotta ymmärtäisit paremmin, mitä työkaluja kumpaankin käytetään, seuraavassa taulukossa on vertailtu tärkeimpiä eroja:
Mitä se on | Lähde | Tulos | Audience | |
---|---|---|---|---|
Business Intelligence | Järjestelmä, jolla saadaan liiketoimintaymmärrystä | Tiedot tietovarastosta | Raportit, kaaviot, graafit | Johtajat, johto |
Tietovarasto | Tietojen varastointi, historialliset ja nykyiset | Tiedot eri lähteistä | Tiedot yhdenmukaisessa muodossa BI-työkaluja varten | Tietoinsinöörit, data- ja liiketoiminta-analyytikot. |
Joitakin esimerkkejä työkaluista näihin prosesseihin:
Name | Use | Founded | Status | Notes |
---|---|---|---|---|
Microsoft Power BI | BI | 2013* | Public | -Samanlainen käyttöliittymä kuin Excel |
QlikView | BI | 1993 | Private | -Sisältää tiedonlouhinnan ja analytiikan |
Cognos | BI | 1969 | Private | -Moniulotteiset ja relaatiotietolähteet |
Tableau | BI | 2003 | Public | -Pidetään yleisesti yhtenä parhaista vaihtoehdoista visualisointien osalta |
Teradata Data Warehouse | DW* | 1979 | Public | -Käyttää AMP:tä (Access Module Processors) tiedonkäsittelyn nopeuden lisäämiseksi |
Amazon Redshift | DW | 2012* | Public | -Täysin hallittava työkalu – ei tarvitse DBA:ta |
Oracle Data Warehouse | DW | 1977 | Public | -Sisältää jonkin verran BI-toiminnallisuutta |
*DW = tietovarastointi
*Tuotteen perustamisvuosi, ei yrityksen perustamisvuosi
Tietovarastot ovat usein tiiviissä yhteydessä ETL-ratkaisuun (Extract, Transform, Load), joka ottaa tietoja monista eri lähteistä ja ”muuntaa” ne yhteen, tietovarastossa käytettävään muotoon. Lisätietoja on ETL:stä ja ETL-työkaluista kertovissa blogikirjoituksissamme.
Data-analyysi
Data-analyysi on kaiken tämän tietojen käsittelyn tulos. Data-analyysi on prosessi, jossa tietoja tarkastetaan, puhdistetaan, muunnetaan ja mallinnetaan hyödyllisen tiedon löytämiseksi. Data-analyysiin kuuluvat myös tiedonlouhinta, tilastolliset sovellukset (kuvaileva tilastotiede, eksploratiivinen data-analyysi) ja laaja valikoima tilastollisen datan analysointitekniikoita, kuten hypoteesin testaus tai regressioanalyysi.
Haluatko oppia lisää teknologioista ja toimittajista, jotka muuttavat tapaa, jolla organisaatiot hoitavat asioita? Tutustu blogiimme, josta löydät kirjoituksia monenlaisista tekoälyyn ja teknologiaan liittyvistä aiheista.