Uutiset

Microsoft keskustelee Azure Data Laken ja Hadoopin integroinnista

Microsoft Keskustelee Azure Data Laken Ja Hadoopin Integroinnista

Azure Data Lake, kuten U-SQL, antaa käyttäjille mahdollisuuden yhdistää mukautettua koodia SQL:ssä. Sen skaalautuva hajautettu kyselyominaisuus mahdollistaa kaikkien Azuren SQL-palvelimien, Azure SQL Databasen ja Azure SQL Data Warehousen sisältämien tietojen tehokkaan analysoinnin.

  • Azure HDInsight, hallittu Apache Hadoop -klusteripalvelu, joka käyttää avoimen lähdekoodin analytiikkamoottoreita, kuten Hive, Spark, HBase ja Storm. HDInsight on nyt saatavilla Linuxin hallituille klusteille.
  • Microsoft Data Platformsin tekninen stipendiaatti Raghu Ramakrishnan käytti tänään tilaisuutta hyväkseen kuvailee miten nämä palvelut syntyivät eräänlaisella kulissien takana olevalla rehellisyydellä.
    Ramakrishnan oli entinen Yahoon työntekijä, joka työskenteli syvällisesti Hadoopin ja monien muiden avoimen lähdekoodin työkalujen kanssa. Apache Hadoop on avoimen lähdekoodin ohjelmistokehys, joka on hajautettu erittäin suurten tietojoukkojen tallennus ja käsittely. Se perustuu oletukseen, että yksittäiset järjestelmät tai klusterit voivat epäonnistua, ja kehyksen on käsiteltävä se automaattisesti.
    Kun Ramakrishnan tuli Microsoftille, hän ryhtyi integroimaan Hadoopin Microsoftin big data -strategiaan. Tämä tapahtui sen jälkeen, kun hän näki Microsoftin insinöörien ja analyytikot käyttävän tuottavasti työkaluja, kuten Cosmos ja Scope, hallita, käsitellä ja analysoida helposti suuria tietoja massiivisissa skaalautuvissa ympäristöissä. Sitten hän oli vakuuttunut, että hän halusi yhdistää Microsoftilta löytämänsä edistyneen tuottavuuden Hadoop-ekosysteemin elävään avoimuuteen ja joustavuuteen.
    Ja hän onnistui. HDInsight, Azure Data Lake, Azure Data Lake Store ja useat muut Azure-palvelut tarjoavat kaikki tiukan Hadoop-integraation.
    Ramakrishnanin anekdoottien keskeinen teema on Microsoftin uusi sitoutuminen avoimeen lähdekoodiin. Sen lisäksi, että yhtiö on valtava avustaja Apache Hadoop -projektissa ja sen ydinelementissä, HDFS:ssä, yritys on edelleen merkittävä avustaja Apachen LANKA hanke. Yritys itse sisällyttää aktiivisesti Hadoopin ja YARNin ison datan työnkulkuihinsa. Tämä edellyttää, että Microsoft kasvattaa YARNin valmiuksia vastaamaan paremmin yrityksen tarpeita; lisäyksiä, jotka se sitten ohjaa takaisin avoimen lähdekoodin yhteisöön.
    Jotkut Microsoftin merkittävästä panoksesta YARN:iin ovat:

    • Tuki työtä säästävälle etuostolle (YARN-45).
    • Rayon (YARN-1051), resurssien varauskomponentti, joka toimitetaan Hadoop 2.6 -julkaisun mukana.
    • Mercury (YARN-2877) ja Tetris (YARN-2745), jotka molemmat parantavat YARN-ajastinta.
    • REEF (Retainable Evaluator Execution Framework) on YARN:n päällä toimiva kehys, joka edistää koneoppimiseen perustuvia töitä.

    Muita huomionarvoisia lahjoituksia YARN:n ulkopuolella ovat mm

    • Hardoop Azuressa ja Windowsissa
    • Hive ja ORC
    • OAuth2-tuki WebHDFS:ssä
    • Spark Kernel Jupyterille

    Yrityksen suunta avoimen lähdekoodin hyvyyteen ulottuu myös sen pilvitarjonnan ulkopuolelle. Kuten olemme aiemmin raportoineet, Microsoft on hankkinut avoimen lähdekoodin useita perinteisesti patentoituja komponentteja, kuten CoreCLR , Rosyln kääntäjä , ja Live Writer . Se on myös luonut täysin uusia avoimen lähdekoodin projekteja, kuten iOS-siirtotyökalunsa Facebook SDK:n, WinJS , ja TypeScript .
    Microsoftin tuotteet ja palvelut muuttuvat nopeasti ollakseen mahdollisimman kattavat muiden, jopa kilpailevien tuotteiden kanssa, palvellakseen paremmin asiakkaiden ainutlaatuisia tarpeita. Azure Data Lake ja sen integrointi Hadoop-ekosysteemiin on viimeisin todiste Microsoftin uudesta pitkän aikavälin strategiasta.







    ^