Eine kleine Einführung in großen Daten, Teil 3 HFDS und der MapReduce-Algorithmus bitcoin Cloud Mining Rechner

Zuletzt um, nehme ich Dich auf einer Tour durch Ökosystem Hadoop, oder in anderen Worten, ich habe Ihnen die wichtigsten Komponenten seines Mechanismus. Nun wollen wir sehen, was macht es tick. Beachten Sie jedoch, dass dies keine leichte Aufgabe ist, und ich werde nicht alles im Detail erklären. Ich werde versuchen, die Erklärungen einfach zu halten, aber Hadoop ist alles andere als einfach.

Lassen Sie uns mit Hadoop Dateisystem, das Hadoop Distributed File System (HDFS) starten wie verminen bitcoins reddit. Wie ich im vorherigen Artikel erwähnt, ist die HDFS basierend auf dem Google File System (GFS) Architektur, was bedeutet, dass, wie die GFS, die HDFS ein sehr elastisches Stück Computertechnik ist. Die HDFS bietet eine verteilte Architektur für extrem großen Speicher, der leicht durch horizontale Skalierung der Hardware, die es unterstützt erweitert werden kann.


Es gibt eine wichtige Nuance im vorhergehenden Satz. Typischerweise skalieren Supercomputer up: Mit mehr Ressourcen Hinzufügen (mehr Prozessoren, Festplatten, usw.) auf den Supercomputer selbst, die Leistung verbessert wird. Mit Hadoop und HDFS, dann ist es ein bisschen anders: Breitenskalierung mittels Hinzufügen von mehr kleinen Server zum Cluster, im Gegensatz zu mehr Ressourcen zu einem massiven Supercomputer hinzufügen, wenn mehr Leistung oder Kapazität benötigt wird.

Um zu skalieren, hat HDFS einige Besonderheiten. Beginnen wir mit dem wichtigsten starten: wie Dateien gespeichert sind. Wie man erwarten würde, ist HDFS ein Dateisystem, so ist es offensichtlich, dass es Dateien speichert. Allerdings gibt es ein paar Dinge, die Sie wissen müssen, um zu verstehen, wie und warum die HDFS diese Aufgabe ausführen bitcoin Kapitalisierung. Hadoop können strukturierte und unstrukturierte Daten handhaben. Letzteres kommt in der Regel in Form von riesigen Log-Dateien (in der Regel größer als 500 MB), die ein regelmäßiges Dateisystem Schwierigkeiten Verarbeitung haben würde Wie kaufe ich Bitcoins mit paypal. Es ist auch wichtig zu erwähnen, dass Hadoop entworfen wurde, auf einem Cluster von Maschinen zu arbeiten, unter ihnen die Arbeitsbelastung zu teilen, weil keiner von ihnen selbst die reichlichen Mengen an Daten verarbeiten kann, die verarbeitet werden müssen. Schließlich gibt es viel mehr liest als als in einem normalen Dateisystem in der HDFS schreibt, weil Hadoop-Daten verdaut häufiger als es ingests: Hadoop Zweck bedeutet, große Datenmengen ist die Verarbeitung, dass mehrere verschiedenen Analysen notwendigerweise über den gleichen Datenblock ausgeführt werden .

Um Hadoop eigenartige Bedürfnissen gerecht zu werden zu können, speichert die HDFS-Dateien in einer bestimmten Art und Weise. Wenn Sie eine Datei in der HDFS speichern, bricht das System es in Blöcke nach unten und speichert diese Blöcke in verschiedenen Slave ganze Hadoop Cluster-Knoten. Diese Blöcke folgen nicht den ursprünglichen Dateiverzeichnis Markierungen (zum Beispiel kann eine CSV-Datei geteilt Mittellinie werden). Stattdessen werden die Blöcke auf der Basis der Größe der Daten erstellt. HDFS will nur, um sicherzustellen, dass Dateien in ähnlich große Blöcke aufgeteilt sind, die die vorgegebene Blockgröße für die Hadoop-Instanz übereinstimmen Bitcoin kaufen preis. Regelmäßige Dateisysteme tun dies auch. Allerdings sind Hadoop Dateiblocks in der Regel 128 MB oder größer, während ein typischer Linux-Block 4 KB hat. Dies ist wichtig, weil die MapReduce (und ähnliche Algorithmen) werden diese Blöcke parallel verarbeiten. Um eine effiziente Verarbeitung zu ermöglichen, muss ein Gleichgewicht vorhanden zwischen der Blockgröße und der Verarbeitungsressourcen gefunden werden. Einerseits muss die Blockgröße groß genug sein, um die Ressourcen zu einer einzelnen Einheit der Datenverarbeitung (typischerweise ein Cluster-Knoten) gewidmet zu rechtfertigen. Auf der anderen Seite kann die Blockgröße nicht so groß sein, dass das System eine sehr lange Zeit für eine letzte Einheit der Datenverarbeitung wartet seine Arbeit zu beenden.

So wird eine Datei (in der Regel ein großer Teil unstrukturierter Daten) wird in gleichgroße Blöcke aufgeteilt und über den Hadoop-Cluster verteilt. Warten Sie. … Was ist, wenn einer der Cluster-Knoten ausfällt? Immerhin reden wir über billig, off-the-shelf-Servern. Nun, das ist, wo eine der anderen Besonderheiten der HDFS tritt in: Wenn die Dateien in Blöcke aufgeteilt sind, HDFS den gleichen Block an mehrere Teilnehmer sendet, damit die notwendige Redundanz, die das System am Laufen zu halten ermöglicht problemlos, auch wenn einige Knoten fehlschlagen. Leistung wird beeinträchtigt, aber die Integrität der Daten wird beibehalten, wie man erhalten bitcoin frei. Dieser Block Replikationsprozess sendet typischerweise drei Kopien von jedem Block zu verschiedenen Knoten. Wenn ein Knotenausfall erkannt wird, es enthielt eine neue Kopie der Daten an einem anderen Knoten, um die replizierten mit dem „Drei-Block-Kopie“ -Prinzip für den Hadoop Cluster zu entsprechen.

Nun, da Sie wissen, wie die Daten gespeichert sind, lassen Sie uns sehen, wie es effizient abgefragt werden können. Bei einer herkömmlichen Programmiersprache, wie RPG, werden die Daten in der Regel der Reihe nach abgearbeitet. Zum Beispiel, um zu bestimmen, wie viele Datensätze einer Tabelle einen bestimmten Wert enthalten, würden Sie eine Reihe von Aktionen folgen:

Dies ist natürlich eine stark vereinfachte Ansicht des Verfahrens, weil in der Regel Indizes verwendet werden, um die Suche zu beschleunigen, und SQL könnte auch ins Spiel kommen. Allerdings ist der Prozess noch sequentiell. MapReduce und ähnliche Algorithmen einzuführen Parallelverarbeitung in dieser Logik bitcoin Geschäftsideen. Stellen Sie sich vor, dass Sie Limonade mit bloßen Händen machen; selbst wenn man zwei Hände verwenden, wird es eine Weile dauern. Nun stellen Sie eine (intelligente) Krake machen Limonade: mit mehreren Armen kann der Oktopus mehrere Aufgaben gleichzeitig ausführen, oder parallel, und den Job zu erledigen schneller. MapReduce-Implementierung Hadoop ist nur, dass-ein Weg, um Dinge zu erledigen schneller von Aufgaben parallel ausführen.

Nehmen wir ein Beispiel des Findens betrachten, die „Dinge“ einen bestimmten Satz von Bedingungen entsprechen. Angenommen, ich, wie viele Dateien in meiner riesigen Datenmenge das Wort enthalten zählen will „Limonade.“ Jetzt nicht vergessen, dass die Dateien über mehrere Knoten der Hadoop-Cluster verteilt sind bitcoin 2020 Sequenzielle Verarbeitung würde ewig dauern, weil ich jede Datei abgerufen werden müsste (so wie ich jeden Datensatz in dem vorherigen Beispiel abrufen würde) und analysieren. Der MapReduce-Algorithmus löst dieses Problem, indem Sie die Aufgabe in zwei Unteraufgaben aufteilen: Mapping (zu finden, wo die Dateien, die relevanten Daten enthalten sind) und die Verringerung des über diese Untergruppe (Anwendung je nachdem, welche Operation wurde diesen Fall in requested-, würde es eine einfache Zählung sein) von Dateien. Dennoch von selbst, würde dies das Problem nicht lösen, weil es eine Menge von Daten ist, die ganzen Cluster. Das ist die Schönheit von MapReduce: diese Aufgaben parallel in dem Slave-Knoten ausgeführt werden, und das Ergebnis wird dann an den primären Knoten gesendet. Anstatt Daten zu dem primären Knoten für die Verarbeitung von zu bringen, wird der Code selbst ist an den Slave-Knoten zur Ausführung gesendet. Nur die Teilergebnisse der einzelnen Knoten sind zurück, im Gegensatz zu den „rohen“ Dateien gesendet zur Verarbeitung gesendet werden. Dies macht jede Operation viel schneller als es wäre, wenn es wie eine Krake sequentiell viel durchgeführt wurden würde Limonade viel schneller als Sie würden.

Die Karte Unteraufgabe besteht darin, die relevanten Daten zu finden, durch mehrere mathematische Tricks, wie Sortieren, Suchen, Indizieren und Daten in kleinere, überschaubare Einheiten von Daten bitcoin Apfel kombinieren. Es kann eine ganze Datei in ein Map-Typ Objekt drehen. Mit anderen Worten, es wird alles in Schlüssel-Wert-Paar gebacken. Zum Beispiel würde den Satz „mir wirklich wirklich wirklich lieben kalt kalte Limonade“ abgebildet in die folgenden Schlüssel-Wert-Paare eine Textdatei mit: (I, 1), (wirklich, 3), (Liebe, 1), (kalt , 2), (Limonade, 1). Der Schlüssel ist das abgebildete Wort und der Wert ist die Anzahl der Vorkommen. Dies wäre dann der Eingang für die Aufgabe reduzieren, die die Suchbedingungen gelten würde und entscheiden, ob diese Datei für die Abfrage relevant ist Sie kaufen sollten bitcoin. In unserem Beispiel wäre es, weil wir für Dateien mit dem Wort suchen „Limonade.“

Ich werde nicht ins Detail gehen, aber man kann (und sollte) schreiben Sie Ihre eigene Java-Klassen (Hadoop Java-basiert ist, auch wenn Sie andere Programmiersprachen für Teile des Frameworks verwenden können) diese „Karte“ zu führen und „ reduzieren“Aufgaben. Es gibt eine optionale „kombinieren“ Aufgabe, die die Ausgabe der „Karte“ Aufgabe und weitere Prozesse dauert es, die Arbeit der „reduzieren“ Aufgabe zu erleichtern. Wenn Sie mit Java vertraut sind und möchten mehr über dieses Algorithmus-Implementierung in Hadoop lernen, bietet Apache ein großes Tutorial über das Thema hier.

Dies ist eine Vogelperspektive des Hadoop Framework, eines der wichtigsten Werkzeuge für die Verarbeitung von Big Data. Aber es gibt mehr Dinge, die Sie tun können, mehr Werkzeuge zu erforschen und mehr Möglichkeiten, große Datenmengen zu verwenden! Dinge wie maschinelles Lernen, Künstliche Intelligenz, und so weiter mehr und mehr Mainstream zu werden und ihren Weg von der Forschung in der Wirtschaft zu machen. Es ist ein brandneues Feld, das Sie entdecken sollten!

Der Sommer ist vorbei. Jeder, der noch in der Schule ist, wurde auf die Konzentration auf ihr Studium zurückgegangen bitcoin USD-Diagramm. Wenn Sie Kinder in der Schule haben, können sie einige Analysen Klassen-vielleicht Themen über Data Mining, prädiktive Modellierung, Visualisierung von Daten oder Unternehmensstatistik nehmen.

Eine schnelle Suche der verfügbaren College-Klassen gedreht natürlich Titel wie Machine Learning und Optimierung in Analytics, Social Network Analytics, Web Analytics, Data Management und Visualisierung in Analytics und Computertechniken für Large Scale Data Analysis auf.

Mobile Computing reift schnell in eine feste Plattform für Enterprise-Anwendungen zu liefern. Viele IBM i Geschäfte heute erkennen, dass ihr IBM Integration i mit mobilen Anwendungen sind der schnelle Weg zu einem verbesserten Geschäftsabläufen, bessere Kundenbeziehungen und reaktionsfähiger Business Reporting. Der ROI, die mobilen Anwendungen für Ihr Unternehmen produzieren können, ist beträchtlich.

Dieses ASNA White Paper wirft einen Blick auf Mobile Computing für das IBM i. Es werden die verschiedenen Möglichkeiten, mobile Anwendungen innerhalb des Unternehmens verwendet werden und wie ASNA Produkte, die Herausforderungen Handy präsentiert lösen. Es stellt auch den Fall, dass Sie bereits das mobile Programmierteam Ihrer Projekte haben müssen: das Team ist Ihr bestehendes RPG-Entwicklungsteam!

Dieses Whitepaper ist eine gemeinsame Anstrengung zwischen Connectria Hosting, ein Pionier in der Entwicklung der IBM i Wolke, und Vision Solutions, Marktführer bei Hochverfügbarkeit und Disaster Recovery-Lösungen, einschließlich MIMIX®, der Standard für die kompletten, skalierbare HA / DR-Schutz für die IBM i.

Es wird eine Überprüfung der Kernursachen und die Kosten sowohl geplante als auch ungeplante Ausfallzeiten bieten und wird dann eine detaillierte Diskussion der aktuellen Optionen für IBM i High Availability und Disaster Recovery in der Cloud bereitstellen.

IT-Abteilungen erhalten einen ständigen Bombardement von Informationen aus einer Vielzahl unterschiedlicher Betriebssysteme, Geschäftsanwendungen und kritische Prozesse und eine komplexe Anordnung von Servern und Geräten unterstützen über ihre gesamte Netzwerk.

Mit knappen Ressourcen und die Notwendigkeit, die Kosten im Zaum zu halten, werden mehr und mehr von IT-Betriebspersonal erwarten Sie diese Informationen effizient zu handhaben. Sie brauchen eine schnelle Reaktion mit geeigneten Maßnahmen, um sicherzustellen, dass wichtige Daten zur richtigen Zeit empfangen werden, unter Beweis stellt Service-Level gehalten werden, dass die Kontingenz und hohe Verfügbarkeit Strategien voll funktionsfähig sind, und dass wichtige geschäftlichen Aktivitäten reibungslos und ohne Unterbrechung.

für geschäftskritische Anwendungen, einschließlich ERP-Pakete, so dass andere Server laufen E-Mail, Drucken über das Netzwerk und die Website-Nutzer aber als Hardware- und Software-Technologien entwickeln, steigt auch die Komplexität der Daten center.IBM oft i als Rückgrat dient und andere Computertechnologien noch Daten aus der Transaktionsdatenbank auf IBM i ziehen.

Roboter-System-Management-Lösungen haben dabei geholfen, Kunden IBM i-Operationen für mehr als 30 Jahre zu verwalten. Dieses Whitepaper ist in erster Linie für die IT-Management und versucht zu erklären, in einfachem Englisch, die Komponenten des modernen IBM i Umgebungen und wie Roboter können zu maximieren Ziele Geschäft werden im Einsatz.

Seit über 30 Jahren, Roboter hat für IBM i führend in der System-Management gewesen. Mit Batch Schaffung von Arbeitsplätzen und Scheduling in seinem Kern reduziert der Roboter-Job Scheduling-Lösung die Möglichkeit menschlicher Fehler und hilft Ihnen, Service-Levels halten, die Automatisierung auch die größten und komplexesten Runbooks.