Tuesday, 4 July 2017

Hadoop Handelssystem


Ich habe viel Spaß beim Lernen über Hadoop und die verschiedenen Projekte um ihn herum und habe derzeit 2 verschiedene Strategien Ich denke über den Aufbau eines Systems, um eine große Sammlung von Markt-Tick-Daten zu speichern, ich bin gerade erst begonnen mit Hadoop HDSF und HBase aber in der Hoffnung Jemand kann mir helfen, pflanzen ein System Samen, die ich gewann t haben, um Junk später mit diesen Technologien Im Folgenden ist ein Überblick über mein System und Anforderungen mit einigen Abfrage und Datenverwendung Anwendungsfälle und schließlich meine aktuelle Denken über die besten Ansatz aus der kleinen Dokumentation I Gelesen haben Es ist eine offene Frage und ich le gern gern jede Antwort, die aufschlussreich ist und die beste annehmen kann, fühlen Sie sich frei, irgendwelche oder alle Punkte unten zu kommentieren - Duncan Krebs. System Requirements - In der Lage sein, den Datenspeicher zu nutzen Für historische Back-Tests von Systemen, historische Daten Charting und zukünftige Data Mining Sobald gespeichert, Daten werden immer schreibgeschützt, schnelle Datenzugriff ist erwünscht, aber nicht ein Must-Have, wenn back testing. Static Schema - sehr einfach, ich möchte zu erfassen 3 Arten von Nachrichten aus dem feed. Timestamp einschließlich Datum, Tag, time. Quote einschließlich Symbol, Zeitstempel, fragen, askSize, Gebot, BidSize, Volumen Über 40 Spalten von data. Trade einschließlich Symbol, Zeitstempel, Preis, Größe, Austausch Über 20 Spalten von data. Data Insert Use Cases - Entweder aus einem Live-Markt Datenstrom oder Lookup über Broker API. Data Query Use Cases - Unten zeigt, wie ich möchte logisch abfragen meine data. Get mir alle Zitate, Trades, Zeitstempel für GOOG Am 9 22 2014.Get mir alle Trades für GOOG, FB VOR 9 1 2014 UND NACH 5 1 2014.Geben Sie mir die Anzahl der Trades für diese 50 Symbole für jeden Tag in den letzten 90 Tagen. Der Heilige Gral - Kann MapReduce verwendet werden Für die Verwendung von Fällen wie diese unten. Generate Meta-Daten aus der Roh-Markt-Daten durch verteilte Agenten Zum Beispiel Schreiben Sie einen Job, der das durchschnittliche Handelsvolumen in einem 1-Minuten-Intervall für alle Bestände und alle Sitzungen in der Datenbank gespeichert erstellt wird, erstellen Sie den Job Um einen Agenten für jede Stock-Session zu haben, dass ich sage, welche Aktie und Session es diesen Wert berechnen soll. Ist dies, was MapReduce tun kann. Auf dem Klassenpfad der Agenten kann ich meinen eigenen Gebrauchscode hinzufügen, damit der Use Case zum Beispiel könnte Veröffentlichen ihren Wert in einem zentralen Repo oder Messaging-Server Kann ich einen Agenten als OSGI-Bundle bereitstellen. Geben Sie verschiedene Arten von Agenten für verschiedene Arten von Metriken und Scores, die jeden Morgen vor dem Pre-Market-Handel ausgeführt werden. High Frequency Trading Ich bin auch interessiert Wenn jemand kann einige Erfahrungen mit Hadoop im Zusammenhang mit Hochfrequenz-Handelssysteme Einstieg in diese Technologie mein ursprünglicher Sinn ist Hadoop kann groß sein für die Speicherung und Verarbeitung von großen Mengen von historischen Tick-Daten, wenn jemand ist mit diesem für Echtzeit-Handel Ich wäre daran interessiert, mehr zu lernen - Duncan Krebs. Based von meinem Verständnis Ihrer Anforderungen, wäre Hadoop eine gute Lösung, um Ihre Daten zu speichern und führen Sie Ihre Abfragen auf sie mit Hive. Storage Sie können die Daten in Hadoop in einer Verzeichnisstruktur zu speichern Like. Inside der Stunden-Ordner, die Daten spezifisch für diese Stunde des Tages können wohnen. Ein Vorteil der Verwendung solcher Struktur ist, dass Sie externe Tabellen in Hive über diese Daten mit Ihren Partitionen auf Jahre, Monate, Tage und Stunden Etwas mögen können Wenn Sie die Daten in dem oben genannten Format gespeichert haben, können Sie ganz einfach einfache Abfragen ausführen. Get mir alle Zitate, Trades, Zeitstempel für GOOG auf 9 22 2014.Get mir alle Trades für GOOG, FB VOR 9 1 2014 UND NACH 5 1 2014.Sie können solche Aggregationsabfragen einmal am Tag ausführen und die Ausgabe nutzen, um mit den Metriken vor dem Pre-Market-Handel zu kommen. Da Hive intern läuft mapreduce diese Abfragen gewonnen werden, sind sehr schnell. Um zu bekommen Schnellere Ergebnisse, können Sie einige der in Speicher-Projekte wie Impala oder Spark Ich habe mich selbst verwendet Impala, um Abfragen auf meinem Bienenstock Tische laufen und ich habe eine große Verbesserung in der Laufzeit für meine Fragen rund um 40x Auch Sie wouldn t müssen Änderungen an der Struktur der Daten vornehmen. Dateneinsatz Anwendungsfälle Sie können Werkzeuge wie Flume oder Kafka verwenden, um Daten in Echtzeit auf Hadoop und damit auf die Bienenstocktabellen einzufügen. Flume ist linear skalierbar und kann auch bei der Verarbeitung von Ereignissen fliegen Während der Übertragung. Overall, eine Kombination von mehreren großen Daten-Technologien bieten eine wirklich anständige Lösung für das Problem, das Sie vorgeschlagen und diese Lösung würde auf riesige Mengen an Daten skalieren. Apache Niet ist ein System für die Erstellung von dynamischen Web-Inhalte über die Tcl-Programmiersprache integriert Mit Apache Web Server Es ist entworfen, um schnell, leistungsstark und erweiterbar zu sein, verbrauchen nur wenige Systemressourcen, einfach zu erlernen und dem Benutzer eine Plattform zur Verfügung zu stellen, die auch verwendet werden kann - IO enthält Utility-Klassen, Stream-Implementierungen, Dateifilter, Datei-Komparatoren und Endian-Klassen. Die Apache-Flex-Community freut sich, die Veröffentlichung von Apache Flex SDK 4 16 0 bekannt zu geben. Das Apache Flex SDK ist ein hochproduktives Open-Source-Anwendungs-Framework. Das Apache Tomcat-Team gibt die sofortige Verfügbarkeit von Apache Tomcat 8 bekannt 5 12.Tomcat 8 x Benutzer sollten in der Regel 8 5 x Releases vorzuziehen, um 8 0 x Releases. Das Apache Tomcat Team kündigt die sofortige Verfügbarkeit von Apache Tomcat 9 0 0 M18.Apache Tomcat 9 ist eine Open-Source-Software-Implementierung der Java-Servlet, JavaServer-Seiten, Java Unified. Latest-Aktivität. TheASF Bei ApacheCon treffen sich die Produktanbieter hinter Apache-Projektgemeinschaften in einer freundlichen, nicht-verkäuflichen Umgebung. Die Apache Flex-Community freut sich, die Veröffentlichung von Apache Flex SDK 4 16 0 bekannt zu geben. Das Apache Flex SDK ist eine hochproduktive Open Source Anwendung Framework für den Bau und. Apache Ignite Community begrüßt Sie, um Big Data Bootcamp am 27. März, 28. und 29. 2017 in Santa Clara, USA teilnehmen. Die Konferenz sammelt Experten und Anbieter von Big Data. And es s Freitag bereits Hier ist, was die Apache-Community Haben an dieser Woche gearbeitet. ASF Vorstand Management und Aufsicht über die Geschäfte und Angelegenheiten des Unternehmens in Übereinstimmung. Oktober 10, 2009.MapReduce ist definitiv gewinnt Traktion, vor allem aber keineswegs nur in Form von Hadoop In der Folge von Hadoop Welt Jeff Hammerbacher von Cloudera ging mich schnell durch 25 Kunden, die er aus Cloudera s Dateien gezogen Fakten und Metriken reichten weit, natürlich. Einige sind in der schweren Produktion mit Hadoop und eng mit Cloudera beschäftigt Andere sind aktive Hadoop Benutzer sind aber sehr geheimnisvoll Noch andere Hat sich für die erste Hadoop-Ausbildung letzte Woche angemeldet. Sie ​​haben Hadoop-Cluster in den Tausenden von Knoten Viele haben Hadoop-Cluster in der 50-100 Knoten-Bereich Andere sind nur Prototyping Hadoop verwenden Und man scheint OEMing ein kleines Hadoop-Cluster in jedem Stück Ausrüstung Verkauft. Meine Exportdaten von Hadoop zu einem relationalen DBMS viele andere lassen es einfach in HDFS Hadoop Distributed File System, zB mit Hive als die Abfragesprache oder in genau einem Fall Jaql. Some sind Haushalt Namen, in Web-Unternehmen oder sonst Andere scheinen Um ziemlich dicht zu sein. Industrien gehören Finanzdienstleistungen, Telekommunikation Asien nur, und ganz neu, Bioinformatik und andere Forschung, Intelligenz und viele Web-und Werbe-Media. Application Bereiche erwähnt und diese Überlappung in einigen Fällen gehören. Log und / oder Clickstream-Analyse Von verschiedenen Arten. Marketing analytics. Machine Lernen und oder anspruchsvolle Data Mining. Image Verarbeitung. Verarbeitung von XML-Nachrichten. Web Crawling und Textverarbeitung. General Archivierung, einschließlich der relationalen tabellarischen Daten, z. B. für Compliance. We ging über diese Liste so schnell Dass wir uns nicht auf ein einziges Benutzer eingegangen haben. Ein Beispiel, das sich herausstellte, war von einer Werbetreibendenfirma, die eine Aggregationspipeline hatte, die aus 70-80 MapReduce-Jobs bestand. Ich habe auch gestern wieder gesprochen. Omer Trajman von Vertica, der überrascht war Mich mit der Angabe einer hohen einstelligen Anzahl von Vertica s Kunden waren in Produktion mit Hadoop dh über 10 von Vertica s Produktionskunden Vertica hat vor kurzem seinen 100. Verkauf gemacht, und natürlich nicht alle diese Käufer sind in Produktion noch Vertica Hadoop Nutzung scheint zu haben Begann in Vertica s Finanzdienstleistungs-Festung speziell im Finanzhandel mit Webanalytik und dergleichen, die später auf der Grundlage der aktuellen Prototyping-Bemühungen, Omer erwartet Bioinformatik als der dritte Produktionsmarkt für Vertica Hadoop, mit Telekommunikation kommen in vierten. Unüberraschenderweise die allgemeine Vertica Hadoop Usage-Modell scheint zu sein. Do etwas zu den Daten in Hadoop. Dump es in Vertica abgefragt werden. Was ich überraschend gefunden habe, ist, dass die Daten oft nicht durch diese Analyse reduziert, sondern explodiert in Größe E ga komplette Speicher von Hypotheken-Handelsdaten könnten ein paar Terabyte in der Größe sein, aber Hadoop-basierte Postverarbeitung kann dies um 1 oder 2 Größenordnungen erhöhen Analogie zur Bedeutung und Größe der gekochten Daten in der wissenschaftlichen Datenverarbeitung kommen in den Sinn. Und schließlich habe ich mit gesprochen Aster vor ein paar Tagen über die Verwendung seiner nCluster Hadoop-Anschluss Aster charakterisiert Aster Hadoop Benutzer Hadoop Nutzung als von der Batch-ETL-Vielfalt, die die klassische Use Case ist, gibt man Hadoop, auch wenn man glaubt, dass MapReduce sollte häufig in Die DBMS. Subscribe zu unserem kompletten feed.9 Responses to Wie 30 Unternehmen verwenden Hadoop. Vlad am 11. Oktober 2009 3 34 am. Ich habe einige Berechnungen auf der Grundlage der Daten öffentlich verfügbar im Internet Die berühmte Yahoo Terasort Datensatz Sortierung 1 TB von Daten tatsächlich 10 Milliarden 100 Bytes Aufzeichnung auf einem Hadoop.3400 Server-Cluster in 60 Sekunden Ich werde die Berechnungsdetails weglassen, aber die durchschnittliche CPU-Festplatte IO und Netzwerk IO Nutzung während des Laufs waren.1, 5-6 und 30 jeweils Dies sind Nicht genaue Zahlen natürlich, aber die Schätzungen auf der Grundlage von Sortierung Algorithmus verwendet, die Cluster-Konfiguration, Server-CPUs Macht, max NIC Durchsatz 1Gb und 4 SATA Disk Array IO-Fähigkeit. So, der Engpass ist definitiv Netzwerk Ich denke, es ist nicht nur für Sortierung, aber für viele andere Probleme Aber es scheint, dass entweder Yahoo-Cluster ist suboptimal aus der Sicht der maximale dauerhafte Durchsatz oder Hadoop kann nicht sättigen 1Gb Link OK, können wir uns vorstellen, wir verwenden keine Ware Hardware-Hardware, sondern mehr optimierte Server und Netzwerk-Konfigurationen. How Ca. 2 10Gb Port NIC pro Server und 128 Port 10GB Switch Nur ein Durch die Erhöhung der Netzwerkdurchsatz von 30MB s auf 2GB s 2 10Gb Port NIC pro Server sec können wir die Anzahl der Server in einem Cluster um Faktor von 70.50 Servern reduzieren und immer noch die Gleiche 60 Sek. Lauf ist es möglich, 2GB pro Sekunde zu sortieren 20 Millionen 100 Bytes Aufzeichnungen auf einem Server Sure it is. Yahoo Cluster kostet ca. 7 Millionen Ich kann meinen Cluster für weniger als 1 Million bauen und wir reden nicht über Stromverbrauch und andere Assoziierte Kosten. MapReduce und Rohstoff-Hardware gewann t sparen Sie Geld nicht kaufen cheap. Curt, wissen Sie, wie viele dieser V-Kunden sind in der Cloud, dh sie laufen auf V AMIs in EC2 und wie viele von denen sind in diesem 10 Oder so Sie erwähnen. Vlad am 11. Oktober 2009 10 40 pm. MapReduce ist schwer gefördert, aus irgendeinem Grund von Yahoo und Facebook aber nicht von Google Google und Microsoft haben bereits die nächste Generation Hadoops Pregel und Dryad entwickelt, aber sie sind immer noch nicht verfügbar Für die allgemeine Öffentlichkeit und nicht Open-Sourced Sogar Informationen über Pregel ist begrenzt. Um die Situation erinnert die Sowjetunion Mitte der späten 80er Jahre Nicht in der Lage, ihre eigenen Supercomputer zu schaffen, suchten die Sowjets umgekehrt Ingenieur Amerikaner Cray etc Sie können reproduzieren, was hat Schon fertig, aber du bist immer hinter. UPD Dryad kann von MS-Site heruntergeladen werden, aber nur für akademische Forschung. RC am 12. Oktober 2009 3 46.Is Dryad viel besser als Hadoop Wenn ja, was sind die Verbesserungen. Vlad am Oktober 12., 2009 3 53 Uhr. RC Von Dryad whitepaper Der grundlegende Unterschied zwischen den beiden Systemen Dryad und MapReduce besteht darin, dass eine Dryad-Applikation eine beliebige Kommunikations-DAG spezifizieren kann, anstatt eine Folge von Map-Verteilungs-Sortier-Operations-Operationen zu erfordern. Insbesondere können Graph-Ecken mehrere Eingaben verbrauchen und mehrere Ausgänge erzeugen , Von verschiedenen Typen Für viele Anwendungen vereinfacht dies die Zuordnung vom Algorithmus zur Implementierung, lässt uns auf einer größeren Bibliothek von grundlegenden Unterroutinen aufbauen und zusammen mit der Fähigkeit, TCP-Pipes und Shared-Memory für Datenkanten auszunutzen, erhebliche Performance-Gewinne bringen Zur gleichen Zeit, unsere Umsetzung ist allgemein genug, um alle Funktionen, die in der MapReduce Papier. Andrew S am 19. Oktober 2009 7 54 Uhr. Vlad, der Unterschied ist, dass die Sowjets didn t haben Open Source hinter ihnen Eine häufiger zu unterstützen Muster in der jüngsten Geschichte wurde.1 Proprietäre Software-Lösung kommt aus 2 Eine gute Open-Source-Lösung mit ähnlichen Fähigkeiten kommt später 3 Open-Source-Lösung gewinnt große Backer, Top-Entwickler, modernste Tech-Unternehmen, führende Akademiker 4 Open-Source-Lösung Eklipsen proprietär Lösung in der Nutzung wegen der einfachen Verfügbarkeit und Dokumentation 5 Proprietäre Lösung stirbt, weil es rentabel wird, um auf Open-Source-Lösung zu wechseln. Hadoop ist irgendwo in 3 und teilweise in 4. Nichts davon ist unvereinbar mit früheren Umfragen von Hadoop Use Cases. Sei Bank of America s Geschäftsführer für große Daten und Analytik Bereits vor einem Jahr gab Vertica an, dass rund 10 Prozent seiner Kunden in Produktion mit Hadoop ein Trend waren, der von seinen Finanzdienstleistungskunden angeführt wurde. Auf der Suche nach unseren Blogs und White Papers. Monash Research Blogs. DBMS 2 umfasst Datenbank-Management, Analytik und verwandte Technologien. Text Technologies umfasst Text Mining, Suche und soziale Software. Strategic Messaging analysiert Marketing-und Messaging-Strategie. Der Monash-Bericht untersucht Technologie und Public Policy Issues. Software Memories erzählt die Geschichte der Software-Industrie. User beraten. Building eine kurze Liste Verfeinerung Ihrer strategischen Plan Wir können helfen. Vendor Beratung. Wir sagen, Verkäufer, was passiert - und was wichtiger ist, was sie tun sollten. Monash Research Highlights.

No comments:

Post a Comment