13.261 IT-Jobs

Senior HPC und KI Netzwerk Leistungsforschungs- und Analyseingenieur

Jobriver HR Service (13259 weitere Jobs)
München
Vor Ort
Vollzeit
Senior
vor 20 Tagen
44.000 € – 62.000 € / Jahr

Beschreibung

Das Unternehmen sucht einen talentierten Performance Research and Analysis Engineer, der Teil des Performance-Teams wird. In dieser Rolle sind Sie verantwortlich für die Profilierung und Analyse von KI-Workloads auf großen GPU- und CPU-Cluster-Systemen, die für das verteilte Training und die Inferenz von Deep Learning-Modellen verwendet werden. Ihr Fokus liegt auf Kommunikationsmustern, kollektiver Kommunikation, RDMA, Netzwerktechnologien und der Systemleistung. Sie werden mit verschiedenen Hardware-Plattformen wie HCAs, Switches, CPUs, GPUs und Systemen arbeiten sowie mit unterschiedlichen Software-Ebenen und -Funktionen interagieren. Ihre Aufgaben umfassen die Entwicklung von Leistungstools und -methoden zur tiefgehenden Analyse der Leistungserwartungen, -einschränkungen und -engpässe. Zudem werden Sie Erfahrungen und Forschungen zu KI-Workloads und Deep Learning-Modellen durchführen, die speziell für das großflächige Training von Deep Learning-Modellen auf Supercomputern ausgelegt sind, mit einem besonderen Schwerpunkt auf Hochleistungsnetzwerk-Technologien. Sie werden Benchmarking, Profilierung und Analyse der Leistung durchführen, um Engpässe zu identifizieren und Verbesserungs- sowie Optimierungsbereiche zu finden. Diese Position erfordert auch die Implementierung von Leistungsanalysetools und die Zusammenarbeit mit verschiedenen Teams von Hardware bis Software, um Einblicke in die Leistungsanalyse zu geben. Sie werden Leistungstestpläne definieren, Leistungserwartungen für neue Technologien und Lösungen festlegen und daran arbeiten, die Leistungsziele zu erreichen.

Anforderungen

Der ideale Kandidat hat einen Bachelor-Abschluss in Informatik oder Softwaretechnik und verfügt über mehr als 6 Jahre Erfahrung im Bereich Hochleistungsnetzwerke, insbesondere mit RDMA, MPI und NCCL. Sie sollten nachweisbare Fähigkeiten in der Leistungsanalyse und entsprechende Methoden mitbringen. Erfahrung mit NVIDIA GPUs, der CUDA-Bibliothek sowie Deep Learning-Frameworks wie TensorFlow oder PyTorch ist erforderlich. Darüber hinaus sollten Sie über Fachkenntnisse in kollektiven Kommunikationsbibliotheken (wie NCCL) und Protokollen (wie RoCE und RDMA) verfügen. Eine schnelle Auffassungsgabe sowie starke analytische und problemlösende Fähigkeiten sind ebenfalls wichtig. Programmierkenntnisse in Python, Bash und C sind erforderlich, ebenso wie Erfahrung mit Linux-Distributionen. Der ideale Kandidat ist ein Teamplayer mit guten Kommunikations- und zwischenmenschlichen Fähigkeiten. Besonders hervorzuheben sind Kenntnisse in der Benchmarking von KI-Workloads für das verteilte Training von LLMs sowie umfassende Systemkenntnisse (Intel / AMD / ARM CPUs, NVIDIA GPUs, HCA, Speicher, PCI) und Kenntnisse in Staukontrollalgorithmen.

Technologien

TensorFlow PyTorch

Soft Skills

Teamfähigkeit Kommunikation Analytisches Denken

Erforderliche Sprachen

Deutsch Englisch

Jetzt bewerben

53.000 €
0 / 800 Zeichen

Lebenslauf, Zeugnisse, Anschreiben (PDF, max. 10MB pro Datei, max. 5 Dateien)

Dateien hier ablegen oder klicken
Weitere Informationen findest du in der Datenschutzerklärung. Du kannst deine Einwilligung jederzeit widerrufen.