Mit Skill-Test hervorstechen

Senior HPC und KI Netzwerk Leistungsforschungs- und Analyseingenieur

Jobriver IT Jobbörse (7.612 weitere Jobs)

München

Vor Ort

Vollzeit

Senior

Ab sofort

vor 77 Tagen

44.000 € – 62.000 € / Jahr

Jetzt bewerben

Beschreibung

Das Unternehmen sucht einen talentierten Performance Research and Analysis Engineer, der Teil des Performance-Teams wird. In dieser Rolle sind Sie verantwortlich für die Profilierung und Analyse von KI-Workloads auf großen GPU- und CPU-Cluster-Systemen, die für das verteilte Training und die Inferenz von Deep Learning-Modellen verwendet werden. Ihr Fokus liegt auf Kommunikationsmustern, kollektiver Kommunikation, RDMA, Netzwerktechnologien und der Systemleistung. Sie werden mit verschiedenen Hardware-Plattformen wie HCAs, Switches, CPUs, GPUs und Systemen arbeiten sowie mit unterschiedlichen Software-Ebenen und -Funktionen interagieren. Ihre Aufgaben umfassen die Entwicklung von Leistungstools und -methoden zur tiefgehenden Analyse der Leistungserwartungen, -einschränkungen und -engpässe. Zudem werden Sie Erfahrungen und Forschungen zu KI-Workloads und Deep Learning-Modellen durchführen, die speziell für das großflächige Training von Deep Learning-Modellen auf Supercomputern ausgelegt sind, mit einem besonderen Schwerpunkt auf Hochleistungsnetzwerk-Technologien. Sie werden Benchmarking, Profilierung und Analyse der Leistung durchführen, um Engpässe zu identifizieren und Verbesserungs- sowie Optimierungsbereiche zu finden. Diese Position erfordert auch die Implementierung von Leistungsanalysetools und die Zusammenarbeit mit verschiedenen Teams von Hardware bis Software, um Einblicke in die Leistungsanalyse zu geben. Sie werden Leistungstestpläne definieren, Leistungserwartungen für neue Technologien und Lösungen festlegen und daran arbeiten, die Leistungsziele zu erreichen.

Anforderungen

Der ideale Kandidat hat einen Bachelor-Abschluss in Informatik oder Softwaretechnik und verfügt über mehr als 6 Jahre Erfahrung im Bereich Hochleistungsnetzwerke, insbesondere mit RDMA, MPI und NCCL. Sie sollten nachweisbare Fähigkeiten in der Leistungsanalyse und entsprechende Methoden mitbringen. Erfahrung mit NVIDIA GPUs, der CUDA-Bibliothek sowie Deep Learning-Frameworks wie TensorFlow oder PyTorch ist erforderlich. Darüber hinaus sollten Sie über Fachkenntnisse in kollektiven Kommunikationsbibliotheken (wie NCCL) und Protokollen (wie RoCE und RDMA) verfügen. Eine schnelle Auffassungsgabe sowie starke analytische und problemlösende Fähigkeiten sind ebenfalls wichtig. Programmierkenntnisse in Python, Bash und C sind erforderlich, ebenso wie Erfahrung mit Linux-Distributionen. Der ideale Kandidat ist ein Teamplayer mit guten Kommunikations- und zwischenmenschlichen Fähigkeiten. Besonders hervorzuheben sind Kenntnisse in der Benchmarking von KI-Workloads für das verteilte Training von LLMs sowie umfassende Systemkenntnisse (Intel / AMD / ARM CPUs, NVIDIA GPUs, HCA, Speicher, PCI) und Kenntnisse in Staukontrollalgorithmen.

Technologien

TensorFlow PyTorch

Soft Skills

Teamfähigkeit Kommunikation Analytisches Denken

Erforderliche Sprachen

Deutsch Englisch

Jetzt bewerben

Vorname *

Nachname *

E-Mail-Adresse *

Telefonnummer

Welche dieser Skills beherrschen Sie?

TensorFlow PyTorch Teamfähigkeit Kommunikation Analytisches Denken

Gehaltsvorstellung (Brutto/Jahr)

53.000 €

Kurze Nachricht

0 / 800 Zeichen

GitHub URL

Portfolio / Website URL

Dokumente hochladen

Lebenslauf, Zeugnisse, Anschreiben (PDF, max. 5MB pro Datei, max. 10 Dateien)

Dateien hier ablegen oder klicken

Ich willige ein, dass Jobriver meine Bewerbungsdaten zum Zweck der Bewerbung verarbeitet und an den genannten Arbeitgeber übermittelt.

Weitere Informationen findest du in der Datenschutzerklärung. Du kannst deine Einwilligung jederzeit widerrufen.

Ich möchte ein Benutzerkonto erstellen, damit ich meine Bewerbung verwalten und mich künftig einfacher auf weitere Stellen bewerben kann.

Optional. Sie erhalten anschließend eine E-Mail, um Ihr Passwort festzulegen.

NEU Ich möchte in den Jobriver-Bewerberpool aufgenommen werden, damit Arbeitgeber mich aktiv finden können.

Optional. Ihr Profil erscheint pseudonym mit Skills, Berufserfahrung, Gehaltsvorstellung und Region. Name und Kontaktdaten werden erst sichtbar, wenn Sie eine Kontaktanfrage im Jobriver-Chat annehmen. Ihre Daten werden nicht verkauft und nicht an Dritte weitergegeben. Mehr dazu in der Datenschutzerklärung. Sie können diese Einwilligung jederzeit widerrufen.

Name	`PHPSESSID`
Beschreibung	Speichert die aktuelle Sitzungs-ID des Benutzers.
Host	jobriver.de
Lebensdauer	Sitzung
Typ	HTTP

Name	`jobriver_consent`
Beschreibung	Speichert Ihre Cookie-Einwilligungsentscheidung.
Host	jobriver.de
Lebensdauer	365 Tage
Typ	HTTP

Name	`jr_lang`
Beschreibung	Speichert die gewählte Sprache, damit die Website in Ihrer bevorzugten Sprache angezeigt wird.
Host	jobriver.de
Lebensdauer	365 Tage
Typ	HTTP

Provider	Websitebetreiber (Erstanbieter)
Datenschutz	https://jobriver.de/datenschutz

Name	`_ga`
Beschreibung	Dient zur Unterscheidung einzelner Nutzer.
Lebensdauer	2 Jahre
Zweck	Tracking

Provider	Google Ireland Limited
Adresse	Gordon House, Barrow Street, Dublin 4, Ireland
Datenschutz	business.safety.google/privacy

Name	`_cs_*`
Beschreibung	Contentsquare-Cookies zur Analyse des Nutzerverhaltens (z. B. Heatmaps, anonymisierte Sitzungswiedergabe) zur Verbesserung der Website.
Lebensdauer	13 Monate
Zweck	Tracking

Provider	Contentsquare SAS
Adresse	7 Rue de Madrid, 75008 Paris, France
Datenschutz	contentsquare.com/privacy-center

Name	`_fbp`
Beschreibung	Wird von Meta verwendet, um eine Reihe von Werbeprodukten anzuzeigen, z. B. Echtzeit-Gebote von Drittanbietern.
Lebensdauer	3 Monate
Zweck	Marketing

Job auswählen

Senior HPC und KI Netzwerk Leistungsforschungs- und Analyseingenieur

Beschreibung

Anforderungen

Technologien

Soft Skills

Erforderliche Sprachen

Jetzt bewerben

Anmelden für Job-Alerts

Job-Alert erstellen