**About Us**:
We are a deep tech startup focused on building **energy-efficient fast Edge AI engines** particularly targeting the latest **laptop chips** with CPU, integrated GPU, and NPU. Our goal is to push the boundaries of **AI inference efficiency** on edge devices, optimizing performance without retraining models. We are looking for a **highly skilled Applied AI Researcher** to join our team and contribute to optimizing inference and fine-tuning techniques for state-of-the-art AI models.
• *Role Overview**:
As an **Applied AI Researcher**, you will focus on **low-level optimizations** to accelerate AI inference and fine-tuning, leveraging advanced techniques and frameworks. You will work closely with our technical team to implement efficient execution across heterogeneous architectures (CPU, GPU, and NPU).
• *Responsibilities**:
- Research and develop low-level optimizations for **AI inference and fine-tuning**.
- Optimize **AI** workloads for efficient execution, including quantization, pruning, and sparsity techniques.
- Work on **cross-device execution strategies**, ensuring efficient computation distribution between CPU, GPU, and NPU.
- Implement **memory and computation optimizations**.
- Improve **latency, throughput, and energy efficiency** of real-time AI workloads.
- Collaborate with software engineers to integrate optimizations into production pipelines.
- Stay up to date with the latest advancements in AI inference, hardware acceleration, and **Reinforcement Learning (RL)** techniques (a plus).
• *Requirements**:
- **5-7 years** of experience in AI research, optimization, or systems engineering.
- Strong expertise in **PyTorch**, including TorchScript, TorchDynamo, and other acceleration techniques.
- Proficiency in **low-level optimization** techniques, such as vectorization, memory optimization, and CUDA/OpenCL programming.
- Experience with **model compression** techniques like quantization, pruning, and knowledge distillation.
- Familiarity with **AI compilers** (e.g., TensorRT, TVM, XLA, MLIR, Triton).
- Understanding of **heterogeneous computing architectures** (CPU/GPU/NPU) and their interaction for AI workloads.
- Strong background in **numerical computing, profiling, and performance tuning**.
- Experience with **ONNX, TensorFlow, JAX**, or other ML frameworks is a plus.
- Knowledge of **Reinforcement Learning (RL)** is a significant advantage.
• *Nice to Have**:
- Experience with **Intel's OpenVINO** or other vendor-specific acceleration frameworks.
- Contributions to open-source AI/ML projects.
- Familiarity with **distributed training** and inference techniques.
- Research publications in ML systems, optimization, or inference acceleration.
• *Why Join Us?**
- Work on cutting-edge AI optimization problems with real-world impact.
- Be part of a fast-moving startup where your contributions directly shape the product.
- Competitive salary and equity options.
- Flexible work environment (Hybrid/Remote possible).
- Collaborate with a team of passionate AI and systems experts.
If you're excited about optimizing AI models for efficiency and performance on next-gen hardware, we'd love to hear from you
• *À propos de nous**:
Nous sommes une startup deep tech spécialisée dans le développement de moteurs d'IA embarqués rapides et éco-énergétiques, ciblant en particulier les dernières puces pour ordinateurs portables intégrant CPU, GPU et NPU. Notre objectif est de repousser les limites de l'efficacité de l'inférence IA sur les dispositifs Edge, en optimisant les performances sans réentraînement des modèles. Nous recherchons un **Chercheur en IA appliquée** hautement qualifié pour rejoindre notre équipe et contribuer à l'optimisation de l'inférence et du fine-tuning des modèles d'IA de pointe.
• *Description du poste**:
En tant que **Chercheur en IA appliquée**, vous vous concentrerez sur les **optimisations bas niveau** pour accélérer l'inférence et le fine-tuning de l'IA en exploitant des techniques et des frameworks avancés. Vous travaillerez en étroite collaboration avec notre équipe technique pour mettre en place une exécution efficace sur des architectures hétérogènes (CPU, GPU et NPU).
• *Responsabilités**:
- Rechercher et développer des optimisations bas niveau pour l'inférence et le fine-tuning de l'IA.
- Optimiser les charges de travail IA pour une exécution efficace, y compris la quantification, l'élagage (pruning) et l'utilisation de la parcimonie (sparsity).
- Développer des stratégies d'exécution multi-appareils, garantissant une répartition efficace des calculs entre CPU, GPU et NPU.
- Implémenter des optimisations de la mémoire et des calculs.
- Améliorer la latence, le débit et l'efficacité énergétique des charges de travail IA en temps réel.
- Collaborer avec les ingénieurs logiciels pour intégrer les optimisations dans les pipelines de production.
- Se tenir informé des dernières avancées en inférence IA, accélération matérielle et techniques d'**apprentissage par re