# üöÄ Ollama sur Google Colab (GPU Gratuit)

Ce notebook configure Ollama avec GPU Tesla T4 gratuit sur Google Colab.

## ‚ö° Configuration rapide

1. **Activer le GPU** : Runtime ‚Üí Change runtime type ‚Üí T4 GPU
2. **Ex√©cuter les cellules** dans l'ordre

In [None]:
# 1. V√©rifier le GPU
!nvidia-smi
import torch
print(f"GPU disponible: {torch.cuda.is_available()}")
print(f"GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'Aucun'}")

In [None]:
# 2. Installer Ollama
!curl -fsSL https://ollama.com/install.sh | sh

In [None]:
# 3. D√©marrer Ollama en arri√®re-plan
import subprocess
import time

# D√©marrer le serveur
process = subprocess.Popen(['ollama', 'serve'], stdout=subprocess.PIPE, stderr=subprocess.PIPE)
time.sleep(5)
print("‚úÖ Serveur Ollama d√©marr√©")

In [None]:
# 4. T√©l√©charger des mod√®les
print("üì• T√©l√©chargement des mod√®les...")

# Mod√®les recommand√©s pour T4 16GB
models = [
    "llama3.2:3b",      # 3B params, rapide
    "phi3:medium",      # 14B params, Microsoft
    "mistral:7b-instruct", # 7B params, tr√®s bon
    "deepseek-r1:7b"    # 7B params, raisonnement
]

for model in models:
    print(f"\nüì¶ T√©l√©chargement {model}...")
    !ollama pull {model}
    print(f"‚úÖ {model} pr√™t")

In [None]:
# 5. Interface de chat simple
import json
import requests

def chat_ollama(prompt, model="llama3.2:3b"):
    """Chat avec Ollama"""
    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": prompt,
            "stream": False
        }
    )
    return response.json()['response']

# Test
print("ü§ñ Test avec llama3.2:3b")
print("-" * 50)
response = chat_ollama("Quelle est la capitale de la France ? R√©ponds en une phrase.")
print(response)

In [None]:
# 6. Interface interactive
from IPython.display import display, HTML, clear_output
import ipywidgets as widgets

# Widgets
model_dropdown = widgets.Dropdown(
    options=['llama3.2:3b', 'phi3:medium', 'mistral:7b-instruct', 'deepseek-r1:7b'],
    value='llama3.2:3b',
    description='Mod√®le:'
)

prompt_text = widgets.Textarea(
    value='',
    placeholder='Tapez votre question ici...',
    description='Question:',
    layout=widgets.Layout(width='100%', height='100px')
)

output_area = widgets.Output()
button = widgets.Button(description="Envoyer", button_style='primary')

def on_button_click(b):
    with output_area:
        clear_output()
        print(f"ü§ñ {model_dropdown.value} r√©pond...")
        print("-" * 50)
        response = chat_ollama(prompt_text.value, model_dropdown.value)
        print(response)
        prompt_text.value = ""

button.on_click(on_button_click)

# Afficher l'interface
display(HTML("<h3>üí¨ Chat avec Ollama sur GPU</h3>"))
display(model_dropdown)
display(prompt_text)
display(button)
display(output_area)

In [None]:
# 7. Test de performance
import time

print("‚ö° Test de performance GPU vs CPU")
print("=" * 50)

test_prompt = "√âcris un ha√Øku sur l'intelligence artificielle."

for model in ['llama3.2:3b', 'mistral:7b-instruct']:
    print(f"\nüìä Test {model}")
    start = time.time()
    response = chat_ollama(test_prompt, model)
    elapsed = time.time() - start
    
    print(f"Temps: {elapsed:.2f} secondes")
    print(f"R√©ponse: {response[:100]}...")
    print(f"Vitesse: ~{len(response.split())/elapsed:.1f} mots/seconde")

In [None]:
# 8. Connexion avec Open WebUI (optionnel)
print("üåê Configuration pour Open WebUI externe")
print("=" * 50)

# Installer ngrok pour exposer Ollama
!pip install pyngrok -q

from pyngrok import ngrok

# Cr√©er un tunnel
tunnel = ngrok.connect(11434)
print(f"\n‚úÖ Ollama accessible √†: {tunnel.public_url}")
print(f"\nüìù Configuration Open WebUI:")
print(f"   - URL Ollama: {tunnel.public_url}")
print(f"   - Mod√®les disponibles: {', '.join(models)}")
print(f"\n‚ö†Ô∏è  Note: Le tunnel expire apr√®s 2 heures")

## üìö Guide d'utilisation

### üéØ Mod√®les recommand√©s par usage

| Mod√®le | Taille | Usage | Vitesse T4 |
|--------|--------|-------|------------|
| llama3.2:3b | 3B | Chat rapide | ~50 tokens/s |
| mistral:7b | 7B | Polyvalent | ~30 tokens/s |
| phi3:medium | 14B | Raisonnement | ~15 tokens/s |
| deepseek-r1:7b | 7B | Analyse | ~25 tokens/s |

### ‚è±Ô∏è Limites Colab gratuit
- Session max : 12 heures
- GPU : Tesla T4 16GB
- Inactivit√© : D√©connexion apr√®s 90 min

### üí° Astuces
1. Sauvegardez r√©guli√®rement votre travail
2. Utilisez `llama3.2:3b` pour les r√©ponses rapides
3. Passez √† `mistral:7b` pour plus de qualit√©
4. Le tunnel ngrok permet d'utiliser Open WebUI depuis votre navigateur