Clarify realtime v2 context and handoff messages (#17896)

## Summary - wrap realtime startup context in `<startup_context>...</startup_context>` tags - prefix V2 mirrored user text and relayed backend text with `[USER]` / `[BACKEND]` - remove the V2 progress suffix and replace the final V2 handoff output with a short completion acknowledgement while preserving the existing V1 wrapper ## Testing - cargo test -p codex-api realtime_v2_session_update_includes_background_agent_tool_and_handoff_output_item -- --exact - cargo test -p codex-app-server webrtc_v2_background_agent_ - cargo test -p codex-app-server webrtc_v2_text_input_is_ - cargo test -p codex-core conversation_user_text_turn_is_
2026-05-01 18:06:47 +00:00 · 2026-04-15 16:26:20 -07:00
parent 18d61f6923
commit c2bdb7812c
10 changed files with 133 additions and 27 deletions
--- a/codex-rs/core/tests/suite/realtime_conversation.rs
+++ b/codex-rs/core/tests/suite/realtime_conversation.rs
@@ -57,6 +57,8 @@ use wiremock::matchers::method;
 use wiremock::matchers::path_regex;

 const STARTUP_CONTEXT_HEADER: &str = "Startup context from Codex.";
+const STARTUP_CONTEXT_OPEN_TAG: &str = "<startup_context>";
+const STARTUP_CONTEXT_CLOSE_TAG: &str = "</startup_context>";
 const REALTIME_BACKEND_PROMPT: &str = include_str!("../../templates/realtime/backend_prompt.md");
 const USER_FIRST_NAME_PLACEHOLDER: &str = "{{ user_first_name }}";
 const MEMORY_PROMPT_PHRASE: &str =
@@ -1530,6 +1532,8 @@ async fn conversation_start_injects_startup_context_from_thread_history() -> Res
    let startup_context = websocket_request_instructions(&startup_context_request)
        .expect("startup context request should contain instructions");

+    assert!(startup_context.contains(STARTUP_CONTEXT_OPEN_TAG));
+    assert!(startup_context.contains(STARTUP_CONTEXT_CLOSE_TAG));
    assert!(startup_context.contains(STARTUP_CONTEXT_HEADER));
    assert!(!startup_context.contains("## User"));
    assert!(startup_context.contains("### "));
@@ -1747,6 +1751,8 @@ async fn conversation_startup_context_falls_back_to_workspace_map() -> Result<()
    let startup_context = websocket_request_instructions(&startup_context_request)
        .expect("startup context request should contain instructions");

+    assert!(startup_context.contains(STARTUP_CONTEXT_OPEN_TAG));
+    assert!(startup_context.contains(STARTUP_CONTEXT_CLOSE_TAG));
    assert!(startup_context.contains(STARTUP_CONTEXT_HEADER));
    assert!(startup_context.contains("## Machine / Workspace Map"));
    assert!(startup_context.contains("notes.txt"));
@@ -1801,6 +1807,8 @@ async fn conversation_startup_context_is_truncated_and_sent_once_per_start() ->
    .await;
    let startup_context = websocket_request_instructions(&startup_context_request)
        .expect("startup context request should contain instructions");
+    assert!(startup_context.contains(STARTUP_CONTEXT_OPEN_TAG));
+    assert!(startup_context.contains(STARTUP_CONTEXT_CLOSE_TAG));
    assert!(startup_context.contains(STARTUP_CONTEXT_HEADER));
    assert!(startup_context.len() <= 20_500);

@@ -1879,6 +1887,7 @@ async fn conversation_user_text_turn_is_sent_to_realtime_when_active() -> Result
    assert_eq!(session_updated, "sess_user_text");

    let user_text = "typed follow-up for realtime";
+    let prefixed_user_text = format!("[USER] {user_text}");
    test.codex
        .submit(Op::UserInput {
            items: vec![UserInput::Text {
@@ -1898,7 +1907,7 @@ async fn conversation_user_text_turn_is_sent_to_realtime_when_active() -> Result
    let realtime_text_request = wait_for_matching_websocket_request(
        &realtime_server,
        "normal user turn text mirrored to realtime",
-        |request| websocket_request_text(request).as_deref() == Some(user_text),
+        |request| websocket_request_text(request).as_deref() == Some(prefixed_user_text.as_str()),
    )
    .await;
    let model_user_texts = response_mock.single_request().message_input_texts("user");
@@ -1907,7 +1916,7 @@ async fn conversation_user_text_turn_is_sent_to_realtime_when_active() -> Result
            model_user_texts.iter().any(|text| text == user_text),
            websocket_request_text(&realtime_text_request),
        ),
-        (true, Some(user_text.to_string())),
+        (true, Some(prefixed_user_text)),
    );
    let realtime_response_create = timeout(Duration::from_millis(200), async {
        wait_for_matching_websocket_request(
--- a/codex-rs/core/tests/suite/snapshots/allsuiterealtime_conversation__conversation_user_text_turn_is_capped_when_mirrored_to_realtime.snap
+++ b/codex-rs/core/tests/suite/snapshots/allsuiterealtime_conversation__conversation_user_text_turn_is_capped_when_mirrored_to_realtime.snap
@@ -9,4 +9,4 @@ content[0].type: input_text
 model_has_full_user_text: true
 realtime_text_equal_full_user_text: false
 realtime_text_approx_tokens: 300
-content[0].text: mirror-head alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alph…2417 tokens truncated…ega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega  mirror-tail
+content[0].text: [USER] mirror-head alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alpha alp…2419 tokens truncated…ega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega omega  mirror-tail
--- a/codex-rs/core/tests/suite/snapshots/allsuiterealtime_conversation__conversation_user_text_turn_is_sent_to_realtime_when_active.snap
+++ b/codex-rs/core/tests/suite/snapshots/allsuiterealtime_conversation__conversation_user_text_turn_is_sent_to_realtime_when_active.snap
@@ -6,5 +6,5 @@ type: conversation.item.create
 item.type: message
 item.role: user
 content[0].type: input_text
-content[0].text: typed follow-up for realtime
+content[0].text: [USER] typed follow-up for realtime
 response.create: false