AI Online Development

Experiment 03 - Multimodal Vision Analysis and Positioning

Experiment Preparation:

Ensure Doubao AI (Volcengine) is connected
Find images as experiment material

Experiment Steps:

cd AI_online # Enter main directory
python examples/02_image_chat.py # Run example program

(If error occurs: (unicode error) 'utf-8' codec can't decode byte 0xcf in position 3: invalid continuation byte. Run command to convert source file to UTF-8 encoding: iconv -f GBK -t UTF-8 examples/02_image_chat.py -o /tmp/02_image_chat.py && mv /tmp/02_image_chat.py examples/02_image_chat.py)

Terminal output:

Function: Multimodal dialogue - upload image and have conversation with LLM about image content, implementing visual understanding and interactive Q&A