一套基本的具身智能技术流程是如何实现的

简介: Embodied Intelligence作为一种将感知、决策与执行相结合的前沿技术,正在引领机器人技术迈向新的高度。具身智能不仅要求机器人具备理解和处理复杂环境的能力,还需赋予其自主决策和执行任务的能力。本文将深入探讨如何将LLM和多模态大模型与机器人技术相结合,构建一套完整的具身智能技术流程。本文参考了同济子豪兄的部分工作,TsingtaoAI团队对整体构建做了一部分拓展和延伸。

Embodied Intelligence作为一种将感知、决策与执行相结合的前沿技术,正在引领机器人技术迈向新的高度。具身智能不仅要求机器人具备理解和处理复杂环境的能力,还需赋予其自主决策和执行任务的能力。本文将深入探讨如何将LLM和多模态大模型与机器人技术相结合,构建一套完整的具身智能技术流程。本文参考了同济子豪兄的部分工作,TsingtaoAI团队对整体构建做了一部分拓展和延伸。文中相关流程和代码仅作示例,用于读者理解相关的内部实现逻辑,不具备工程复现意义。

本文目录

  1. 一套最小的具身智能应用实现流程
  2. 系统架构设计
  3. LLM与机器人集成
  4. 多模态大模型的应用
  5. 自主决策与执行模块
  6. 传感器与执行器接口
  7. 通信与数据处理
  8. 系统部署与优化
  9. 案例分析与代码示例
  10. 未来展望

1. 一套最小的具身智能应用实现流程

具身智能强调机器人不仅具备感知和认知能力,还能够通过与环境的交互实现自主行为。与传统的机器人相比,具身智能机器人更具适应性和灵活性,能够在复杂、多变的环境中执行任务。这一概念的核心在于将感知、认知和动作控制有机结合,使机器人具备类似人类的智能行为。

一套最小的具身智能应用实现流程-引自同济子豪兄

1.1 具身智能的关键要素

  • 感知能力:通过多种传感器获取环境信息,包括视觉、听觉、触觉等。
  • 认知能力:利用AI模型进行信息处理和理解,实现环境建模和任务规划。
  • 动作控制:通过执行器实现对环境的物理操作,完成特定任务。
  • 自主决策:基于感知和认知结果,自主制定行动策略。

2. 系统架构设计

构建具身智能系统需要一个高度集成的架构,涵盖感知、认知、决策与执行等多个模块。以下是一个典型的具身智能系统架构图:

diff


+-----------------------+
|       感知模块        |
| - 摄像头              |
| - 麦克风              |
| - 触觉传感器          |
+----------+------------+
           |
           v
+----------+------------+
|       数据处理        |
| - 数据预处理          |
| - 特征提取            |
+----------+------------+
           |
           v
+----------+------------+
|       认知模块        |
| - 大型语言模型(LLM) |
| - 多模态大模型        |
+----------+------------+
           |
           v
+----------+------------+
|     决策与规划模块     |
| - 行为规划            |
| - 决策树              |
+----------+------------+
           |
           v
+----------+------------+
|     执行模块          |
| - 机械臂控制          |
| - 动作执行            |
+-----------------------+

2.1 模块详细说明

  • 感知模块:负责采集环境数据,包括视觉、听觉和触觉等多种传感器信息。
  • 数据处理:对采集到的数据进行预处理和特征提取,为认知模块提供高质量的输入。
  • 认知模块:利用LLM和多模态大模型对数据进行理解和分析,生成上下文相关的信息。
  • 决策与规划模块:基于认知结果,制定具体的行动计划和策略。
  • 执行模块:将决策转化为具体的物理动作,通过机械臂等执行器完成任务。

3. LLM与机器人集成

大型语言模型,如OpenAI的GPT-4o,具备强大的自然语言理解和生成能力。将LLM集成到机器人系统中,可以显著提升机器人的交互能力和决策水平。

3.1 LLM的选择与部署

在选择LLM时,需要考虑模型的性能、响应速度和资源消耗。当前,主流的LLM包括:

  • Yi-Large:具有强大的中文理解和生成能力,适合中文环境下的应用。
  • Claude 3:以其稳健性和高效性著称,适用于多种任务场景。
  • ERNIE 4.0:百度推出的多任务学习模型,在中文NLP任务中表现优异。

3.1.1 部署环境

为了实现高效的模型运行,建议使用亚马逊云科技的生成式AI平台Amazon Bedrock。Bedrock提供了高性能的计算资源和便捷的模型管理接口,适合大规模部署LLM。

python


import boto3


# 初始化Bedrock客户端
bedrock_client = boto3.client('bedrock', region_name='us-west-2')


# 调用LLM进行文本生成
response = bedrock_client.invoke_model(
    ModelId='ernie-4.0',
    Prompt='你好,机器人!今天的任务是什么?',
    MaxTokens=150
)


print(response['GeneratedText'])

3.2 LLM与感知模块的融合

LLM不仅可以处理文本指令,还能结合视觉和听觉信息,实现更复杂的交互。通过多模态输入,机器人可以更准确地理解用户意图。

python


from transformers import CLIPProcessor, CLIPModel
import torch


# 初始化多模态模型
clip_model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
clip_processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")


def process_multimodal(image, text):
    inputs = clip_processor(text=[text], images=image, return_tensors="pt", padding=True)
    outputs = clip_model(**inputs)
    logits_per_image = outputs.logits_per_image
    probs = logits_per_image.softmax(dim=1)
    return probs


# 示例调用
image = Image.open("example.jpg")
text = "这是一个红色的苹果。"
prob = process_multimodal(image, text)
print(prob)

3.3 自然语言指令解析与执行

通过LLM,机器人可以解析自然语言指令,并将其转化为具体的动作指令。例如,用户可以通过语音指令“请将红色的物体拿起来”,机器人通过LLM解析后,结合视觉信息,执行相应的动作。

python


def parse_instruction(instruction):
    # 使用LLM解析指令
    response = bedrock_client.invoke_model(
        ModelId='yi-large',
        Prompt=instruction,
        MaxTokens=100
    )
    action_plan = response['GeneratedText']
    return action_plan


instruction = "请将红色的物体拿起来。"
action = parse_instruction(instruction)
print(action)

4. 多模态大模型的应用

多模态大模型结合了文本、图像、音频等多种数据类型的处理能力,赋予机器人更全面的感知和理解能力。当前,主流的多模态大模型包括GPT-4o、Yi-Vision、Claude 3 Opus等。

4.1 多模态模型的选择与集成

选择合适的多模态模型是实现具身智能的关键。以下是几种常用的多模态模型及其特点:

  • GPT-4o:在多模态理解和生成方面表现优异,适合复杂场景下的应用。
  • Yi-Vision:专注于中文图像理解,适合中文环境下的视觉任务。
  • Claude 3 Opus:结合了音频和视觉信息,适用于需要听觉与视觉结合的任务。

4.1.1 集成示例

以GPT-4o为例,展示如何将图像和文本输入结合,进行综合理解。

python


from transformers import GPT4oProcessor, GPT4oModel
from PIL import Image


# 初始化多模态处理器和模型
processor = GPT4oProcessor.from_pretrained("openai/gpt4o")
model = GPT4oModel.from_pretrained("openai/gpt4o")


def multimodal_inference(image_path, text):
    image = Image.open(image_path)
    inputs = processor(text=text, images=image, return_tensors="pt")
    outputs = model(**inputs)
    return outputs


# 示例调用
image_path = "scene.jpg"
text = "描述这张图片中的主要物体和动作。"
outputs = multimodal_inference(image_path, text)
print(outputs)

4.2 多模态信息融合

在具身智能中,融合多模态信息是提升机器人理解能力的重要手段。通过结合视觉、听觉和文本信息,机器人能够更准确地感知环境和用户意图。

python


def fuse_multimodal_data(image, audio, text):
    # 处理视觉信息
    visual_features = clip_model.get_image_features(clip_processor(images=image, return_tensors="pt")["pixel_values"])
    
    # 处理音频信息
    audio_features = audio_model.extract_features(audio)
    
    # 处理文本信息
    text_features = llm_model.encode(text)
    
    # 融合特征
    fused_features = torch.cat((visual_features, audio_features, text_features), dim=1)
    return fused_features


# 示例调用
image = Image.open("object.jpg")
audio = load_audio("command.wav")
text = "请识别并抓取桌上的苹果。"
features = fuse_multimodal_data(image, audio, text)
print(features)

5. 自主决策与执行模块

自主决策是具身智能机器人的核心,通过结合认知模块的输出,制定具体的行动计划。决策模块需要具备灵活性和适应性,能够应对动态变化的环境。

5.1 决策树与行为规划

决策树是一种常用的决策模型,通过分层次的条件判断,确定下一步的行动。结合行为规划,机器人可以根据当前状态和目标,制定详细的行动步骤。

python


class DecisionNode:
    def __init__(self, condition, true_branch, false_branch):
        self.condition = condition
        self.true_branch = true_branch
        self.false_branch = false_branch


def evaluate_decision(node, context):
    if node.condition(context):
        if isinstance(node.true_branch, DecisionNode):
            return evaluate_decision(node.true_branch, context)
        else:
            return node.true_branch
    else:
        if isinstance(node.false_branch, DecisionNode):
            return evaluate_decision(node.false_branch, context)
        else:
            return node.false_branch


# 示例决策树
def condition_pick_up(context):
    return context['object_detected'] and context['object_color'] == 'red'


action_pick = "抓取红色物体"
action_search = "搜索红色物体"


root = DecisionNode(condition_pick_up, action_pick, action_search)


# 示例调用
context = {'object_detected': True, 'object_color': 'red'}
action = evaluate_decision(root, context)
print(action)  # 输出: 抓取红色物体

5.2 强化学习在决策中的应用

强化学习(Reinforcement Learning, RL)通过与环境的交互,不断优化策略,实现复杂任务的自主决策。利用RL,机器人能够在动态环境中学习并适应变化。

python


import gym
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim


# 定义简单的策略网络
class PolicyNetwork(nn.Module):
    def __init__(self, state_size, action_size):
        super(PolicyNetwork, self).__init__()
        self.fc = nn.Linear(state_size, 128)
        self.action_head = nn.Linear(128, action_size)
    
    def forward(self, x):
        x = torch.relu(self.fc(x))
        action_probs = torch.softmax(self.action_head(x), dim=-1)
        return action_probs


# 初始化环境和网络
env = gym.make('CartPole-v1')
state_size = env.observation_space.shape[0]
action_size = env.action_space.n
policy_net = PolicyNetwork(state_size, action_size)
optimizer = optim.Adam(policy_net.parameters(), lr=1e-2)
eps = np.finfo(np.float32).eps.item()


# 训练过程
for episode in range(1000):
    state = env.reset()
    rewards = []
    log_probs = []
    done = False
    while not done:
        state = torch.from_numpy(state).float()
        action_probs = policy_net(state)
        m = torch.distributions.Categorical(action_probs)
        action = m.sample()
        log_prob = m.log_prob(action)
        state, reward, done, _ = env.step(action.item())
        log_probs.append(log_prob)
        rewards.append(reward)
        if done:
            break
    # 计算累计奖励
    cumulative_reward = 0
    policy_loss = []
    for log_prob, reward in zip(log_probs, rewards):
        cumulative_reward += reward
        policy_loss.append(-log_prob * cumulative_reward)
    optimizer.zero_grad()
    policy_loss = torch.cat(policy_loss).sum()
    policy_loss.backward()
    optimizer.step()
    if episode % 100 == 0:
        print(f"Episode {episode}, Reward: {cumulative_reward}")

5.3 行为规划的实现

行为规划需要结合具体任务,制定详细的行动步骤。例如,在抓取物体任务中,规划路径、避障策略等。

python


import numpy as np


class BehaviorPlanner:
    def __init__(self, robot, environment):
        self.robot = robot
        self.environment = environment
    
    def plan_path(self, start, goal):
        # 使用A*算法进行路径规划
        open_set = set()
        open_set.add(start)
        came_from = {}
        g_score = {start: 0}
        f_score = {start: self.heuristic(start, goal)}
        
        while open_set:
            current = min(open_set, key=lambda x: f_score.get(x, np.inf))
            if current == goal:
                return self.reconstruct_path(came_from, current)
            
            open_set.remove(current)
            for neighbor in self.environment.get_neighbors(current):
                tentative_g = g_score[current] + self.distance(current, neighbor)
                if tentative_g < g_score.get(neighbor, np.inf):
                    came_from[neighbor] = current
                    g_score[neighbor] = tentative_g
                    f_score[neighbor] = tentative_g + self.heuristic(neighbor, goal)
                    open_set.add(neighbor)
        return []


    def heuristic(self, a, b):
        return np.linalg.norm(np.array(a) - np.array(b))
    
    def distance(self, a, b):
        return self.heuristic(a, b)
    
    def reconstruct_path(self, came_from, current):
        path = [current]
        while current in came_from:
            current = came_from[current]
            path.append(current)
        path.reverse()
        return path


# 示例调用
robot = MyRobot()
environment = EnvironmentGrid()
planner = BehaviorPlanner(robot, environment)
start = (0, 0)
goal = (5, 5)
path = planner.plan_path(start, goal)
print(f"规划路径: {path}")

6. 传感器与执行器接口

传感器和执行器是机器人与外界交互的桥梁,确保感知信息的准确采集和动作指令的有效执行。以下将详细介绍如何集成和管理各种传感器与执行器。

6.1 视觉传感器接口

摄像头是主要的视觉传感器,通过图像处理技术,获取环境的视觉信息。

python


import cv2


class CameraInterface:
    def __init__(self, camera_id=0):
        self.cap = cv2.VideoCapture(camera_id)
    
    def get_frame(self):
        ret, frame = self.cap.read()
        if ret:
            return frame
        else:
            return None
    
    def release(self):
        self.cap.release()


# 示例调用
camera = CameraInterface()
frame = camera.get_frame()
if frame is not None:
    cv2.imshow('Camera Frame', frame)
    cv2.waitKey(0)
camera.release()
cv2.destroyAllWindows()

6.2 语音识别与合成

语音识别和合成是实现自然人机交互的重要手段。本文采用PaddleSpeech进行短文本在线合成和AppBuilder-SDK进行语音识别。

python


import paddlespeech as ps


# 语音识别
def recognize_speech(audio_file):
    recognizer = ps.AsrModel.from_pretrained("appbuilder-sdk-short")
    result = recognizer.recognize(audio_file)
    return result


# 语音合成
def synthesize_speech(text, output_file):
    tts = ps.TtsModel.from_pretrained("appbuilder-sdk-tts")
    tts.synthesize(text, output_file)


# 示例调用
audio_input = "command.wav"
recognized_text = recognize_speech(audio_input)
print(f"识别结果: {recognized_text}")


text_output = "任务已完成。"
synthesize_speech(text_output, "output.wav")

6.3 机械臂控制接口

机械臂是机器人的执行器,通过编程接口,实现精准的动作控制。本文以Mycobot 280 Pi机械臂为例,展示如何进行控制。

python


from pymycobot import Mycobot


# 初始化机械臂
mc = Mycobot("/dev/ttyUSB0", 115200)


# 移动到指定坐标
def move_to(x, y, z, r=0):
    mc.send_coords([x, y, z, r], 50)


# 抓取动作示例
move_to(200, 0, 100)  # 位置1
mc.set_gripper_state(True)  # 开启夹爪
move_to(200, 0, 200)  # 位置2
mc.set_gripper_state(False)  # 关闭夹爪


# 示例调用
move_to(150, 50, 100)
mc.set_gripper_state(True)
move_to(150, 50, 200)
mc.set_gripper_state(False)

6.4 传感器数据同步与管理

确保传感器数据的同步与高效管理,是实现准确控制的基础。可以通过多线程或异步编程,实现多传感器数据的并行处理。

python


import threading


class SensorManager:
    def __init__(self):
        self.camera = CameraInterface()
        self.audio = AudioInterface()
        self.lock = threading.Lock()
        self.latest_frame = None
        self.latest_audio = None
    
    def start_camera(self):
        def camera_thread():
            while True:
                frame = self.camera.get_frame()
                with self.lock:
                    self.latest_frame = frame
        threading.Thread(target=camera_thread, daemon=True).start()
    
    def start_audio(self):
        def audio_thread():
            while True:
                audio = self.audio.get_audio()
                with self.lock:
                    self.latest_audio = audio
        threading.Thread(target=audio_thread, daemon=True).start()
    
    def get_latest_data(self):
        with self.lock:
            return self.latest_frame, self.latest_audio


# 示例调用
sensor_manager = SensorManager()
sensor_manager.start_camera()
sensor_manager.start_audio()


# 在主循环中获取最新数据
while True:
    frame, audio = sensor_manager.get_latest_data()
    if frame is not None:
        cv2.imshow('Live Frame', frame)
    if audio is not None:
        print(f"最新音频数据: {audio}")
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

7. 通信与数据处理

在具身智能系统中,通信与数据处理是保证各模块高效协作的关键。以下将介绍如何实现模块间的通信与数据同步。

7.1 模块间通信机制

可以采用消息队列(如RabbitMQ)、共享内存或RESTful API等方式,实现模块间的通信。本文以RabbitMQ为例,展示如何实现消息传递。

python


import pika
import json


# 发送消息
def send_message(queue, message):
    connection = pika.BlockingConnection(pika.ConnectionParameters('localhost'))
    channel = connection.channel()
    channel.queue_declare(queue=queue)
    channel.basic_publish(exchange='', routing_key=queue, body=json.dumps(message))
    connection.close()


# 接收消息
def receive_message(queue, callback):
    connection = pika.BlockingConnection(pika.ConnectionParameters('localhost'))
    channel = connection.channel()
    channel.queue_declare(queue=queue)
    channel.basic_consume(queue=queue, on_message_callback=lambda ch, method, properties, body: callback(json.loads(body)), auto_ack=True)
    channel.start_consuming()


# 示例调用
def action_callback(message):
    print(f"接收到消息: {message}")


# 发送
send_message('action_queue', {'action': 'move', 'parameters': {'x': 100, 'y': 200}})


# 接收
receive_message('action_queue', action_callback)

7.2 数据处理与存储

在大规模数据处理场景下,采用分布式数据库(如MongoDB、PostgreSQL)和实时数据处理框架(如Apache Kafka、Spark)是必要的。本文以MongoDB为例,展示数据的存储与查询。

python


from pymongo import MongoClient


# 连接MongoDB
client = MongoClient('mongodb://localhost:27017/')
db = client['robot_db']
collection = db['sensor_data']


# 插入数据
def insert_sensor_data(data):
    collection.insert_one(data)


# 查询数据
def query_sensor_data(query):
    return collection.find(query)


# 示例调用
sensor_data = {
    'timestamp': '2024-04-27T10:00:00Z',
    'sensor': 'camera',
    'data': 'image_bytes...'
}
insert_sensor_data(sensor_data)


results = query_sensor_data({'sensor': 'camera'})
for result in results:
    print(result)

7.3 实时数据处理

实时数据处理对于具身智能系统的响应速度至关重要。可以采用流处理框架,如Apache Kafka,实现数据的实时传输与处理。

python


from kafka import KafkaProducer, KafkaConsumer


# 生产者发送消息
producer = KafkaProducer(bootstrap_servers='localhost:9092')
producer.send('sensor_topic', b'新传感器数据')
producer.flush()


# 消费者接收消息
consumer = KafkaConsumer('sensor_topic', bootstrap_servers='localhost:9092')
for message in consumer:
    print(f"接收到消息: {message.value}")

8. 系统部署与优化

高效的系统部署与优化,能够显著提升具身智能机器人的性能与可靠性。以下将探讨系统部署的最佳实践及性能优化策略。

8.1 部署环境配置

确保系统在稳定的环境中运行,是实现高效部署的基础。推荐使用树莓派4B搭载Ubuntu 20.04作为开发环境,结合云平台资源,实现本地与云端的协同工作。

bash


# 更新系统
sudo apt update
sudo apt upgrade -y


# 安装必要的软件包
sudo apt install -y python3-pip git


# 克隆项目代码
git clone https://github.com/TommyZihao/vlm_arm.git
cd vlm_arm


# 创建虚拟环境
python3 -m venv venv
source venv/bin/activate


# 安装依赖
pip install -r requirements.txt

8.2 性能优化策略

针对具身智能系统的高计算需求,以下是几种常用的性能优化策略:

  • 模型压缩与剪枝:减少模型参数量,提升推理速度。
  • 硬件加速:利用GPU或TPU加速计算,提升处理效率。
  • 并行计算:采用多线程或分布式计算,提升数据处理能力。
  • 缓存机制:对频繁访问的数据进行缓存,减少重复计算。
python


import torch
import torch.nn.utils.prune as prune


# 模型剪枝示例
def prune_model(model, amount=0.3):
    for name, module in model.named_modules():
        if isinstance(module, torch.nn.Linear):
            prune.l1_unstructured(module, name='weight', amount=amount)
    return model


# 示例调用
pruned_model = prune_model(policy_net, amount=0.2)

8.3 系统监控与维护

实时监控系统状态,及时发现并解决潜在问题,是保证系统稳定运行的重要手段。可以采用Prometheus和Grafana进行系统监控与可视化。

yaml


复制代码
# Prometheus配置示例
global:
  scrape_interval: 15s


scrape_configs:
  - job_name: 'robot_system'
    static_configs:
      - targets: ['localhost:9090']
yaml


# Grafana数据源配置
apiVersion: 1
datasources:
  - name: Prometheus
    type: prometheus
    url: http://localhost:9090

9. 案例分析与代码示例

为更好地理解具身智能技术流程,以下通过具体案例进行分析,并提供相应的代码示例。

9.1 案例背景

假设我们要实现一个具身智能机器人,通过语音指令控制机械臂抓取指定颜色的物体。具体流程包括语音识别、指令解析、视觉识别、路径规划与机械臂控制。

9.2 实现步骤

9.2.1 语音指令获取与解析

python


# 语音指令获取
def get_voice_command():
    audio_file = "command.wav"
    record_audio(audio_file)  # 假设有录音函数
    command = recognize_speech(audio_file)
    return command


# 指令解析
def parse_command(command):
    action_plan = parse_instruction(command)
    return action_plan


# 示例调用
voice_command = get_voice_command()
action_plan = parse_command(voice_command)
print(f"解析后的指令: {action_plan}")

9.2.2 视觉识别与目标定位

python


from PIL import Image
import torch


def detect_object(image, target_color):
    # 使用多模态模型进行颜色识别
    response = multimodal_inference(image, f"找到一个{target_color}的物体。")
    # 假设返回物体的坐标
    object_coords = extract_coordinates(response)
    return object_coords


# 示例调用
frame = camera.get_frame()
target_color = "红色"
object_coords = detect_object(frame, target_color)
print(f"目标物体坐标: {object_coords}")

9.2.3 路径规划与机械臂控制

python


# 规划路径
path = planner.plan_path(current_position, object_coords)


# 执行路径
for point in path:
    move_to(point[0], point[1], point[2])
    # 添加必要的延时和状态检查

9.2.4 完整流程整合

python


def main():
    # 获取并解析语音指令
    voice_command = get_voice_command()
    action_plan = parse_command(voice_command)
    
    if action_plan['action'] == '抓取' and '颜色' in action_plan['parameters']:
        target_color = action_plan['parameters']['颜色']
        # 视觉识别
        frame = camera.get_frame()
        object_coords = detect_object(frame, target_color)
        
        if object_coords:
            # 路径规划
            path = planner.plan_path(current_position, object_coords)
            # 执行动作
            for point in path:
                move_to(point[0], point[1], point[2])
            # 抓取物体
            mc.set_gripper_state(True)
            move_to(grasp_position)
            mc.set_gripper_state(False)
            print("抓取任务完成。")
        else:
            print(f"未检测到{target_color}的物体。")
    else:
        print("不支持的指令。")


# 运行主函数
if __name__ == "__main__":
    main()

10. 未来展望

本文深入探讨了一套基本的具身智能技术流程,从系统架构设计到具体模块的实现,涵盖了最新的LLM、多模态大模型与机器人技术的集成方法。通过详细的技术分析和代码示例,展示了如何实现AI机器人的自主决策与执行能力。

具身智能作为机器人技术的前沿方向,未来的发展潜力巨大。随着AI模型的不断进步和硬件技术的提升,具身智能机器人将在更多领域展现其价值。以下是几个值得关注的发展趋势:

  • 自适应学习:机器人能够根据环境变化,自主调整策略,实现持续学习和优化。
  • 情感交互:通过情感识别与表达,提升人机交互的自然性和亲和力。
  • 协同工作:多机器人协作,共同完成复杂任务,提高整体效率。
  • 智能感知:更加精准和多样化的感知能力,提升机器人在复杂环境中的适应性。

在高校实训教育领域,目前TsingtaoAI公司推出了具身智能高校实训解决方案-从AI大模型+机器人到通用具身智能”,该方案基于华为技术有限公司AI框架昇思MindSpore,完成并通过昇腾相互兼容性技术认证。

专家招募

TsingtaoAI面向全球范围的LLM大模型、具身智能、AI机器人、智算、AIGC、数据科学、金融科技、5G、信创、智能制造、智慧能源等领域招募专家讲师,有多种方式合作,合作方式灵活,收益丰厚。欢迎感兴趣的专家与我们联系。

目录
相关文章
|
3天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
5天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
5857 18
|
17天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
9天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
5天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
9天前
|
Cloud Native Apache 流计算
PPT合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
3506 10
PPT合集|Flink Forward Asia 2024 上海站
|
2天前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
607 242
|
22天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5944 16
|
4天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
488 37