一、ipoib_start_xmit函数定义
static netdev_tx_t ipoib_start_xmit(struct sk_buff *skb, struct net_device *dev)
{
struct ipoib_dev_priv *priv = ipoib_priv(dev);
struct rdma_netdev *rn = netdev_priv(dev);
struct ipoib_neigh *neigh;
struct ipoib_pseudo_header *phdr;
struct ipoib_header *header;
unsigned long flags;
phdr = (struct ipoib_pseudo_header *) skb->data;
skb_pull(skb, sizeof(*phdr));
header = (struct ipoib_header *) skb->data;
if (unlikely(phdr->hwaddr[4] == 0xff)) {
/* multicast, arrange "if" according to probability */
if ((header->proto != htons(ETH_P_IP)) &&
(header->proto != htons(ETH_P_IPV6)) &&
(header->proto != htons(ETH_P_ARP)) &&
(header->proto != htons(ETH_P_RARP)) &&
(header->proto != htons(ETH_P_TIPC))) {
/* ethertype not supported by IPoIB */
++dev->stats.tx_dropped;
dev_kfree_skb_any(skb);
return NETDEV_TX_OK;
}
/* Add in the P_Key for multicast*/
phdr->hwaddr[8] = (priv->pkey >> 8) & 0xff;
phdr->hwaddr[9] = priv->pkey & 0xff;
neigh = ipoib_neigh_get(dev, phdr->hwaddr);
if (likely(neigh))
goto send_using_neigh;
ipoib_mcast_send(dev, phdr->hwaddr, skb);
return NETDEV_TX_OK;
}
/* unicast, arrange "switch" according to probability */
switch (header->proto) {
case htons(ETH_P_IP):
case htons(ETH_P_IPV6):
case htons(ETH_P_TIPC):
neigh = ipoib_neigh_get(dev, phdr->hwaddr);
if (unlikely(!neigh)) {
neigh = neigh_add_path(skb, phdr->hwaddr, dev);
if (likely(!neigh))
return NETDEV_TX_OK;
}
break;
case htons(ETH_P_ARP):
case htons(ETH_P_RARP):
/* for unicast ARP and RARP should always perform path find */
unicast_arp_send(skb, dev, phdr);
return NETDEV_TX_OK;
default:
/* ethertype not supported by IPoIB */
++dev->stats.tx_dropped;
dev_kfree_skb_any(skb);
return NETDEV_TX_OK;
}
send_using_neigh:
/* note we now hold a ref to neigh */
if (ipoib_cm_get(neigh)) {
if (ipoib_cm_up(neigh)) {
priv->fp.ipoib_cm_send(dev, skb, ipoib_cm_get(neigh));
goto unref;
}
} else if (neigh->ah && neigh->ah->valid) {
neigh->ah->last_send = rn->send(dev, skb, neigh->ah->ah,
IPOIB_QPN(phdr->hwaddr));
goto unref;
} else if (neigh->ah) {
neigh_refresh_path(neigh, phdr->hwaddr, dev);
}
if (skb_queue_len(&neigh->queue) < IPOIB_MAX_PATH_REC_QUEUE) {
spin_lock_irqsave(&priv->lock, flags);
/*
* to avoid race with path_rec_completion check if it already
* done, if yes re-send the packet, otherwise push the skb into
* the queue.
* it is safe to check it here while priv->lock around.
*/
if (neigh->ah && neigh->ah->valid)
if (!ipoib_cm_get(neigh) ||
(ipoib_cm_get(neigh) && ipoib_cm_up(neigh))) {
spin_unlock_irqrestore(&priv->lock, flags);
goto send_using_neigh;
}
push_pseudo_header(skb, phdr->hwaddr);
__skb_queue_tail(&neigh->queue, skb);
spin_unlock_irqrestore(&priv->lock, flags);
} else {
++dev->stats.tx_dropped;
dev_kfree_skb_any(skb);
}
unref:
ipoib_neigh_put(neigh);
return NETDEV_TX_OK;
}
二、函数解读
该函数 ipoib_start_xmit 是用于 IP over InfiniBand (IPoIB) 模式的 InfiniBand 内核网络栈处理发送网络数据包的标准入口点。该函数的职责是准备并发送一个 socket buffer(`skb`),该 buffer 包含了要发送的网络数据。以下是该函数的详细中文解读:
1. ipoib_start_xmit 函数接收两个参数:
- skb:一个指向数据包(socket buffer)的指针,这个数据包即将被发送。
- dev:一个指向相关网络设备 (net_device) 的指针。
2. 函数首先通过调用 ipoib_priv(dev) 来获取这个网络设备的 IPoIB 私有数据结构 ipoib_dev_priv。
3. 函数通过 skb->data 获取 IPoIB 伪头部 (ipoib_pseudo_header),然后通过 skb_pull 函数将数据包指针向前移动,跳过伪头部,指向实际的 IPoIB 头部 (ipoib_header)。
4. 通过分析伪头部和 IPoIB 头部的内容,函数会检测数据包是单播还是多播。如果是多播,并且协议类型不被 IPoIB 支持,则丢弃此数据包并返回。
5. 对于多播数据包,函数添加 P_Key,并获取或创建一个邻居(neighbor)条目。如果获取邻居条目成功,则跳转到 send_using_neigh 标签来发送数据包;否则,通过 ipoib_mcast_send 函数发送多播数据包。
6. 对于单播数据包,根据协议头部中的协议类型,函数确定如何处理数据包。如果是 IP、IPv6 或 TIPC 协议,函数尝试获取一个邻居条目。如果没有找到,则通过 neigh_add_path 函数添加一个路径,并发送数据包。对于 ARP 或 RARP 协议,函数使用 unicast_arp_send 发送单播ARP请求。
7. 来到 send_using_neigh 标签,如果获取到邻居并确定了有效的通信路径,根据邻居条目的状态(是否启用了连接管理 CM 或者是否有有效的地址句柄 AH),发送数据包或者将数据包加入发送队列,等待有效通信路径建立。
8. 如果邻居的发送队列已满,那么数据包会被丢弃,并更新统计量 dev->stats.tx_dropped。
9. 在引用了一个邻居条目,并处理完后,通过调用 ipoib_neigh_put 函数减少邻居条目的引用计数。
10. 最后,函数返回 NETDEV_TX_OK,表示数据包的发送过程已经被正确处理,不管是直接发送、入队列等待,还是被丢弃。
总的来说,`ipoib_start_xmit` 函数处理从 IPoIB 网络设备发出的网络数据包的发送。函数会根据目标地址是单播还是多播以及数据包的类型,采取适当的发送策略,并处理数据路径查找和邻居管理等任务。