Git代码冲突原理
Git合并文件是以行为单位进行一行一行合并的,但是有些时候并不是两行内容不一样Git就会报冲突,这是因为Git会帮助我们进行分析得出哪个结果是我们所期望的最终结果。而这个分析依据就是三路合并算法。当然,三路合并算法并不能帮助我们绝对的避免冲突,当三路合并算法也不能帮助我们合并结果时,这个时候Git会将冲突交由开发者,由开发者进行人工干预得出最终合并结果。
1.1 两路合并算法
学习三路合并时我们先了解一下"两路合并"。两路合并算法就是将两个文件进行逐行对别,如果行的内容不同就报冲突,两路合并示意图如下图所示。
两路合并的弊端是非常大的,他几乎没有任何作用。因为在两路合并中缺少了一个比较基准,在两个分支进行合并时,只要两个文件有某一行不一样,那么合并时必定出现冲突,这显然是不友好的。
假设对于同一个文件,其中有一个人在分支上修改了内容,但是我们并没有修改文件内容,此时我们想要合并其他人刚刚修改的内容,我们当前版本的内容(Ours)和其他人当前版本的(Theirs)Git都认为正确的,最终Git只能让我们自己来处理这种冲突了,这种情况非常多且没有必要出现冲突。而这种情况产生的核心就是缺少比较基准,即不知道Ours和Theirs上一个版本是什么,无法得出Ours和Theirs有没有对上一个版本进行改动。
1.2 三路合并算法
三路合并是Git中用于解决分支间差异和冲突的核心算法。在Git进行分支合并时,它会寻找三个提交点:两个分支的HEAD(即当前提交)以及它们共同的最近祖先提交。这被称为“三路”:
- 共同祖先(Common Ancestor):这是两个分支合并前的最近共享提交
- 当前分支(Ours):即将合并到的分支,通常是你正在操作并想要合并其他分支到的分支
- 待合并分支(Theirs):你想要合并进当前分支的那个分支
三路合并算法的工作原理如下:
- 对于每个文件,Git会对比这三个提交点(三路)中的内容。
- 如果在共同祖先之后,两个分支对同一文件做出了不同的修改,那么就会出现冲突,Git会在合并过程中标记出这些冲突,并暂停合并,等待用户手动解决。
- 如果双方对某个文件的修改不冲突(修改的内容是一致的),Git则能自动将这些更改合并在一起。
如下图,我们的代码(Ours)需要合并其他人的代码(Theris)的时候,Git会尝试找到这两次提交的共同祖先(Base),以共同祖先作为比较基准,如果一方相对于Base进行了修改,另一方相当于Base没有修改,那么此时合并成功,如果双方都相对于Base进行了修改,那么此时合并就会出现冲突。
如下图所示
代码演示如下:
rm -rf ./* .git # 重新初始化仓库
git init
echo "Hello" >> aaa.txt
git add ./
git commit -m 'Hello' ./
git checkout -b test # 创建并切换到一个新分支
vi aaa.txt # 编辑为Hello World
cat aaa.txt
Hello World
git commit -m 'Hello World' ./ # 提交
git log --oneline # 此时还是同轴开发路线
* 594456e (HEAD -> test) Hello World
* 2bd777a (master) Hello
git checkout master
git merge test # 属于快进合并(不会出现代码冲突)
cat aaa.txt
Hello World
如下图,在Ours合并Theirs时,双方都相对于比较基准Base进行了修改,那么此时合并就会出现冲突。我们不难发现,下图描述的其实是一个典型合并的场景。
代码演示如下:
rm -rf ./* .git # 重新初始化仓库
git init
echo "Hello" >> aaa.txt
git add ./
git commit -m 'Hello' ./
git branch test
vi aaa.txt
cat aaa.txt
Hello Git
git commit -m 'Hello Git' ./
git log --oneline --all --graph
* 1317c49 (HEAD -> master) Hello Git
* 75b8528 (test) Hello
git checkout test # 切换到test分支开发
vi aaa.txt
cat aaa.txt
Hello World
git commit -m 'Hello World' ./
git log --oneline --all --graph
* c7aefff (HEAD -> test) Hello World # 产生分叉开发路线
| * 1317c49 (master) Hello Git
|/
* 75b8528 Hello
git checkout master # 切换回master分支
git merge test # 合并test分支(出现代码冲突)
Auto-merging aaa.txt
CONFLICT (content): Merge conflict in aaa.txt
Automatic merge failed; fix conflicts and then commit the result.
cat aaa.txt # 查看冲突内容
<<<<<<< HEAD
Hello Git
=======
Hello World
>>>>>>> test
了解完上面的案例,我们可以把测试变为更加复杂,如下图。
通过上图我们可以得出如下规则。
- 只有一方修改了同一个文件的同一行内容,则最终合并结果为修改过的内容
- 双方都修改了同一文件的同一行内容:
- 如果双方修改的内容一致,则最终合并结果为修改过的内容
- 如果双方修改的内容不一致,则出现冲突
代码演示如下:
rm -rf ./* .git
git init
echo "A1" >> aaa.txt
echo "B2" >> aaa.txt
echo "C3" >> aaa.txt
echo "C3" >> aaa.txt
echo "D4" >> aaa.txt
echo "D4" >> aaa.txt
echo "E5" >> aaa.txt
git add ./
git commit -m 'a' ./
git checkout -b test
echo "A1" > aaa.txt # 注意 ">" 会清空文件
echo "B2" >> aaa.txt
echo "C3" >> aaa.txt
echo "C0" >> aaa.txt
echo "D4" >> aaa.txt
echo "D1" >> aaa.txt
echo "E0" >> aaa.txt
git commit -m 'b' ./
git checkout master
echo "A1" > aaa.txt # 注意 ">" 会清空文件
echo "B0" >> aaa.txt
echo "C3" >> aaa.txt
echo "C0" >> aaa.txt
echo "D4" >> aaa.txt
echo "D0" >> aaa.txt
echo "E0" >> aaa.txt
git commit -m 'c' ./
# 合并test分支(产生冲突)
git merge test
Auto-merging aaa.txt
CONFLICT (content): Merge conflict in aaa.txt
Automatic merge failed; fix conflicts and then commit the result.
# 查看冲突文件
cat aaa.txt
A1
B0
C3
C0
D4
<<<<<<< HEAD # 只有这一行出现了冲突
D0
=======
D1
>>>>>>> test
E0
通过这种三路合并策略,Git能够高效地处理大部分情况下的代码合并,同时确保开发者可以准确无误地解决任何出现的合并冲突,以维护项目历史的一致性和可追溯性。
通过三路合并算法,Git能够很灵活的帮助我们在一些情况下进行自动的代码合并,以及识别出代码是否冲突、冲突的部分等。但是Git底层判断文件差异的变更却是依赖于diff文件差异算法。也就是说,只有通过diff算法得出文件差异之后,才能够根据三路合并来进行下一步操作,例如是应该合并代码还是出现冲突以及冲突代码的识别等操作。这在某些情况下可能会出现一些细小的问题,例如我们分析下面案例。
通过我们之前分析的案例可以得出,冲突的只有第四行。
代码演示如下:
rm -rf ./* .git
git init
echo "A1" >> aaa.txt
echo "B2" >> aaa.txt
echo "C3" >> aaa.txt
echo "D4" >> aaa.txt
echo "E5" >> aaa.txt
git add ./
git commit -m 'a' ./
git checkout -b test
echo "A1" > aaa.txt # 注意 ">" 会清空文件
echo "B2" >> aaa.txt
echo "C0" >> aaa.txt
echo "D1" >> aaa.txt
echo "E0" >> aaa.txt
git commit -m 'b' ./
git checkout master
echo "A1" > aaa.txt # 注意 ">" 会清空文件
echo "B0" >> aaa.txt
echo "C3" >> aaa.txt
echo "D0" >> aaa.txt
echo "E0" >> aaa.txt
git commit -m 'c' ./
# 合并test分支(产生冲突)
git merge test
Auto-merging aaa.txt
CONFLICT (content): Merge conflict in aaa.txt
Automatic merge failed; fix conflicts and then commit the result.
cat aaa.txt
A1
<<<<<<< HEAD
B0
C3
D0
=======
B2
C0
D1
>>>>>>> test
E0
但是我们实际测试得出,出现冲突的不仅仅是第四行,如下图所示。
为什么②和③也会出现冲突呢?这中间就存在了diff算法的影响,diff算法计算从①之后的代码大部分都发生了变更,并没有逐行去对比内容,而是抛出了一整块的代码冲突。这可能是Git出于性能的考虑,虽然这样的做法在某些情况下并不明智,但这并不会对我们的开发造成很大的影响。在绝大多数情况下,我们并不会对代码那几行出现了冲突很敏感,我们只要灵活的掌握如何处理代码冲突就能应对实际开发过程中的实际问题。
1.3 递归三路合并
三路合并为我们在合并分支时提供了基准(Base),这个基准就是要合并分支的共同祖先,但有时候两个分支之间的共同祖先存在多个,这个时候Git就会将这两个分支的共同祖先做一次虚拟合并,当做这两个分支的共同祖先。这种情况常见于交叉合并,如下图所示。
B、C先合并一次成为D,然后B、C再合并一次成为E,此时E、D存在多个共同祖先为B和C。此时E和D如果要进行合并,需要找到一个唯一的共同祖先,Git的做法是先将B和C这两个共同祖先做一次虚拟合并为X,以X节点作为E和D合并时的唯一共同祖先。然而在合并B和C时又需要找到B和C的共同祖先(A),如果此时B和C也存在多个共同祖先,那么同样先把B和C的共同祖先做一次虚拟合并成为一个唯一的共同祖先。这个过程就是递归三路合并。
下面我们通过代码来完成上述图中表示。
(1)初始化仓库。
rm -rf .git ./*
git init
echo 'A' >> aaa.txt
git add ./
git commit -m 'A' ./
(2)开发B版本。
echo 'B' >> aaa.txt
git commit -m 'B' ./
git log --oneline --all --graph
* 4bdf139 (HEAD -> master) B
* 18e222f A
(3)在A版本处建立分支,开发C版本。
git checkout -b test 18e222f # 在A版本处建立分支
echo "C" >> aaa.txt
git commit -m 'C' ./
git log --oneline --all --graph
* 940e119 (HEAD -> test) C
| * 4bdf139 (master) B
|/
* 18e222f A
(4)切换到master分支,合并test分支。相当于B合并C。
git checkout master # 切换回master分支
git merge test # 合并test分支,相当与B合并C,出现冲突
cat aaa.txt # 查看冲突内容
A
<<<<<<< HEAD
B
=======
C
>>>>>>> test
vi aaa.txt # 编辑文件(解决冲突)
cat aaa.txt
A
B
C
git add ./
git commit -m 'D'
git log --oneline --all --graph
* 1262b32 (HEAD -> master) D
|\
| * 940e119 (test) C
* | 4bdf139 B
|/
* 18e222f A
(5)在B版本处建立一个新的分支,然后切换到该分支合并test分支。相当与B再合并一次C。
git checkout -b test-B 4bdf139 # 在B节点处建立一个新的分支
git log --oneline --all --graph
* 1262b32 (master) D
|\
| * 940e119 (test) C # test分支的位置
* | 4bdf139 (HEAD -> test-B) B # 新分支的位置
|/
* 18e222f A
git merge test # 合并test分支,相当于B合并C,出现冲突
cat aaa.txt # 查看冲突内容
A
<<<<<<< HEAD
B
=======
C
>>>>>>> test
vi aaa.txt # 编辑文件(解决冲突)
cat aaa.txt # 查看内容
A
C
B
git add./
git commit -m 'E'
git log --oneline --all --graph
* 9e610d9 (HEAD -> test-B) E # E的祖先有B和C
|\
| | * 1262b32 (master) D # D的祖先有B和C
| |/|
|/|/
| * 940e119 (test) C
* | 4bdf139 B
|/
* 18e222f A
(6)切换回master分支,合并test-B分支。相当于D合并E。
git checkout master # 切换到master分支
git merge test-B # 合并test-B分支,相当于D合并E,出现冲突
cat aaa.txt # 查看冲突内容
A
<<<<<<< HEAD
B
C
=======
C
B
>>>>>>> test-B
我们结合代码和文件内容等一起来分析一下Git递归三路合并算法,如图所示。
E和D合并时寻找共同祖先,找到了B和C,接着B和C做一次虚拟合并为X,其结果如下:
A
<<<<< B
B
=====
C
>>>>> C
本次X就是E和D合并时的共同祖先;Git将X节点冲突部分忽略,将剩余部分作为共同祖先的基准内容;因此,在D合并E时,出现如下内容:
A
<<<<<<< D
B
C
=======
C
B
>>>>>>> E