开题失败后看了不少论文,人机结合这个方向查了一下……作为毕业论文的题目还真没有,无论是知网公开的还是中科院自建库学生毕业论文都没有这个题目……这实验怎么设计啊……主观的,还要让模型像人,还要让模型更容易被人调教(我想到了大模型+提示词,但也不算研究啊)
之前的思想比较极端,觉得人和机器对于操作来说可以相互替代,就像通过图灵测试就可以那种。但后来读了不少论文发现确实我太过狭隘了,人还是有不可被替代的部分(不是责任和背锅的这种)。
第一点,人的第一性
首先,就算数据挖掘方法很多、适配方法自适应,仍然逃不出这些方法是由人来发现和制定的。
人都说不清楚,指望机器说清楚,在短期内是很难做到的。如果说学习的实质就是分类,那么人的学习就是获得并创造分类的方法,而机器学习只是简单使用了一些分类的方法而已。
我发现,我们所作的研究不过都是对来自实践的数据进行处理加工,加工过程中会发现规律和更高效的方法,然后把发现公布,称之为研究。而局限性在于处理加工定义仍然受制于人,还都是人定的方法、流程。
深度强化学习的方案形成速度和质量严重依赖于奖赏函数的设定:对作战行动序列进行探度强化学习建模和求解的过程中,一般假设激励函数是人为给定的激励函数的给定带有很强的主观性和经验性,不同的激励函数会导致最优策略的不同。
第二点,处理的区别
对于模糊性和不知道的不确定的,还是需要人来主导,这部分涉及人的信念、观念等。人解决“做正确的事”,机解决“正确地做事”。“人智”主要是明辨是非,“机智”侧重于模式识别。
在复杂、异质、非结构和非线性的数据/信息/知识中,人/类人的方向性预处理十分重要;当问题域被初步缩小范围后,机器的有界、快速及准确的优势便可以显现出来。此外,机器在获得大量数据/信息/知识后,也可以先把这些数据/信息/知识初步映射到几个领域,然后再由人进一步处理分析。这两个过程的同化适应及交叉平衡,体现的就是人机有机融合的过程。
第三点,辅助人类发挥创造性
智能决策的定位是辅助,而不能代替人。
增强人机互信,通过对结论的过程解释。
贴合人类偏好进行反馈和激发。“弹性知识库——通过学习最佳决策的反馈,进一步了解指挥员的决策风格和当下态势所需信息.重复该过程,对指挥员的风格进行学习,达到人机深度结合,实现指挥员风格的迁移.通过该个性化人机交互机制,实现机器和人之间相互学习、知识共享,从而作出既能匹配当前作战任务,也能匹配当前指挥员风格的最佳个性化人机融合态势认知.”
人件技术的核心是在训练过程中融入人的行为偏好,通过人类行为决策数据进行训练,训练出一个初步的模型。而强化学习算法可以直接从初步的模型中提取相关数据,进而能训练出更具有智能性的AI。
还有几段有趣的摘抄:
(一)
牛津大学教授彭罗斯也认为:“在宇宙中根本听不到同一个节奏的‘滴答滴答’声响。一些你认为将在未来发生的事情也许早在我的过去就已经发生了。2位观察者眼中的2个无关事件的发生顺序并不是固定不变的;也就是说,亚当可能会说事件P发生在事件Q之前,而夏娃也许会反驳说事件P发生在事件Q之后。在这种情形下,我们熟悉的那种清晰明朗的先后关系——过去引发现在,而现在又引发未来——彻底瓦解了。没错,事实上所谓的因果关系(causality)在此也彻底瓦解了。”
——宇宙是如此荒诞呢
(二)
——祭出在一篇论文中的图和话,很重要,“关于……不同期待,分化出……两条路径”。这样看来,仍然是同源和相互促进的,人机交互、人机协同直到最后的人机融合状态。
(三)
如果把人工智能的无所不能的滤镜去掉,回归到最原始的程序,那么……
1994年,X窗口系统开发组的成员Mike Gancarz根据自己的经验以及和其他领域使用Unix系统的资深程序员们的讨论结果,写成了The UNIX Philosophy,提出了9条格言:
一:小即是美。
二:让程序只做好一件事。
三:尽可能早地创建原型。
四:可移植性比效率更重要。
五:数据应该保存为文本文件。
六:尽可能地榨取软件的全部价值。
七:使用shell脚本来提高效率和可移植性。
八:避免使用可定制性低下的用户界面。
九:所有程序都是数据的过滤器。
——也是完美符合“人做算力的决策,机器负责执行”。
(四)
(威廉在计算地球的历史时长)赫胥黎(Thomas Henry Huxley,1825-1895)对威廉的工作评论道:
“数学就像一台精巧的磨面机,能磨出要多精细有多精细的粉料。但是,不管怎样,你得到什么取决于你投入了什么,就像世界上最伟大的磨坊不可能从豌豆中磨出小麦粉一样,一页一页的公式也不可能从零散的数据中得到确定的结果。”
数学本身没有太大错误,但是威廉遗漏了一个因素——放射性。20世纪初,物理学家意识到,放射性为地球提供了一种内部加热机制,从而减缓了地球的冷却进程,所以,地球历史要比威廉的计算结果更久。
——也是需要人来发现新的规律和特性,数学、人工智能就是那个“精巧的磨面机”,但入料小麦才能得到面粉。
读论文列表:
——批次0618
AlphaStar重要机理...析及对智能化作战推演的启示_孙宇祥.pdf
“我是谁”:人机融合智能的发展瓶颈_刘伟.pdf
一种基于人机融合的态势认知模型_王玉虎.pdf
五力模型与OODA环模型相融合的企业战略决策模型_周至.pdf
人-智能体协作系统的信任校准_刘伟.pdf
人机交互智能中的几个困难问题_刘伟.pdf
人机智能的分界_刘伟.pdf
人机智能融合_人工智能发展的未来方向_刘伟.pdf
人机混合智能是未来智能领域的发展方向_刘伟.pdf
人机混合智能的可行架构:计算——算计模型_刘伟.pdf
人机混合智能:新一代智能系统的发展趋势_刘伟.pdf
人机环境系统智能与生产方式变革_刘伟.pdf
人机融合智能与伦理_刘伟.pdf
人机融合智能时代的人心_刘伟.pdf
人机融合智能的现状与展望_刘伟.pdf
人机融合智能的若干问题探讨_刘伟.pdf
关于人机若干问题的思考_刘伟.pdf
基于OODA模型的兵棋推演训练平台构建_李原百.pdf
基于属性约简与BP神经网络的舰艇目标威胁评估方法_孙宇祥.pdf
基于改进A~_算法的路径规划在海战兵棋推演中的应用_张韬.pdf
基于知识及A3C算法的兵棋推演智能决策模型研究_彭益辉.pdf
基于知识的海战场态势评估与辅助决策系统构建_孙宇祥.pdf
基于联邦学习的分布式训练系统设计与实现_刘伟.pdf
对GPT及未来人机融合智能的思考_刘伟.pdf
对抗环境下的智能兵棋系统设计及其关键技术_孙宇祥.pdf
智能与人机融合智能_刘伟.pdf
智能博弈综述:游戏AI对作战推演的启示_孙宇祥.pdf
智能指挥与控制系统人机混合模型研究_孙宇祥.pdf
智能指挥与控制系统发展路径与未来展望_孙宇祥.pdf
智能时代的“超级权力”诞生_刘伟.pdf
智能的关键_刘伟.pdf
有关军事人机混合智能的几点思考_刘伟.pdf
有关态势感知中通信问题的思考_胡志军.pdf
浅析对智能的误解与新智能的建构_刘伟.pdf
深度态势感知与智能化战争_刘伟.pdf
知识牵引与数据驱动的兵棋AI设计及关键技术_程恺.pdf
科幻电影是人机与艺术融合的智能系统_刘伟.pdf
考虑权重信息未知的区间直觉模糊三支群决策方法_刘久兵.pdf
自生成兵棋AI:基于大语言...型的双层Agent任务规划_孙宇祥.pdf
融合三支多属性决策与SAC的兵棋推演智能决策技术_彭莉莎.pdf
融合先验知识的异构多智能体强化学习算法研究_周佳炜.pdf
融合多尺度特征与软注意力的态势认知方法_项祺.pdf
面向人机协作的新型交互方式应用研究_李敏.pdf
面向作战体系结构分析的作战推演系统设计_徐爽.pdf
面向多维作战的效能评估模型研究_戴迪.pdf
——批次0702
群视角下的多智能体强化学习方法综述 项凤涛
基于强化学习的知识图谱综述 马昂
基于深度学习的生成式聊天机器人算法综述 孙立苑
基于知识的深度强化学习研究综述 李层溪
分层星化学习研究综述 沈晶
随机博弈框架下的多agent强化学习方法综述 宋梅萍
强化学习研究综述喻建明
邮强化学习研究综述 陈学松
强化学习的模型 算法及应用战思丽
多Agent系统研究综述 张小苹
烟深度强化学习综述 刘全
深度学习发展综述 侯宇青阳
强化学习研究综述高阳
——批次0710
基于多智能体强化学习的协同决策算法 徐基华
基于Transformer的自动驾驶交互感知轨迹预测 景荣茉
控制与抵抗 人工智能电影中的性别博弈_李莘
双智能体协作学习的众包物流任务分配模型 向传凯
深意强化学网中的和只迁移方法研究综述 张启阳
基于布谷鸟鸽群融合算法的多智能体避障研究 吴波
多智能体编队控制中的迁移强化学习算法研究 胡鹏林
基于冲突搜索的多智能体路径规划研究进展 王子晗
基于群智能体深度强化学习的模块化机器人自重构算法 王翰学
安全强化学习综述 王雪松
端虚拟学术社区知识交流多智能体仿真演化研究 张瑞
基于两阶段意图共享的条智能体强化学网方法 吴俊锋
智能新物种崛起与人机传播模式重构 宋美杰
感基于意图的多智能体深度强化学习运动规划方法彭滢璇
蝎从生成式到多智能体的转向的人工智能艺术创作陈抱阳
基于改进强化学习的多智能体追逃对抗 薛雅丽
博弈智能的研究与应用 郝建业